文章上線

評估 AI 是否準備好擔任專業角色:新的測試引發擔憂

評估 AI 是否準備好擔任專業角色:新的測試引發擔憂

亮點

雖然有顯著的進展,AI 在取代白領工作的適應速度比預期要慢。一個新的基準測試,Apex-Agents,顯示 AI 系統在應對複雜專業問題時明顯困難,正確回答率不到四分之一。這一關鍵見解對理解 AI 在專業領域目前的能力具有重大影響。 不斷有努力去提高 AI 在這些高風險環境中的表現。

情緒分析

  • 本文的總體情緒可以被認為是中立的,帶有一些擔憂,因為它既突出了 AI 在專業任務中當前的局限性,也展望了未來的潛力。
  • 新的基準測試揭示了AI能力中的基本空白,對AI可能最終達到的進展反應不一。
  • 雖然進展得到了認可,但情感表明對未來改進的謹慎樂觀。
55%

文章內容

近期的見解挑戰了長期以來認為 AI 會迅速取代許多傳統白領角色的觀點。儘管 AI 模型的基礎見證了顯著進步,但對知識工作的影響比預期的要慢且不那麼深遠。根據微軟 CEO Satya Nadella 的說法,AI 被預測會革新法律、金融和信息技術等領域,但這一轉變尚未在大規模上發生。Mercor 的新研究透過引入 Apex-Agents 基準測試,揭示了 AI 處理白領專業中複雜任務的準備情況的關鍵見解。這項基準測試突出了 AI 模型在應對來自諮詢、投資銀行和法律顧問等專業領域的真實任務時所面臨的困難。驚人的是,當這些模型被要求回答真實的專業問題時,結果顯示 AI 在準確性上掙扎,僅有約25% 的正確回答率。 AI 的一個主要障礙是它目前在有效導航和整合跨多個領域的信息上的不足,這是許多專業任務的基石。如研究員 Brendan Foody 所述,基準測試重現了一個現實辦公環境,融入了如 Slack 和 Google Drive 這樣的平台,以更好地模擬專業挑戰。歷史上,AI 模型在需要多領域推理的情境中踉蹌不前,這標誌著未來發展的重要領域。基準測試的開發涉及了 Mercor 專家市場的真實專業人員,他們創建了場景。他們的投入提供了關鍵見解,一些問題反映出即使是經驗豐富的人類專業人士也會面臨挑戰的任務。這聚焦於 AI 當前能力的狀況作為評估工具及呼籲進一步創新的方法,尤其是以往的基準測試已在 AI 領域中引領了重大進展。開放式 AI 的 GDPVal 也嘗試衡量類似能力,廣泛聚焦多個職業,而 Apex Agents 基準測試則集中於範圍較窄的高風險任務。初步調查顯示 AI 雖尚未準備好取代如投資銀行家等角色,但顯示出潛力。使用如 Gemini 3 Flash 和 GPT-5.2 模型的最成功嘗試表明,進展正在進行,Foody 樂觀的看法支持 AI 的表現將會如同實習生學習懸鈴一樣迅速改進。總體而言,正在浮現的挑戰和持續的改進讓 AI 領域對未來保持樂觀。

關鍵見解表格

方面 描述
AI 表現 在專業任務基準中準確性掙扎,只達到 25%。
基準重點 針對諮詢、投資銀行及法律等領域的任務,揭示 AI 的領域整合挑戰。
未來前景 隨著基準測試推動 AI 的進一步發展,預期改進。
最後編輯時間:2026/1/22

Power Trader

Z新聞專欄作家