新的基準揭示個人 AI 助手即使有長期上下文也常常失敗
目錄
你可能想知道的事
1. 現代大型模型真的能可靠地管理數月的使用者活動並跨多個服務協調嗎?
2. 現有基準是否反映真實世界的助手任務,還是缺少關鍵的實務挑戰?
主要議題
來自華為技術的研究人員與北京理工大學、北京大學及中國科學院的團隊一起,提出了一套新的評估組合,用以衡量 AI 代理在現實且混亂的環境中作為個人助手的表現。該基準──稱為 Claw-Anything──與許多既有測試不同,透過模擬延長的、多月的使用者歷史、數個相互依賴的後端服務,以及多裝置互動來進行評估。目標是觀察代理在面對持續、雜訊多且多面向的情境(類似日常生活)時是否能正確行事。
傳統基準常常給 AI 系統較為緊湊且範圍明確的問題:單一提示、一個受限的資料集、或只需在有限上下文視窗內推理的任務。Claw-Anything 故意擴大了範圍。 此基準每個任務的平均上下文約為 191,700 字,這比許多先前評估(通常提供 1,700 到 12,000 字)大好幾個數量級。這個差異不僅是量的不同──它改變了問題的性質。代理不再是解決短期謎題,而是必須在冗長的事件歷史中導航、過濾雜訊,並識別與當前目標相關的資訊子集。
此基準中的任務複雜且寫實。範例包括交叉參照數週前發現某項商品的先前價格提醒、檢查行事曆可用性並從行動裝置完成操作;或從筆記、電子郵件線索與聊天中彙整最近工作,然後從頭建立簡報。這些多步任務要求代理從不同資料來源與介面中檢索、綜合並執行。為反映此一點,基準規定 每個任務平均有 10.1 個後端服務,涵蓋命令列 Linux 環境與 GUI Android 互動。
績效以 pass@1 測量──即代理在不重試的情況下首次嘗試完成任務的機率。這個指標特別嚴格,因為個人助手情境很少允許多次嘗試。在這種標準下,幾個在其他基準表現良好的領先模型在此處顯著降低成功率。例如,OpenAI 的 GPT-5.5(被描述為針對有代理性與長期任務優化的模型)在 Claw-Anything 的 pass@1 僅達 34.5%。這表明在既有測試中取得高分並不必然轉化為在真實世界長期情境中的穩健表現。
該基準也單獨評估主動協助:即代理在沒有明確請求時識別使用者需求並採取行動的情況。大多數先前基準專注於被動反應任務,但在真實環境中,助手的有用性往往取決於是否能主動發現並解決需求。Claw-Anything 報告了鮮明對比:代理在被動任務得分為 25.9%,但在主動任務僅為 6.7%。這一差距意味著目前的模型不僅在處理複雜指令上掙扎,也在主動性以及對何時及如何介入的準確判斷上存在困難。
為何代理在這些情況下會失敗?作者們認為許多既有基準實際上給了代理一張乾淨的桌面:單一、明確規定的問題,幾乎沒有無關上下文。Claw-Anything 則相反,將正確訊號嵌入數月的無關事件、矛盾線索與重疊參照中。有效的助手必須先辨識何者重要,然後才能採取行動。論文中的消融研究強調了多服務協調的重要性:移除工具或跨服務存取會使成功率暴跌,因為許多任務本質上依賴於從多個後端提取資料並跨系統執行,而非僅停留在單一系統內。
團隊不僅指出不足,也提供資源協助社群回應。他們釋出了一個自動化資料管線來生成基準環境,並公開了 2,000 個訓練環境。當他們以管線生成的 1,500 條成功代理軌跡微調一個開放權重模型(Qwen3.5-27B)時,基準的 pass@1 提升了 23.7%。這樣的提升足以超越排行榜上的數個封閉源基準,說明針對性訓練資料以及對長期、多服務情境的暴露會實質改善表現。
儘管有進展,跨服務協調仍是主要挑戰。代理需要可靠的方法來發現相關服務、管理驗證與狀態,並以能維持一致性與正確性的方式在端點與裝置間安排互動。這不僅涉及更好的規劃與工具使用機制,還需要改進記憶、上下文過濾與驗證策略,以確保行動適當且安全。
Claw-Anything 已公開提供:資料集託管在 Hugging Face,程式碼庫在 GitHub。藉由同時提供基準與生成管線,作者旨在推動研究朝能處理現實數位生活混亂面的助手發展,而非僅為狹窄測試床最佳化。這項倡議重新定義了評估:成功應該意味著能在雜亂、多月的情境中可靠地完成複雜且跨領域的個人任務,而不僅僅是在精心策劃的謎題中得高分。
簡言之,該基準表明儘管大型模型進展迅速,實驗室中的表現與構建可依賴個人助手所需能力之間仍存在顯著差距。該領域現在有了一個更清晰且更具挑戰性的目標:建立能篩選數月活動、跨多項服務與裝置協調並能主動行動的代理——並在嚴格且真實的條件下驗證這些能力。
關鍵洞見表
| 面向 | 說明 |
|---|---|
| 基準範圍 | 長期事件串(約 3 個月以上)且具有大上下文視窗(平均約 191,700 字)。 |
| 服務複雜性 | 任務平均涉及 10.1 個相互依賴的後端服務,需跨服務檢索資料並執行操作。 |
| 衡量方式 | pass@1 指標:首次嘗試成功;將被動與主動協助分開評估。 |
| 模型表現範例 | GPT-5.5 的 pass@1 得分為 34.5%,顯示與其他基準相比存在大幅差距。 |
| 訓練訊號 | 在生成的成功軌跡上微調使一開放權重模型的 pass@1 提升了 23.7%。 |
| 主要挑戰 | 跨服務協調與主動協助仍為關鍵未解決問題。 |
後續⋯
展望未來,Claw-Anything 重新界定了如何評估個人 AI 助手:成功需要穩健的記憶、精準的相關性過濾、可靠的工具與服務編排,以及謹慎的主動行為。管線與環境的釋出為研究者提供了實務上的槓桿來訓練與測試新方法,而鮮明的結果則提醒我們:令人印象深刻的基準數字並不保證真實世界的可靠表現。持續在工具使用、驗證、狀態管理與安全性上的工作,對於從有前景的示範邁向人們能信任其數位生活的助手至關重要。
資料集與程式碼已在 Hugging Face 與 GitHub 上公開,供想要實驗並為更能幹且值得信賴的個人助手做出貢獻的研究者與開發者使用。