微軟全新開放權重 AI 模型在網頁瀏覽任務上超越 OpenAI 與 Google
重點
Microsoft Research 的小型 Fara1.5 系列 — 提供 4B、9B 與 27B 參數規模 — 在自動化瀏覽器任務上表現優異。在 Online-Mind2Web 基準測試中,Fara1.5-27B 得分 72%,超越 OpenAI 的 Operator(58.3%)與 Google 的 Gemini 2.5 Computer Use(57.3%)。這些模型是從 Qwen 3.5 微調而來,並以開放權重與推理程式碼釋出;9B 版本已在 Azure AI Foundry 上線,其他規模也將很快推出。
情緒分析
- 整體對此發展的情緒是正面且樂觀的。此發布藉由開放權重與公開程式碼強調可及性與透明度,社群通常重視這類能促成獨立評估與更廣泛創新的做法。基準結果所展現的進展令人信服:微軟的模型在網頁互動任務上顯示出明顯的實際進步。
文章內文
Microsoft Research 推出了一個名為 Fara1.5 的小型模型系列,針對代理型瀏覽器任務——例如在各網站間比較商品、填寫表單,以及像人類一樣閱讀並與網頁互動以預訂服務等行為。這些模型提供三種參數規模:40 億、90 億與 270 億。所有模型皆由 Alibaba 的 Qwen 3.5 微調而成,且微軟已將模型權重與推理程式碼公開,讓組織與研究人員能在自有硬體上執行。
Fara1.5 在旨在衡量真實瀏覽能力的基準測試中表現突出。在 Online-Mind2Web(評估代理在眾多即時網站上完成 300 項真實任務的能力)中,Fara1.5-27B 達到 72% 的任務成功率。此成績優於專有替代方案:OpenAI 的 Operator 為 58.3%,Google 的 Gemini 2.5 Computer Use 為 57.3%。即便是中等規模的 Fara1.5-9B 也達到 63.4%,領先上述競爭者。在第二個基準 WebVoyager 中,Fara1.5-27B 得分 88.6%,略微超越 OpenAI 的 Operator,且擊敗其他大型專有模型。
達成這些結果需要重新思考端到端的開發流程。微軟的 AI Frontiers 團隊描述了思考小型模型要如何在代理任務上表現良好,並因此共同重設資料生成、訓練目標、模型架構與協調機制,而非各自為政。訓練流程的一個核心要素是 FaraGen1.5 資料生成系統。值得注意的是,微軟使用由強大外部模型 GPT-5.4 所產生的示範作為教師代理,來生成高品質的瀏覽行為範例。那些示範隨後被用作 Fara1.5 的訓練資料,有效地利用最先進的專有模型來引導一個開放權重的替代方案。
為了在原本需要真實憑證或不可逆操作的任務上進行安全練習,團隊建立了數個逼真的合成網站——如電子郵件、行事曆與市集——其行為類似真實網站。這種合成領域訓練讓模型能在不接觸實際帳戶的情況下學習互動,例如登入、撰寫訊息與進行預訂。該方法提升了模型在先前較弱的「受限」或敏感任務上的表現。
微軟也將防護與使用者控制列為優先。Fara1.5 在名為 MagenticLite 的沙盒環境中運行,該環境會記錄每個操作並允許使用者暫停或停止代理。系統設計包含在執行不可逆操作前提示代理停止並請求確認的檢查機制。微軟強調需要在保護措施與順暢的使用者體驗之間取得平衡,以避免以過多提示淹沒使用者或造成批准疲勞。
瀏覽器代理領域競爭激烈,主要公司如 Google、Perplexity 與 Anthropic 亦有相關產品。Fara1.5 的差異化在於開放性:公開權重、在 GitHub 上開放推理程式碼,並能在使用者控制的硬體上執行。9B 版本已可在 Azure AI Foundry 使用,4B 與 27B 模型亦將陸續推出。微軟計畫將此方法擴展至網頁瀏覽以外的桌面與企業應用,拓展這些代理能處理的任務範圍。
此發布顯示較小且設計良好的開放模型能在實際網頁互動基準上匹配或超越較大的專有系統, 並突顯出朝向更透明、可本地執行的代理技術的轉變。
關鍵見解表
| 面向 | 描述 |
|---|---|
| 效能 | Fara1.5-27B 在 Online-Mind2Web 上得分 72%,表現優於 OpenAI 與 Google 的專有代理。 |
| 模型規模 | 提供 4B、9B 與 27B 參數變體,皆由 Qwen 3.5 微調而成。 |
| 開放性 | 權重與推理程式碼已公開釋出,能支援自我託管使用與獨立評估。 |
| 訓練方法 | 使用 GPT-5.4 作為教師代理來生成示範,並建立合成複製網站以做安全領域訓練。 |
| 安全性 | 在具日誌記錄與使用者提示以防止非預期操作的 MagenticLite 沙盒環境中運行。 |