文章上線

OpenRouter 的 Fusion 主張以低成本達到 Fable 級別的智慧,當 Fable 5 在全球受限時提供替代方案

OpenRouter 的 Fusion 主張以低成本達到 Fable 級別的智慧,當 Fable 5 在全球受限時提供替代方案

目錄

你可能想知道

一組協調運作的較便宜 AI 模型面板,是否能匹敵像 Claude Fable 5 那樣的單一高階模型的表現?

在將多個模型輸出綜合為單一答案時,會出現哪些實務上的取捨與限制?

主要議題

OpenRouter 最近推出了 Fusion,一個伺服器端的 API,其出發點是:如果經過周詳安排的一組廉價模型面板能被正確評判和綜合,它們可以接近昂貴、最先進模型的表現。實務上,Fusion 將相同的提示同時發送給多個模型。每個模型在啟用時都可以使用網路搜尋與類似命令列的工具。面板的回應由另一個評判模型評估,以識別共識點、矛盾與盲點。然後由一個綜合模型 —— 在 OpenRouter 的設定中預設為 Claude Opus 4.8 —— 根據該分析撰寫最終、具根據的答案。

Fusion 的亮相時機值得注意。Anthropic 的 Fable 5 與 Mythos 5 最近因為美國的一項出口管制指令,要求 Anthropic 暫停向外國人士提供存取,導致許多使用者無法取得。OpenRouter 將 Fusion 定位為立即可用的替代方案,公開宣稱「Fable 級智慧,價格減半」。這項主張建立在基準測試結果與一種強調模型多樣性加上綜合處理的架構,而非倚賴單一昂貴模型實例。

OpenRouter 在 Perplexity 的 DRACO 基準上評估了 Fusion,該基準由真實使用者的深度研究查詢所構成。在該基準上,一個包含 Claude Fable 5 與 OpenAI 的 GPT-5.5 並由 Opus 綜合的面板得分最高。然而,更引人注目的結果來自於一個預算面板:Google 的 Gemini 3 Flash 結合開源中文模型 Kimi K2.6 與 DeepSeek V4 Pro,由 Opus 綜合後,其得分接近單一 Fable 的表現,差距在 1% 以內,且使用的是較低成本的模型組合。該組合得分約為 64.7%,而 Fable 為 65.3%,OpenRouter 報告稱較便宜的面板運行成本大約為單一昂貴模型的一半。

從技術上說,Fusion 的價值主張取決於兩個效應。首先,部分性能提升來自多樣性 —— 不同模型會犯不同的錯誤,因此結合它們可以減少盲點。其次,綜合階段本身帶來顯著提升:OpenRouter 表示在某些配置中,觀察到的改善大約有四分之三來自綜合模型整合與精煉輸出的能力,其餘則歸因於模型多樣性。 這項關鍵洞見顯著影響了對於當有強大的綜合層時,較低成本模型如何接近高階表現的理解。

然而,仍有重要的警告。DRACO 著重於研究型提示,可能無法涵蓋長期推理或複雜規劃任務,那些任務據報導是 Fable 仍保有優勢的領域。對於程式碼任務,OpenRouter 將 Fusion 描述為一種可被專用程式編碼模型選擇性呼叫的工具,而不是全部取代;換句話說,Fusion 旨在補充現有代理,而非在所有使用案例中取而代之。此外,早期測試報告在某些配置中出現較差的工具呼叫行為與較弱的程式碼生成,這強調了 Fusion 並非自動可直接取代所有工作負載的通用解決方案。

另一個與基準測試完整性相關的操作細節也很重要:當面板模型有即時網路存取時,它們有時會在搜尋結果中顯示基準本身的評分準則,可能污染測試結果。OpenRouter 透過在網路查詢中排除基準主機域名並重新運行測試來處理這個問題;已發佈的數據反映的是已清理的執行結果。這突顯了在評估使用網路存取的多模型系統時控制資訊洩漏的重要性。

可取得性與合規性也相關。Fusion 完全透過由 OpenRouter 基礎設施路由的模型運行,因此它並未解決最初阻止取得 Fable 5 的出口管制限制。對於突然發現無法使用 Fable 5 的使用者,Fusion 是多個選項之一:像 DeepClaude 的後端替換、像 GLM-5.2 的開放權重替代品,或多模型面板都可視成本、授權與性能取捨加以考量。

社群對 Fusion 推出後的反應是褒貶不一但普遍關注。有些研究者歡迎透過組合達到前沿能力的想法,認為這降低了少數實驗室對頂級表現的壟斷風險。批評者指出這樣的框架有過度承諾的風險,並強調需要更透明、可複現的評估以及在單模型代理目前具有優勢的任務上更好的工具。

關鍵洞見表

面向 描述
Fusion 架構 將提示並行發送給一組模型,評判輸出,然後在伺服器端綜合出最終答案。
基準表現 由 Opus 綜合的一個預算面板在 DRACO 得分幾乎與 Fable 5 相同,且成本約為其一半。
綜合影響 綜合器對性能提升的貢獻最大;模型多樣性則帶來額外增益。
限制 在長期推理與某些程式碼任務上效果較差;需要謹慎控制工具與網路存取以避免污染。
合規情境 Fusion 並未繞過出口管制 —— 它是透過 OpenRouter 的路由與服務提供的替代方案。

後續……

展望未來,Fusion 方法突顯了幾個值得進一步研究與工程投入的領域。首先,需要健全且透明的評估框架,以便在更廣泛的任務集(包括長期規劃、多模態推理與工程工作流程)上,將多模型綜合設置與單模型基線進行比較。其次,更好的工具整合模式與防止在模型具有網路存取時基準污染的標準做法,將有助於提升可複現性與對結果的信任。

第三,投入於進階綜合模型與技術 —— 也就是專門用來調和分歧輸出並提取可靠共識的模型 —— 似乎是高槓桿的方向。 在綜合層、評判模型設計與安全模型協調方面持續創新 可能會使多模型組合成為主流的生產選項。

最後,政策與部署考量仍然至關重要。組織在組裝多模型系統時,必須在性能、成本與法規限制之間取得平衡。探索開放權重替代品、透明基準與合規感知的路由,將幫助團隊選擇符合技術與法律要求的解決方案。

總之,Fusion 展示了模型組合加上強大綜合層可以在許多以研究為導向的任務上縮小與領先單模型的差距。它不是萬能的替代品,但為面臨成本壓力或突然可用性限制的團隊擴展了實務選擇。持續的實驗、透明報告與對綜合的專注工程,將決定這種方法能走多遠。

最後編輯時間:2026/6/20

數字匠人

閒散過客