Claude Fable 5 看起來被削弱但仍然完整:改變的是路由器,而不是模型
目錄
你可能想知道的事
• Claude Fable 5 在 7 月 1 日恢復服務後是否真的能力下降?
• 安全分類器與路由是否能解釋基準測試報告的性能下降?
主要主題
當 Claude Fable 5 在 7 月 1 日恢復服務時,社交媒體很快充斥著抱怨:使用者稱該模型被「削弱」、「壞掉」或「不再一樣」。這波喧囂跟一些基準測試結果的發布有關,這些結果似乎顯示在與程式碼相關的任務上出現劇烈下降。不過仔細檢視後,這種下降反映的不是 Fable 5 底層能力的廣泛退化,而是在其前端放置了一個更積極的安全與路由層。這個區別——模型智慧與答案前的路由——對於理解誰會受到影響以及為何會受到影響至關重要。
其中一項基準測試 BridgeBench(由 BridgeMind 提供)在 7 月 1 日端點上重新執行了詳細的程式碼評估套件,並報告關鍵類別出現大幅下降:偵錯從 86.2 降到 25.9、重構從 73.6 降到 38.4,以及幻覺抗性從 75.9 降到 61.7。這些數字乍看令人震驚,導致許多人斷定 Fable 5 已被嚴重削弱。
但 BridgeBench 的方法論包含一項重要規則:如果請求被 Anthropic 的安全分類器攔截並改由回退模型(Claude Opus 4.8)提供回應,BridgeBench 就把該情況算作目標模型的失敗。在 BridgeBench 的 TypeScript 偵錯子集裡,只有十二個任務中的三個實際到達 Fable 5;剩下九個被分類器路由到 Opus 4.8。由於 BridgeBench 對每個回退都記零分,因此整體類別分數崩塌,即便實際通過的 Fable 5 回應不一定較差。
Anthropic 在 Amazon 研究人員揭露一種繞過限制的技巧,使模型識別並示範軟體漏洞後,部署了該分類器作為恢復 Fable 5 的條件之一。為了防止那種行為,分類器被刻意設為保守:它會阻擋類似安全研究或漏洞示範的提示。這種保守性成功防止了許多風險輸出,但同時也撒出一張廣網。常見的偵錯與修復程式碼提示——尤其包含「vulnerability(漏洞)」、「exploit(利用)」、「fix(修復)」、「patch(修補)」或任何與安全相關的字詞——可能看起來像被阻擋的內容,從而觸發回退路由。
相較之下,Arena.AI 在多個領域——文字、視覺、文件、程式碼和代理任務——以大規模的人類偏好投票進行評估,並以類似 Elo 的評等衡量變化。Arena 收集了數千次盲對比較,發現 Fable 5 在大多維度的表現基本未變。前端程式碼的表現變動在統計上屬於微小,文件處理實際上提升了 34 Elo 點,專家文本上升了 25 Elo 點。創意寫作略有上升。看似的下降—程式碼類為 -18 Elo 及困難提示為 -3—與分類器可能攔截的提示類型高度吻合。
簡言之,當 Fable 5 真正回應提示時,其品質似乎與恢復前的模型一致。社交媒體上「被削弱」的感受主要來自使用者經常收到回退模型的回答,而不是直接來自 Fable 5 本身。對於付費客戶來說,這種不匹配特別令人沮喪,因為他們期待在開發任務上直接使用 Fable 5。
誰會注意到差異?這取決於使用情境。從事創作、分析與研究做文件或專家文本工作的使用者通常會看到很少或幾乎沒有退步——有時還會略有改進,因為那些任務很少類似被禁止的安全情境。然而,開發者和安全研究人員則會遇到更多回退:偵錯、記憶體管理、利用分析或任何提到安全術語的提示常被攔截。在那些情境中,使用者體驗會感到退化,原因在於回退模型不同,而非 Fable 5 的核心能力衰減。
Anthropic 已承認新的分類器會對非惡意的程式碼與偵錯提示產生誤判,並表示系統會隨時間調整。公司將此方法框定為初期保守——廣泛阻擋以關閉繞過向量,然後再調整以降低誤判。不過,Anthropic 尚未提供何時會透過分類器調整來減少良性回退的時間表。
基準測試測量的是不同的東西。BridgeBench 測量模型在一套專門且與安全相關的程式碼題庫上的成功,並將逾時或重新路由視為目標模型的失敗。Arena 的人類偏好 Elo 方法衡量人類實際收到的輸出中所感知到的品質,而不管內部路由如何。兩種結果在各自方法論下皆有效——合起來閱讀時可提供更完整的故事:對於許多任務,Fable 5 的內在能力仍大致保持不變,但更嚴格的安全路由顯著降低了模型直接回答的程式碼與安全相關查詢比例。
對組織與個人而言,實務上的要點是考慮你的工作流程有多頻繁涉及可能觸發安全分類器的內容。如果你的工作主要為創作或分析,你很可能保有 Fable 5 的體驗。如果你的任務與安全相關或包含看起來像利用分析的術語,請預期會有回退並測試你收到的答案是否符合需求或需要替代工具。在分類器被調整之前,開發與安全角色的使用者應預期更頻繁地被路由到 Opus 4.8,並評估該回退是否足以滿足其使用情境。
最後,這一事件凸顯了部署強大語言模型時的更廣泛權衡:在功能與安全之間取得平衡。優先採取保守安全立場的決策是由實際風險驅動的。結果是某些任務類別的使用者體驗出現可量測的變化。隨著分類器演進,這個平衡可能會改變,但目前主要的變化是基礎設施層面——查詢如何被路由——而非 Fable 5 底層能力的全面喪失。
重要洞察表
| 面向 | 說明 |
|---|---|
| 報告的下降 | BridgeBench 在恢復後顯示偵錯與重構分數大幅下降。 |
| 根本原因 | 一個保守的安全分類器將許多與安全相關的提示重新路由到 Opus 4.8,扭曲了基準測試結果。 |
| 人類投票發現 | Arena.AI 的盲式人類偏好投票顯示 Fable 5 在多數類別大致未變或略有提升。 |
| 受影響者 | 開發者與以安全為重的使用者會看到更多回退;作家與分析師則幾乎沒有差異。 |
| 製造者回應 | Anthropic 承認誤判並計劃優化分類器,但尚未提供時間表。 |
後續…
展望未來,主要要觀察的變數是分類器的調整。如果 Anthropic 在不重新打開繞過向量的情況下縮小誤判,多數針對程式碼使用者的報告問題將會緩解。此過程需要謹慎測試與分階段部署,以避免重新引入分類器當初旨在阻擋的那些精確漏洞。依賴強大且一致程式碼協助的組織應繼續以其特定提示模式驗證模型端點,並考慮備用計劃——無論是替代內部工具或專門的程式碼輔助模型——直到路由不再那麼積極為止。
同時,這一事件對於解讀基準測試帶來重要教訓:方法論很重要。把重新路由算作絕對失敗的基準測試,會產生與只評估實際輸出的人類偏好研究截然不同的敘事。在閱讀基準測試結果時要注意它們實際衡量的是什麼:模型的原始能力、交付管線,還是最終使用者的產品級體驗。
簡而言之:Claude Fable 5 的核心優勢在許多使用案例中仍大致存在。可見的變化是位於其前端的路由與安全層。要了解你是否受到影響,需要檢視你傳送的提示類型,以及那些提示是否類似分類器禁止的類別。