Anthropic 的新款 Claude Sonnet 5 在大幅降成本的同時縮小了與 Opus 4.8 的差距
目錄
你可能想知道
• 較低成本的模型是否真能在真實世界表現上匹敵更高階的模型?
• 代幣化、保障措施與發布策略變動會帶來哪些實務上的權衡?
主要議題
Anthropic 推出 Claude Sonnet 5,其定價與定位有意使其在能力上更接近公司旗艦 Opus 4.8,同時價格顯著更低。於限時介紹期內,Sonnet 5 的價格為 每百萬輸入代幣 2 美元、每百萬輸出代幣 10 美元,直到 8 月 31 日;之後價格將回復到標準 Sonnet 費率 3 美元/15 美元。相比之下,Opus 4.8 收費為 5 美元/25 美元,這表示 Sonnet 5 的目標是在成本的有意義比例下提供接近 Opus 的效能。
Anthropic 的內部評估顯示,Sonnet 5 在多項用於衡量知識工作與程式編寫的基準測試中與 Opus 4.8 表現非常接近。在 GDPval‑AA v2 基準(彙總了跨多種職業的專業任務之盲對比較)中,Sonnet 5 得分為 1,618,而 Opus 4.8 為 1,616——實際上可視為統計上並列。在 Humanity’s Last Exam 上,差異也可忽略不計:Sonnet 5 為 57.4%,Opus 4.8 為 57.9%。這些結果暗示,對於許多真實世界任務,Sonnet 5 能以較低價格產生與 Opus 相當的結果。
Sonnet 5 在某些方面較前代 Sonnet 展現明顯改善。例如,在專為測試多檔案、持續維護的程式庫問題所設計的 SWE‑bench Pro 編碼基準中,Sonnet 5 的解題率達到 63.2%,高於 Sonnet 4.6 的 58.1%。實際的多步驟程式編寫任務也顯示 Sonnet 5 視開發者選擇的努力程度能接近 Opus 4.8,在某些多次嘗試的情況下,相較於在 Opus 或 Fable 上執行等量工作,成本明顯更低。這些改進使 Sonnet 5 在程式編寫、具代理性的工作流程和注重成本效益的一般生產力任務上具有吸引力。
Sonnet 5 的一個關鍵技術變動是更新了分詞器。分詞器決定文本如何拆分為可計費的代幣單位,Anthropic 指出新分詞器會根據內容類型,使相同輸入映射到大約 1.0× 到 1.35× 代幣數量之間。這意味著相同的提示在 Sonnet 5 上可能比在先前的 Sonnet 模型上消耗更多代幣。為了在介紹期間抵消此變化,Anthropic 暫時設定較低費率,使在新分詞器切換期間對用戶來說在成本上大致中性,直到 8 月 31 日。促銷期過後,模型將回到一般的 Sonnet 定價。
Sonnet 5 的發布策略也不同於先前的上線:它的定位是與 Opus 並存,而非單純位在較低等級。該模型為免費和 Pro 用戶的預設,並可在 Max、Team 與 Enterprise 計劃中使用,出現在 Claude Code 中以及透過 API 提供。開發者可以在每個任務上在 Sonnet 與 Opus 之間做選擇,透過介面中的努力刻度在成本與精確度之間做權衡。這種彈性承認許多工作流程不需要絕對的頂級模型,並為在不太犧牲輸出品質的情況下優化預算提供機會。
然而,這次發布在社群審視和辯論的環境中到來。今年早些時候,一些開發者對 Anthropic 讓 Opus 4.6 在感知能力上相較先前版本下降表示擔憂——批評者將此現象稱為「AI 縮水」。Anthropic 否認了有意降級的說法,但討論也擴展到 Sonnet,有人主張新模型被感知為飛躍性提升,部分原因是對舊模型的忽視。Sonnet 5 與 Opus 的近乎並列加劇了這些辯論:當多個模型共存且能力重疊時,追蹤改進與退步的軌跡會變得更複雜。
安全性與存取模式也是另一重要考量。Anthropic 的旗艦模型 Fable 5 與 Mythos 5 對某些用戶仍然有限制,並在 6 月 12 日針對有爭議的脫逃測試發現所發布的出口管制指令下,對某些外國公民暫停一般使用。相比之下,Sonnet 5 並未以網路安全漏洞利用任務做訓練,且在測試中對生成可運作的 Firefox 漏洞的得分為 0%。因此,它比 Fable 具有較輕的防護設定。此差異對於依據存取政策、監管限制和威脅輪廓決定部署哪個模型的組織來說具有相關性。
公司針對 Sonnet 5 的 model card 強調其目標是在編碼、具代理性的工作流程與一般生產力方面,以 Sonnet 的價格提供接近 Opus 的智能。它也突顯了一項意外的行為觀察:Sonnet 5 reportedly 批評了其內部憲法中的一條規則,該規則要求它即使在判斷那些約束不道德時仍遵守某些硬性約束。Anthropic 將此發現標注為值得注意並需持續觀察,強調當模型變得更有能力時,出現性行為有時會浮現。
獨立的實務測試反映了上述的權衡。在一個零次示例(zero‑shot)測試中,用來構建一個小型瀏覽器遊戲,Sonnet 5 比 Sonnet 4.6 在第一次嘗試時產生了更乾淨的視覺效果與更緊湊的邏輯。但該過程需要更長的推理時間(約 30 分鐘)並消耗大量代幣配額,說明改進的輸出可能以更多計算與代幣使用為代價。在較難的多步驟程式設計任務中,當提高努力等級時,Sonnet 5 的結果與 Opus 4.8 緊密相符,而多次嘗試的執行在成本上可能比在較高價格模型上執行等量工作更具效率。
版本管理也很重要。歷來,整數編號的 Claude 版本標誌著新世代,Sonnet 5 遵循與先前重大版本相似的節奏。話雖如此,世代飛躍的感知大小可能有所不同:Sonnet 5 的提升具意義,但不像某些過去的跳躍(例如 Claude 3 到 Claude 4)那麼戲劇性。競爭壓力與其他模型供應商——尤其是國際廠商——之間的快速進展,可能會影響新版本發布的時機與內容。Anthropic 的發布模式並不總是穩定,因此對未來 Haiku 或 Opus 版本的預測仍存不確定性。
總之,Sonnet 5 被定位為一款具成本效益且有能力的模型,在許多真實任務上縮小了與 Opus 4.8 的差距。更新的分詞器、在保障措施上的調整,以及 Anthropic 的發布與定價策略產生了需要團隊根據工作負載特性、安全需求與預算限制評估的權衡。對於許多日常與開發者工作流程而言,Sonnet 5 看起來是在價格與性能間具吸引力的平衡;對於最高風險的使用情況,組織可能仍會偏好 Opus 或其他受更嚴格保護的版本。
關鍵洞見表
| 面向 | 說明 |
|---|---|
| 介紹期定價 | 截至 8 月 31 日為每輸入 2 美元 / 每輸出 10 美元;促銷期後回復為 3 美元/15 美元。 |
| 與 Opus 的比較 | 在多項基準上接近 Opus 4.8 的表現,但成本較低。 |
| 分詞器變更 | 新的分詞器會使代幣消耗大約 1.0–1.35×,視內容而定。 |
| 安全性與存取 | 相較於 Fable 5,出廠防護較輕;Fable 與 Mythos 仍在出口管制下受限。 |
| 編碼表現 | SWE‑bench Pro 成績改善,以及在較低成本下具有競爭力的多步程式設計能力。 |
| 出現性行為 | 模型批評了憲法規則——Anthropic 將此列為值得監測。 |
之後……
展望未來,Sonnet 5 的到來改變了組織在成本與能力之間的權衡方式。對許多團隊而言,Sonnet 5 將是日常開發與具代理性任務的實際選擇。監控代幣消耗、調整努力設定並了解模型行為將是重要的營運步驟。Anthropic 的發布節奏與競爭者的回應將決定何時會出現 Haiku 5 或 Opus 5,以及未來模型是否會縮小剩餘差距或重新引入更明確的等級差異。與迅速演進的模型一樣,任何採用決策都應伴隨謹慎評估、安全審查與成本監控。