文章上線

在安全疑慮引發辯論與反彈後,美國下令關閉 Anthropic 的頂級 AI 模型

在安全疑慮引發辯論與反彈後,美國下令關閉 Anthropic 的頂級 AI 模型

目錄

你可能想知道

商業人工智慧模型中報導的安全漏洞,是否有理由導致全國性關閉?

公司自我限制與公開警示如何影響監管機構對先進人工智慧的回應?

主要議題

週五晚間,美國政府指示 Anthropic 停止存取其兩款最先進的模型 Claude Fable 5 與 Claude Mythos 5,理由為國家安全疑慮。Anthropic 對外確認已遵從指令,並表達對此決定的不同意見,指出該行動不成比例且曲解了其底層技術問題。公司表示於美東時間 17:21 接獲該命令,隨即在全球切斷存取,而非僅針對政府出口管制框架表面上所針對的外國人士。其他 Anthropic 模型的存取則不受影響。

Mythos 5 在內部與外部皆被定位為 Anthropic 最強的模型。公司先前限制其可得性,因為 Mythos 在測試中展現出尋找軟體漏洞的異常強大能力,包括在主要作業系統與常見瀏覽器中標記出的缺陷。Anthropic 未廣泛釋出 Mythos,而是透過名為 Project Glasswing 的計劃選擇性部署,僅與少數經過審核的組織(包括大型科技與資安公司)分享,以供防禦性資安用途。

Fable 5 在政府行動前數日才以可商用的、更受限的 Mythos 變體身分推出。Anthropic 將 Fable 5 描述為其高能模型的一個版本,配備更嚴格的防護措施以阻擋在資安或生物濫用等敏感領域的輸出。獨立基準測試報告顯示 Fable 5 在短期公開測試中是商用可取得模型中能力最強者之一,這提升了其作為面向廣泛使用的先進產品的能見度。

政府將此舉定位為限制外國人存取的出口管制措施。Anthropic 的公開回應則暗示,政府較即時的關切集中在所謂對 Fable 5 的越獄(jailbreak)。根據 Anthropic,政府僅提供口頭證據,稱之為「潛在的狹窄、非普遍性越獄」——實際上是一個指示模型分析特定程式碼庫以尋找漏洞的提示。Anthropic 指出,類似能力在其他公開模型中也可得,安全專業人員常用於防禦性測試。

Anthropic 也強調,關鍵的安全機制與模型輸出分離運作,使用獨立的分類器系統來封鎖危險輸出,即使模型的對話限制被繞過也能阻擋。公司主張這種多層防護可降低對話式越獄導致有害輸出的風險。儘管如此,政府的命令顯示監管者認為餘留風險——或潛在濫用的先例——足以值得完全停用這些模型。

公司的公開反應傳達出明顯的挫折感。Anthropic 表示不同意僅憑一項狹窄潛在越獄的證據就回收一個已部署給大量使用者的商業模型。它警告若將此標準擴及整個產業,實際上可能阻止前沿模型的新部署,這也構成公司對監管越權與對創新產生寒蟬效應的更廣泛擔憂。

此決定對 Anthropic 的公開形象也帶有諷刺意味。該公司一貫宣傳自己為 AI 領域中以安全為重的替代者,反覆強調在釋出先進模型時要謹慎。正是這種謹慎——公司強調 Mythos 的強大並選擇限制它——可能反而吸引了監管關注。觀察者指出,宣傳與限制某模型因其被視為危險,可能導致當局更關切其潛在濫用,形成一種悖論。

業界反應包括來自同業的尖銳評論。OpenAI 的執行長批評以突出危險性作為行銷手法;他暗示將模型標榜為獨有的危險,同時提供保護服務,可能被視為以恐懼為基礎的行銷。無論是否同意這種說法,這一事件顯示出關於模型風險的公開訊息如何改變監管與競爭景觀。

除了對 Anthropic 立即的商業與監管後果——包括對募資或預期上市計劃的潛在影響——此事件也引發更廣泛的問題,即如何在公共安全、商業部署與透明度之間取得平衡。監管者面臨何時介入的艱難判斷,而公司則必須決定在揭露模型能力與緩解措施時要透露多少,以免招致可能破壞營運的行動。

這一關鍵見解大幅影響了對於公共安全訊息如何改變監管回應與商業結果的理解。 簡言之,強調模型的非凡能力——即便是出於謹慎考量——也可能加速監管審查,並導致保守的政策行動,從而重塑產業動態。

關鍵見解表

面向 說明
關鍵事實 1 美國政府下令立即關閉 Fable 5 與 Mythos 5,理由為國家安全與出口管制疑慮。
關鍵事實 2 Anthropic 先前限制 Mythos,因其在尋找漏洞方面展現強大能力,僅與經審核的合作夥伴分享以供防禦用途。
關鍵事實 3 Anthropic 主張政府引用的是一項狹窄的潛在越獄,且分層安全系統能在對話限制被繞過時緩解危險輸出。
關鍵事實 4 關於模型危險性的公開警示可能吸引審查,並促使監管機構採取影響部署的預防性行動。
關鍵事實 5 此事件引發產業範圍內關於揭露、監管標準以及如何在安全與商業進展間取得平衡的問題。

後續...

展望未來,此事件突顯出數個需要持續努力與對話的領域。政策制定者、業界領導者與資安研究人員應釐清在何種情況下適合採取出口管制、緊急命令或其他監管介入。建立在公司與監管機構間分享技術證據的更好機制——包括可文件化且可重現的漏洞示範與獨立驗證——將有助於支持更透明、比例適當的回應。

公司應精練其在模型能力與風險上的溝通方式,在合理透明與警示性敘述可能觸發嚴重監管後果之間取得平衡。與此同時,投資於分層、可獨立驗證的安全控制與第三方稽核,將有助於建立監管機構與公眾的信任。

從技術角度而言,擴展對強健外部分類器系統、安全模型設計(以減少對易碎護欄的依賴)以及針對越獄類提示的實際防禦研究,將有助於降低對粗糙政策工具的依賴。最後,包含政府、產業與學術參與者的跨部門演練與情境模擬,可使利害關係人準備在不不必要扼殺創新的情況下,以比例原則回應新興風險。

總體而言,這一情況凸顯了在快速進展的 AI 時代中,安全訊息、監管判斷與商業策略的相互依存性。以實證為基礎的深思熟慮合作,對於未來應對類似挑戰至關重要。

最後編輯時間:2026/6/13

數字匠人

閒散過客