OpenAI 引入新安全協議以減少生物和化學風險

您可能想知道

OpenAI 如何確保其模型不會參與危險活動？
自動化系統在 OpenAI 的安全協議中扮演什麼角色？

主要議題

在人工智慧不斷演變的世界中，OpenAI 已經採取了關鍵措施來增強其最新 AI 模型的安全措施，這些模型命名為 o3 和 o4-mini。隨著這些模型展現出相較於前任版本的顯著提升，而引入了新潛在風險。該組織已實施了一個專門設計的監控系統，以防止模型生成可能被利用來執行有害生物或化學攻擊的建議。

根據 OpenAI 的安全報告，這個保護系統的主要目標是檢測與這些高風險領域相關的提示，並相應地限制模型的輸出。這是更廣泛防止惡意行動者利用模型增強的推理能力進行不正當用途的計劃的一部分。值得注意的是，內部基準顯示 o3 在回答某些生物威脅相關問題方面特別在行，因此需要進一步的預防措施。

OpenAI 設計的這個以安全為重心的推理監控器是根據公司的內容政策量身訓練的。它負責監控 o3 和 o4-mini，作為不當內容和指示的屏障。努力已經付出，讓紅隊成員投入約 1000 小時來標記被認為在生物風險背景下“不安全”的討論，以增強模型有效拒絕不安全提示的能力。

在模擬系統'封鎖邏輯'的測試中，AI 模型成功拒絕了 98.7% 的風險提示。然而，OpenAI 認識到測試環境無法完全重現用戶可能更改其提示以規避監控的場景，促使公司繼續整合人為監督作為其安全架構的重要組成部分。

即使 o3 和 o4-mini 尚未超過 OpenAI 定義的‘高風險’門檻，它們依然超越了如 o1 和 GPT-4 等早期模型，在生成有關生物武器開發的資訊回應方面。這一見解融入 OpenAI 持續努力中，記載於其準備框架中，持續評估這些模型如何可能在不經意間促進此類威脅的開發或分享。

OpenAI 正越來越多地利用自動化系統來抑制其模型相關的潛在風險。例如，類似的推理監控器被用來防止 GPT-4o 的圖像生成器產生有害內容，如 CSAM。然而，一些專家對於 OpenAI 是否在足夠優先考量安全層面提出了擔憂。尤其是，OpenAI 的合作夥伴 Metr 指出，評估 o3 在某個騙術行為基準上的時間有限。此外，針對最近首度亮相的 GPT-4.1 模型未發佈安全報告的決定也引發了研究社群的關注。

關鍵見解表

方面	描述
安全監控器	一個設計用來檢測並防止風險 AI 輸出的系統。
內部基準	O3 特別擅長回答有關生物威脅的問題。

後續...

OpenAI 在保護其模型方面的進展反映出整個行業中在 AI 能力快速進步的同時更優先考量安全的趨勢。對於開發者和使用者來說，平衡創新與負責任的措施至關重要。隨著新技術的出現，保持對安全的倫理關注將在優化 AI 用於積極應用的同時阻止其潛在的危害中發揮關鍵作用。 OpenAI 未來的努力可能包括更複雜的監控方法、更依賴人為監督，並與更廣泛的 AI 社群進行更透明的安全交流。

最後編輯時間：2025/4/16