DeepSeek 的 R1 模型在特定測試中表現優於 OpenAI 的 o1
重點
中國 AI 公司 DeepSeek 發布了 DeepSeek-R1,一款推理模型,在多個關鍵 AI 基準測試中,包括 AIME、MATH-500 和 SWE-bench Verified,表現優於 OpenAI 的 o1。R1 擁有驚人的 6710 億個參數,增強了其解決問題的能力。但是,由於中國的監管限制,該模型在政治敏感話題上的回應受到限制。
情感分析
- AI 社群對於 DeepSeek-R1 的發佈反應是輕微的積極。
- 專家們讚賞該模型的開放可用性和挑戰既有基準的效能指標。
- 然而,對於模型輸出因監管限制而可能影響全球應用性的擔憂,削弱了興奮的氛圍。
文章正文
中國的前沿 AI 實驗室 DeepSeek 近日推出了一個開放版本的推理模型 DeepSeek-R1。這款模型聲稱不僅匹敵,甚至在特定 AI 性能基準測試,如 AIME、MATH-500 和 SWE-bench Verified 中偶爾超越 OpenAI 的 o1。AIME 依賴於使用其他模型來測試性能,MATH-500 對模型提出複雜的數字問題挑戰,而 SWE-bench Verified 則評估程式設計任務。DeepSeek 聲稱,由於其多樣的推理能力,R1 模型的事實核查比傳統模型更有效。
R1 以其龐大的 6710 億個參數令人印象深刻,代表著在複雜性和解決問題能力上的巨大飛躍。更多的參數通常與在應對領域如物理學和數學等細微任務和挑戰方面的更高效率相關。儘管其規模龐大,DeepSeek 還推出了較輕版本的 R1,從 15 億到 700 億參數的配置,使其在普通的筆記型電腦上也能順利運行,而完整的 R1 需要強大的計算資源。然而,DeepSeek 通過 API 提供的價格明顯低於 OpenAI 的 o1,比其便宜 90% 到 95%,使其具有經濟可行性。
影響 R1 完全效用的一大障礙是中國的監管環境,要求遵守包括“社會主義核心價值觀”在內的國家指導方針。這導致了限制;例如,R1 不會處理關於敏感政治話題如天安門廣場或有關台灣的討論。這類限制對於許多中國 AI 系統來說很典型,這些系統謹慎避開政府敏感領域。
R1 的發佈正值美國政府政策轉變之時,旨在加強對中國的 AI 技術出口限制。拜登政府最近的提案可能為中國的 AI 發展增加額外的障礙。OpenAI 通過政策建議表達了擔憂,呼籲美國加強對國內 AI 的支持,並指出中國的進展是顯著競爭,具有超越美國目前提供的潛力。
作為中國在 AI 方面快速邁進的證據,包括 DeepSeek、阿里巴巴和 Kimi 在內的幾家實驗室聲稱已開發出可與 OpenAI 的 o1 比肩或超越的模型。DeepSeek 的早期成就是在去年十一月就推出了 R1。喬治梅森大學的 AI 研究員迪恩·鮑爾觀察到這一勢頭,強調高度複雜的模型有可能不受嚴格監管而廣為推廣。
主要見解表
方面 | 描述 |
---|---|
基準表現 | R1 在 AIME、MATH-500 和 SWE-bench Verified 上超越 o1。 |
參數 | R1 配備了 6710 億個參數,支持強大的問題解決能力。 |
監管限制 | 中國模型限制了對敏感政治問題的回答。 |
成本效益 | R1 透過 API 提供的價格明顯低於 OpenAI 的 o1。 |