OpenAI 推出專注於編碼的全新 GPT-4.1 模型

OpenAI 推出專注於編碼的全新 GPT-4.1 模型

亮點

OpenAI 推出了 GPT-4.1 系列,其中包括專注於編碼及指令追蹤的 mini 和 nano 版本,使用者可以透過 API 存取這些模型。這些模型擁有 100 萬字元的上下文視窗,在 SWE-bench 等編碼基準測試中表現優於之前的 GPT-4o 模型。透過改善前端編碼及高效的工具使用,GPT-4.1 旨在打造更好的 AI 驅動軟體工程代理。

情感分析

  • OpenAI 在 AI 編碼模型上的策略大步向前,顯示出他們透過 AI 創新引領軟體工程的雄心壯志。
  • 雖然 OpenAI 在編碼改進方面的專注受到讚揚,但隨著輸入數據量的增加,對性能一致性有所擔憂
  • 與 Google 和 Anthropic 模型的競爭比較,使得在業界的定位情感中立。
70%

文章內容

在不斷進化的 AI 技術領域中,OpenAI 推出了 GPT-4.1,這是一系列為編程任務優化的先進語言模型。此次推出包括主要的 GPT-4.1 模型及其更精簡的版本 mini 和 nano。這些模型僅通過 OpenAI 的 API 提供,適合尋求在編碼和指令遵循方面增強功能的開發人員。

GPT-4.1 的突出特點是它的廣泛上下文視窗,可容納多達 100 萬字元或約 75 萬字。這個容量超過許多文學作品,包括《戰爭與和平》,使得模型能夠一次性處理大量數據。與 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 Sonnet 等擁有大上下文視窗的競爭對手比較,GPT-4.1 在各種編碼基準上具有自身優勢。

OpenAI 的舉措出現於科技巨頭旨在完善 AI 模型以應對複雜軟體工程挑戰的背景下。在最近於倫敦舉行的技術峰會上,財務總監 Sarah Friar 表示,OpenAI 的目標是開發能夠進行端到端應用開發的「自主軟體工程師」——涵蓋質量保證和錯誤測試等任務的 AI 系統。

GPT-4.1 的改進重點在於前端編碼,減少多餘變更,並確保響應格式和工具使用的一致性,這標誌著向這些目標邁進的重要進步。這些模型被設計為支持開發者構建能夠勝任現實世界工程挑戰的代理。根據 OpenAI 的說法,GPT-4.1 在包括 SWE-bench 在內的重要編碼基準上表現優於其前代產品。不過,較小的模型如 GPT-4.1 mini 和 nano 雖然略微降低了精確度,但提供了效率和速度。

在經濟方面,這些模型的價格頗具吸引力:GPT-4.1 每百萬輸入字元計費 2 美元,每百萬輸出字元計費 8 美元,而 mini 和 nano 型號提供了具成本效益的替代選擇。測試表明,GPT-4.1 每實例生成的字元數多於先前模型,但其準確性隨著輸入字元增加而降低。在像 OpenAI-MRCR 的測試中,準確性在處理從 8,000 字元增至 100 萬字元時有所減少,這反映了模型複雜性中的一種權衡。

儘管面臨這些挑戰,GPT-4.1 在基準評估中獲得了可觀的分數,特別是在「長時無字幕」類別的視頻內容理解方面排名居前。儘管如此,OpenAI 承認存在的限制,注意到模型可能會在編碼場景中引入漏洞,這突顯了需要持續改進的領域。此揭示強調了當前模型在解決超越當今能力的複雜任務中的細微差別和發展潛力。

關鍵見解表

方面描述
重點編碼及指令追蹤。
上下文視窗可容納多達 100 萬字元。
商業策略開發用於全面軟體工程任務的 AI 模型。
性能在編碼基準上超越之前的模型。
最後編輯時間:2025/4/14

Power Trader

Z新聞專欄作家