中國 Z.AI 推出 GLM-5.2:高效能、採用 MIT 授權且未使用 Nvidia 硬體建構的模型
目錄
您可能想知道
• 一個未使用 Nvidia 硬體訓練的開源模型,能否在效能上匹敵頂級封閉模型?
• GLM-5.2 為開發者與組織帶來哪些實務上的取捨與部署路徑?
主要議題
GLM-5.2 由北京的 Z.ai 於 6 月 16 日發布,是 GLM 系列的一個重要增量版本。該模型在重點工程基準上的核心效能,使其在選定評測項目中非常接近當前同類最佳的封閉模型,同時其授權與硬體來源也使它有別於許多同儕。值得注意的是,GLM-5.2 完全在華為 Ascend 硬體上訓練,而非 Nvidia GPU,且以 MIT 授權發佈,未對區域存取設限。
在評估代理完成開放式技術專案能力的多小時嚴謹工程基準上——涵蓋系統優化、大規模程式碼構建和應用型機器學習研究等任務——GLM-5.2 展現了具競爭力的結果。在以延長技術工作流程的主導率計分的 FrontierSWE 基準上,GLM-5.2 得分為 74.4,對比 Claude Opus 4.8 的 75.1,並優於 GPT-5.5 的 72.6。在測量對真實世界 GitHub 問題進行自主解決能力的其他測試(SWE-bench Pro)中,GLM-5.2 記錄到 62.1 的通過率,擊敗 GPT-5.5 的 58.6,並明顯超越其前代 GLM-5.1 的 58.4。
這些結果使 GLM-5.2 在若干彙總的模型品質指數中成為領先的開源模型。開源基準套件與彙總指數顯示 GLM-5.2 正接近先前由頂級封閉模型佔據的類別,且某些社群基準集合將它與在某些市場已被限制的模型列為同一級別。
一項特別值得注意的技術規格 是 GLM-5.2 的一百萬代幣上下文視窗——相較於 GLM-5.1 的 20 萬代幣限制有大幅提升。此擴展改變了開發者構建大型程式碼重構、整個程式庫導航與多檔案代理工作流程的方式:許多先前必要的分塊策略變得不再需要,能夠對跨大量程式碼或文件上下文的問題以單次呼叫完成工作流程。
該模型架構為 7440 億參數的稀疏專家(mixture-of-experts)設計。參數代表了塑造模型行為的內部學習值,而擴展的代幣上下文則增加了模型能同時考量的文本量。這些因素共同促進了更好的多步推理能力以及處理更長且互相連結任務的能力。
從經濟角度來看,訓練方法同樣引人注目。業界估計 GLM-5.2 的總訓練成本約為 2500 萬美元,其中大部分費用與訓練後步驟相關。如果此估算準確,這樣的成本結構顯示出相對於許多訓練預算可能顯著更高的同時代模型,其成本效率具有競爭力。使用非美國晶片進行訓練也突顯出硬體選擇與地緣政治因素如何影響模型開發管線。
部署與可及性是務實的考量。Z.ai 在 Hugging Face 上以 MIT 授權公布 GLM-5.2 權重,社群版本包含將完整 1.51 TB 模型壓縮到約 238 GB 的 2-bit GGUF 量化,同時保留約 ~82% 的原始精度。該量化形式大幅降低了儲存與執行時需求,但在本地執行仍需高記憶體環境:大約 256 GB 的統一記憶體或等效的 RAM/VRAM 組合,除非使用稀疏專家卸載(mixture-of-experts offloading)。這意味著本地部署對於資源充足的實驗室或高階工作站使用者在技術上是可行的,但對一般消費級硬體仍然難以負擔。
API 價格與產品定位反映出對開發者經濟性的關注。Z.ai 公布的 API 價率具有競爭力:每百萬輸入代幣 1.40 美元、每百萬輸出代幣 4.40 美元,遠低於某些封閉替代方案的公開價格。公司還提供訂閱式程式碼方案與與熱門代理環境的整合,旨在使 GLM-5.2 在多次生成工作流程與迭代開發管線中實用,特別是那些重視輸出多樣性與長上下文處理的情況。
在實作測試中,GLM-5.2 生成了多樣化的輸出,並在受益於多樣性與長上下文推理的任務上展現強大能力。例如,一個零樣本實驗要求模型產出一款結合打字機制與射擊元素的遊戲時,模型生成了大量情境、敵人行為與出現式頭目機制。雖然生成的 UI 精緻度落後於某些競爭者,但遊戲狀態的多樣性與豐富性突顯了該模型在多次生成與代理式使用案例中的優勢。
儘管具有這些優勢,與最先進的封閉模型相比,在一些最持久、最艱難的任務上仍存在差距。在延長的基準測試(例如 SWE-Marathon)中,GLM-5.2 的表現明顯落後於頂級封閉模型,強調在任務難度與持續時間上,前沿仍在開放與封閉產品之間分裂。
最後,MIT 授權與開放權重的組合影響採用動態。開放授權降低了研究、商業使用與實驗的存取門檻,而沒有區域存取限制意味著開發者與組織可以在更廣泛的範圍內使用該模型。這對於競爭、產業動態與 AI 部門的投資模式具有實際影響。
重點摘要表
| 面向 | 說明 |
|---|---|
| 與同儕的效能比較 | GLM-5.2 在 FrontierSWE 得分 74.4,對比 Claude Opus 4.8 的 75.1 與 GPT-5.5 的 72.6,顯示近乎頂尖的表現。 |
| 硬體 | 完全在華為 Ascend 晶片上訓練,訓練流程中未使用 Nvidia 硬體。 |
| 模型大小與上下文 | 7440 億參數的稀疏專家架構,具有一百萬代幣的上下文視窗,可支援長上下文工作流程。 |
| 授權 | 以 MIT 授權發佈,且無區域存取限制。 |
| 量化與本地執行 | 2-bit GGUF 量化可將大小從 1.51TB 減少到約 238GB,但仍建議本地運行時具備約 256GB 的統一記憶體。 |
| 成本與存取 | 估計訓練成本約為 2500 萬美元;API 價格具競爭力,每百萬代幣輸入 1.40(美元)與輸出 4.40(美元)。 |
| 最佳使用情境 | 多次生成、長程式庫程式碼任務、代理式管線,以及重視輸出多樣性勝於單次精緻輸出的工作流程。 |
後續…
展望未來,GLM-5.2 的發布強調了數個值得持續探討的技術與策略領域。首先,替代加速器生態系(例如 Ascend 與其他非 Nvidia 晶片)的角色,將在多樣化供應鏈與在 AI 開發中建立地緣政治韌性方面繼續扮演重要角色。針對這些加速器的軟體堆疊、工具與優化內核的持續工程,將決定這類硬體能被採用的廣度。
第二,非常長的上下文視窗與稀疏專家架構為協調多步、長期任務的系統開啟了新可能。針對記憶與檢索增強架構、有效的卸載機制以及更具成本效益的稀疏專家路由的研究,將對在大規模下令百萬代幣上下文實用化至關重要。
第三,可及的開放授權結合社群驅動的量化工具,降低了實驗與部署的門檻。針對穩健量化方法、裝置端效能調校與記憶體高效執行環境的進一步工作,將擴大能在本地運行強大模型而不致成本過高的行為者範圍。
最後,基準測試方法與現實世界評估指標仍需改進。社群努力建立具代表性、長時間與安全為重點的評估,將對有意義地比較模型並指導負責任採用至關重要。
綜合而言,這些方向——多元化的硬體生態系、可擴展的長上下文技術、改良的量化與執行時以及更好的基準——將決定像 GLM-5.2 這類模型如何影響研究前沿與實際開發者工作流程。