Nvidia 公布 Nemotron 3 Ultra：美國迄今最佳的開放權重模型，但仍落後於中國

文章上線

Nvidia 公布 Nemotron 3 Ultra：美國迄今最佳的開放權重模型，但仍落後於中國

你可能想知道

• Nvidia 的 Nemotron 3 Ultra 與中國最強的開放權重模型相比如何？

• 哪些架構選擇和性能取捨造就了 Nemotron 3 Ultra 的優勢與限制？

主要議題

在 6 月 1 日的 Computex 上，Jensen Huang 推出 Nemotron 3 Ultra，這是 Nvidia 迄今公開的最大 Nemotron 系列模型。該模型被描述為一個 5500 億參數的系統，採用 mixture-of-experts 設計，使得在推論時大約有 550 億參數是活躍的。這項架構選擇使得具有極大總參數數量的模型在運行時能更有效率，與同時運行所有參數相比，可降低計算與成本。

Mixture-of-experts (MoE) 模型會將不同的輸入導向不同的參數子集，類似在遇到特定問題時呼叫專家。這種方法可透過只啟用與特定輸入相關的網路子集來降低每次請求的計算量。如 Nvidia 所強調，Nemotron 3 Ultra 的設計選擇在運行時帶來顯著優勢：在一個預發布的 DeepInfra 端點上，該模型每秒產生超過 300 個輸出 token，公司表示這比同類中國開放權重產品快三到六倍。

由獨立評估機構 Artificial Analysis 所做的性能測量將 Nemotron 3 Ultra 放在其 Intelligence Index 的 48 分，該綜合基準結合了推理、程式碼、常識與代理行為的評估。這個分數使 Nemotron 3 Ultra 成為美國開放權重模型中的領先者，下一個最接近的美國模型得分在高 30 多到低 40 多之間。Nemotron 3 系列——Nano、Super 與 Ultra——共享核心設計元素，如 Mamba-2 層、標準 Transformer 注意力與 MoE 路由，並受益於如多 token 預測 (MTP) 與在互動環境中使用強化學習進行後訓練的技術，以改善規劃與多步執行。

然而，速度與高效執行並非全部。在同一比較指數中，Moonshot AI 的 Kimi K2.6——一款於 2026 年 4 月發布的中國開放權重模型——在指數上排名為 54，意味著它仍領先 Nemotron 3 Ultra 六個指數點。在基準環境中，較高的指數數值通常與更廣泛或更深入的能力相關聯，這樣的差距具意義。Kimi K2.6 也位列全球頂尖模型之中，接近 Anthropic、Google 與 OpenAI 等專有旗艦，大約在相同尺度上得分約 57。

這個差距突顯了一個核心緊張關係： Nvidia 已縮小了美國開放權重模型在工程與吞吐量上的重要差距，但全球最佳的開放模型仍多由中國開發，該處的研究團隊優先並廣泛地向社群發布高品質的開放模型。中國開放模型生態系的快速成長與使用量顯示出結構上的差異：許多西方領導者將最強的系統置於專有 API 後方，而多個中國實驗室則公布具競爭力且可公開取得的權重。

Nemotron 3 Ultra 的實際部署模式反映了當前產業慣例。模型的權重與訓練配方將被公開，但在生產環境中運行一個 5500 億參數的模型通常需要數據中心級的資源。為了實際使用，Nvidia 與雲端提供者提供 API 與託管端點，讓組織與開發者在不擁有專用硬體的情況下使用該模型。這種安排使更多用戶能夠存取模型，同時將原始運營成本集中於雲端提供者與大型企業。

在 MoE 之外的技術優點上，Nemotron 3 Ultra 支援由 Mamba-2 層與優化注意力機制實現的百萬 token 上下文窗口。如此規模的上下文窗口允許的使用情境包括持有非常大的程式碼庫、完整研究語料庫或延長對話以進行連貫的多步工作流程。此外，多 token 預測 (MTP) 透過一次預測多個 token 加速生成，這也有助於預發布測試中報告的高吞吐量數據。

從策略層面來看，Nvidia 已公開承諾在開放權重模型開發上投入大量資源。Nemotron 聯盟——與多個 AI 實驗室（包括 Mistral AI 與 Perplexity）的合作夥伴關係——支持在 Nvidia 的 DGX Cloud 基礎設施上共同開發，Nvidia 也披露了一項多年計畫並有大量投資以加速開放權重研究。Nemotron 3 Ultra 是迄今該投資最明顯的成果，Nvidia 也已宣布正在研發下一代的 Nemotron 4。

儘管有這些努力，整體競爭情勢仍然重要。中國實驗室在開放生態系中產量豐沛，過去 18 個月迅速增加了其在開放模型使用中的占比。此一動態使美國的開放權重產品更有緊迫性，需匹配或超越經過良好調校的中國模型在能力與可用性上的表現。Nvidia 在高吞吐量、長上下文窗口與開放發布的結合，是朝這方向邁進的重要一步，但 Intelligence Index 的快照顯示，在原始能力上與全球最佳開放模型相比仍有可測量的提升空間。

對採用者而言，Nemotron 3 Ultra 可能在吞吐量、延遲與長上下文推理為優先事項的場合具有吸引力——例如在自主代理、大型程式碼庫分析以及需要持久延長上下文的企業工作流程中。需要絕對最高基準化推理分數的組織，仍可能根據延遲、生態系支援、工具與授權等取捨，評估像 Kimi K2.6 等處於該性能區間的中國開放模型或其他模型。

關鍵見解表

面向	說明
模型規模與啟用	Nemotron 3 Ultra 擁有 5500 億參數，透過 mixture-of-experts 在推論時約有 550 億參數被啟用。
性能（吞吐量）	預發布測試顯示在 DeepInfra 端點上每秒 >300 個輸出 token，速度快於許多中國商用 API。
智力指數	Artificial Analysis 將 Nemotron 3 Ultra 評為 48 分，在相同指數上低於 Moonshot AI 的 Kimi K2.6（54 分）。
架構與特性	結合 Mamba-2 層、標準 Transformer 注意力、MoE 路由、多 token 預測與百萬 token 上下文支援。
可及性	權重與訓練配方將被釋出；由於計算需求，實際使用通常透過 Nvidia API 或雲端提供者。

後續…

展望未來，有幾個領域的持續研究與投資可以縮小能力差距並擴展實用性。針對 MoE 架構改進路由與專家選擇，可能進一步降低未啟用參數的開銷，同時提升每次請求的品質。長上下文效率的進步，例如更高效的注意力機制與記憶系統，將對需要在延長交互間保持持久狀態的實際代理應用至關重要。

另一個有成效的方向是對大型開放模型進行更好的基準測試與可解釋性研究。更細緻、透明的評估，分解不同推理類型、安全性、事實性與魯棒性的強弱，將有助於從業者選擇符合特定需求的模型。最後，工具與生態系投資——更好的開發者工具鏈、優化的推理堆疊以及具成本效益的託管——將決定技術上有能力的模型是否能轉化為廣泛採用。

隨著開放權重的開發在全球加速，模型架構、工程取捨與開放發布策略之間的相互作用，將決定哪些系統在實際中領先，而不僅僅是在紙面上。Nemotron 3 Ultra 代表了美國在推動該前沿上的一項重大努力——在許多方面更快且更易取得——同時也提醒我們國際間在開放 AI 領域的競爭仍然激烈且具深遠影響。

最後編輯時間：2026/6/2

#輝達