小米的 MiMo 在商用 GPU 上達到比 ChatGPT 與 Claude 快 15 倍的推理速度
目錄
你可能想知道
一個兆參數模型是否真的能在標準 8-GPU 硬體上以超過每秒 1,000 個 token 的速度運行?
哪些軟體和模型層級技術使得在不大幅降低質量的情況下出現如此顯著的速度提升成為可能?
主要主題
小米最近宣佈 MiMo-V2.5-Pro-UltraSpeed,一種用於其兆參數旗艦模型的部署配置,展示了持續吞吐量超過每秒 1,000 個 token,且示範中峰值接近每秒 1,200。此里程碑令人注目,因為它是在單個標準 8-GPU 商用節點上達成,而非專用定制硅片。如果在更廣泛的測試中得到驗證,該結果會改變人們對能在生產環境中部署極速大模型推理的預期。
Token 是語言模型處理的離散文本單位;以每秒 token 計量的吞吐量是實時回應能力的一個實用指標。較大的模型(以參數量衡量)往往改善推理與能力,但它們也提高記憶體與頻寬需求,通常會拖慢推理速度。因此小米的成果回應了一個經典的權衡:如何在保持模型規模與能力高的同時,大幅降低有效延遲並提高輸出速度。
推動速度提升的兩項核心技術。第一是選擇性地在模型的 expert 層上應用 FP4 量化。透過以 4 位精度而非 8 或 16 位來表示那些大型參數區塊,記憶體佔用與記憶體頻寬需求大幅下降。這種下降直接轉化為更快的資料移動和更高的吞吐量。量化常常會引入精度退化,但小米報告幾乎沒有質量損失,因為壓縮是精準施加的——僅應用於 expert 層,而在其他層保留較高精度。這種選擇性的 FP4 方法是一個關鍵設計選擇,在實現頻寬節省以獲得吞吐量增益的同時保留模型性能。
第二項技術是小米稱為 DFlash 的一種推測式解碼變體。傳統的推測式解碼使用一個較小的草案模型來提出下一個 token,然後由較大的模型驗證這些提議。DFlash 採取不同路徑:它在一次前向傳播中提出並填充整個區塊的被掩碼位置,允許大模型在每輪驗證中接受多個 token,而不是一次只接受一個。在內部程式碼基準測試中,大模型在每次驗證平均接受了 8 個提議 token 中約 6.3 個,有效地在單一步驟中確認多個 token,減少了逐 token 序列驗證的開銷。
這些演算法進展與一個名為 TileRT 的推理引擎結合,該引擎將系統級開銷降到最低。TileRT 將計算管線駐留在 GPU 上,以移除每個運算子啟動成本和執行間隙,從而實現加速器的持續利用率。小米將整體方法描述為「極端的模型-系統聯合設計」:模型層級的量化、DFlash 解碼以及緊密的推理運行時相結合,對吞吐量產生乘法效應。各項技術單獨能改善效能;合在一起,讓兆參數模型達到每秒 1,000+ token 的門檻。
將數字放入背景來看:許多廣泛使用的模型與服務的吞吐量實際上要低得多。代表性報告數據顯示,現代類 GPT 的服務在相當大小或更小的模型上通常位於數十到低百個 token/秒。小米報告的每秒 1,000 token 是典型雲端選項的一個量級提升,並且與過去的專用硬體示範相比具有競爭力。例如,一些定制晶片供應商利用晶圓級或 LPU 架構報告了高吞吐量,但這些解決方案依賴專用硅片,通常無法作為可租用的雲端實例獲得。小米的成果重要之處在於它運行於企業實際可配置的商用 GPU 上。
除了原始吞吐量外,這種等級的推理效能還啟用不同的應用模式。需要大量並行推理路徑的工作負載——例如大規模詐欺偵測、高頻交易信號生成或實時多代理回路——對延遲與並行吞吐量高度敏感。在傳統速率(數十到幾百 token/秒)下,這些應用在有限時間預算內可探索的假設或代理模擬數量受限。在大約每秒 1,000 token 的速率下,相同硬體可以評估更多候選路徑或在可接受延遲下生成更長的回應,從而解鎖更豐富的線上決策與互動模型。
當然存在權衡與實務考量。報告的配置是對完整 MiMo-V2.5-Pro 模型進行加速,而非較小的變體;小米表示 UltraSpeed 等級的價格大約是標準 MiMo-V2.5-Pro 費率的 3 倍,但提供約 10 倍的生成速度。有限的 API 試用在固定時段內運行,並優先面向企業與專業開發者。小米也在社區模型庫中開源了一個 FP4-DFlash 檢查點,便於更廣泛的測試與審視。
相比之下,定制硬體製造商歷來將自己定位為解決此問題的答案:晶圓級或特殊 LPU 方法以軟體靈活性換取每節點的原始吞吐量。小米的方法表明,透過軟體與謹慎的模型設計可以彌合相當大的一部分差距,而無需特殊晶片。如果社群在更廣泛範圍內驗證這些技術,業界可能會看到在通用 GPU 叢集上提供更具能力的實時大型模型服務的轉變。
關鍵見解表
| 面向 | 描述 |
|---|---|
| 達成的吞吐量 | 超過每秒 1,000 個 token,在兆參數模型的示範中峰值接近每秒 1,200。 |
| 硬體 | 標準 8-GPU 商用節點——不需要定制晶片。 |
| 關鍵軟體技術 | 在 expert 層上選擇性使用 FP4 量化與 DFlash 推測式解碼。 |
| 推理引擎 | TileRT:降低運算子啟動開銷並使計算駐留在 GPU 上。 |
| 品質影響 | 小米報告透過將 FP4 限定於 expert 層並在其他層保留較高精度來實現幾乎為零的品質損失。 |
| 價格與可用性 | UltraSpeed 等級價格約為標準費率的 3 倍,提供約 10 倍吞吐量;有限的 API 試用與部分開源檢查點可用。 |
後續...
展望未來,選擇性低位元量化、先進解碼策略與緊密整合的推理運行時的結合,指向一個值得進一步研究與工程投入的肥沃領域。重要的下一步包括在多樣化任務上進行獨立的品質基準測試、在生產工作負載下進行壓力測試,以及在其他架構與模型族上更廣泛地驗證 FP4+DFlash 的組合。從系統角度來看,持續致力於降低運行時開銷並改善 GPU 記憶體利用率,將有助於將這些收益推廣到多節點部署與混合精度訓練/推理工作流程中。
在應用層面,開發者應探索增加的並行推理能力與降低的延遲如何重塑實時使用案例。低延遲決策、互動式程式碼助理與即時多代理協調等領域可能特別受益。與此同時,研究人員與實務者必須監控在較少見任務上可能出現的任何細微品質回退,並在大規模部署前充分理解運營考量——成本、可靠性與可重現性。
簡言之,小米的示範表明,在謹慎的模型、解碼演算法與運行時共設計下,在商用硬體上實現高吞吐量的兆參數推理是可行的。社群應廣泛驗證這些主張,並研究這些技術組合在哪些實際應用中最能帶來改善。