LongCat-2.0 揭露:支撐 Owl Alpha 的中國製造、具成本競爭力的 AI 模型
目錄
您可能想知道
• LongCat-2.0 如何以「Owl Alpha」匿名運作,卻仍在多個代理平台上名列前茅?
• 哪些技術選擇與定價策略讓 LongCat-2.0 能在 GPT-5.5 與 Claude Sonnet 5 等既有模型中具競爭力?
主要主題
美團於 6 月 30 日公開宣佈 LongCat-2.0,確認在 OpenRouter 上以 Owl Alpha 身份運行的 1.6 兆參數混合專家(Mixture-of-Experts,MoE)模型實際上是其成果。該公司將該模型定位為以開放許可方式提供、主要在國產加速器上訓練與部署的系統,與依賴外國硬體進行預訓練的其他大型模型區別開來。在一段低調部署期間,該模型累積了大量使用量,按月呼叫量在數個代理平台上排名靠前。
從架構角度看,LongCat-2.0 為 MoE 模型,通常每個 token 大約會激活 480 億參數,激活數量會根據查詢複雜性在約 330 億到 560 億之間變動。這種選擇性激活是 MoE 設計的特徵:它們允許整體參數量非常大,而在推理時僅激活子集,當有效管理時可降低每個 token 的計算成本。
美團表示預訓練涵蓋超過 35 兆 tokens,使用了超過 50,000 台國產加速器叢集。公司強調訓練穩定性,指出該訓練「未發生回滾或不可恢復的損失尖峰」。這一聲明很重要,因為在新穎或異構硬體堆疊上進行的大規模訓練常常遇到中斷;在沒有災難性失敗的情況下完成此類運行,強化了國產堆疊現已足以支援兆參數訓練工作的論點。
價格是 LongCat-2.0 的主要競爭槓桿。 標準 API 價格據報為每百萬輸入 token $0.75、每百萬輸出 token $2.95。發布促銷期間這些費率降至分別 $0.30 與 $1.20,並提供快取上下文讀取免費。這些層級遠低於 GPT-5.5 所引用的每百萬 token $5/$30 與 Claude Sonnet 5 的入門價 $2/$10,使 LongCat-2.0 對於對成本敏感的用戶特別有吸引力,尤其是運行高頻或倉儲規模任務的團隊。
美團還提供更大規模的 token 包,進一步降低重度使用者的單位成本——例如價格約 $60 的 10 億 token 包——使該平台對開發者、編碼代理和經常迭代以從較低單位價格中受益的組織尤為有吸引力。
在實際測試中,LongCat-2.0 表現稱職,但並未始終與得分最高的替代方案匹配。一個快速的遊戲構建編碼測試產生了可運作的輸出,但模型在處理某些邏輯應變時存在局限——例如當難度或速度增加時,敵方目標鎖定邏輯的微妙情況會導致行為反覆無常,需經過迭代性修正。這類失敗在快速代碼生成會話中常見,模型往往字面執行提示而非預見未來互動或邊緣情況。鑑於其較低的價格點,該模型適合採用迭代工作流程,用戶可透過多次運行精煉輸出。
基準測試呈現混合但整體具競爭力的畫面。在 SWE-bench Pro(衡量模型從生產代碼中解決實際 GitHub 問題的頻率)上,LongCat-2.0 得分 59.5——略高於 GPT-5.5 的 58.6,勝過部分同代模型,但仍落後於如 Claude Opus 4.7/4.8 之類的高階變體。在 FORTE(評估代理在常見辦公任務上的表現)上,該模型得分 73.2,與 Claude Opus 4.6 並列,但落後於 GPT-5.5 的 77.8。這些結果表明,即使並非在每個類別都穩居頂級,LongCat-2.0 在價值-性能比上仍具實力。
技術上,LongCat-2.0 建基於若干優化以在不成比例增加運行成本的情況下提升能力。其注意力機制受類似 DeepSeek 設計啟發,優先關注非常長上下文中最相關的部分,而非平均地關注所有 token;這提升了在長對話或文件處理時的效率。模型還採用 N-gram 嵌入方法,讓它能將常見的多 token 短語表示為更豐富的單位。透過使模型把「New York City」之類的序列視為一個有意義的概念而非三個獨立 token,該嵌入方案在不成比例增加參數負擔的情況下,顯著擴展了表示多樣性。
訓練完成後,美團分層了三個專門子系統:用於工具使用的 Agent 模組、用於問題解決的推理(Reasoning)模組,以及用於對話任務的互動(Interaction)模組。之後由一個路由機制決定每個請求應由哪些專家組合處理,有效地將工作分派給最合適的子系統——概念上類似於團隊將任務分派給正確專家的方式。
實際可及性情況褒貶不一。LongCat-2.0 可透過美團的 API 端點存取,並提供與 OpenAI 與 Anthropic 類接口的兼容層,已整合到像 Hermes、Claude Code 與 OpenClaw 等現有代理框架中。然而,截至發佈時仍無法自行託管:權重與模型檔尚未在 GitHub 或 Hugging Face 上公開釋出,這些倉庫仍顯示「model weights coming soon」等占位字樣。美團尚未宣佈這些檔案的釋出日期。
簡言之,LongCat-2.0 展示了在國產加速器上訓練與部署的大型模型能達到生產級穩定性與具有競爭力的成本-性能折衷。其以 Owl Alpha 之名進行的匿名部署讓使用數據在公司將品牌掛鉤到系統之前得以累積,而其定價策略使其成為在 token 成本為主導因素的高密度迭代工作流程中的務實選擇。
重點洞見表
| 面向 | 描述 |
|---|---|
| 來源與揭露 | 美團確認 LongCat-2.0 即在 6 月 30 日公告前匿名在 OpenRouter 運行的 Owl Alpha 模型。 |
| 模型規模與激活 | 1.6T 參數(混合專家),平均每 token 約激活 ~48B 參數;激活範圍約 ~33B–56B。 |
| 訓練基礎設施 | 在超過 50,000 台國產加速器上訓練,據稱完成了 35T token 的預訓練,且無重大故障。 |
| 定價 | 標準:每百萬 token 輸入 $0.75 / 輸出 $2.95;發布促銷大幅降低;10 億 token 包約 $60。 |
| 性能 | 在基準測試上具競爭力(SWE-bench Pro 59.5,FORTE 73.2),在迭代編碼工作流程中表現良好但並非全領域最佳。 |
| 可用性 | 可透過美團 API 及整合代理存取;模型權重尚未公開釋出以供自我託管。 |
| 架構亮點 | 長上下文的稀疏注意力、用於更豐富短語表示的 N-gram 嵌入,以及帶路由的專家/推理/互動子系統。 |
之後……
展望未來,隨著 LongCat-2.0 與類似系統演進,有數個領域值得關注。首先,國產加速器堆疊在預訓練大型模型方面的更廣泛成熟,可能會顯著改變全球 AI 基礎設施格局;可靠的端到端國產訓練可降低地緣政治與供應鏈依賴。了解硬體在長期預訓練期間的韌性與故障模式,對計畫進一步擴大模型規模的組織仍然很重要。
其次,稀疏激活、長上下文注意力與更豐富的分詞策略(如 N-gram 嵌入)的進步,能同時改善性能與成本效率。持續研究將補充專家模組組合的路由機制,可能在不需要統一更大基礎模型的情況下,帶來更好的任務專用行為。混合架構,結合 MoE、有效注意力與任務路由,是平衡能力與推理成本的有前景方向。
最後,大模型部署的經濟學——定價層級、token 套餐與促銷策略——將左右開發團隊與企業的採用。低成本且可迭代使用的模型使實驗與快速改進循環更具普及性;然而,更廣泛採用將取決於透明的基準測試、可靠的自我託管選項,以及權重釋出的明確時程。
簡而言之,LongCat-2.0 突顯了規模、成本與部署策略之間的實務取捨。觀察美團與競爭者如何精進訓練管線、釋出供自我託管的模型,以及演化定價策略,將提供關於下一階段大型模型工程與商業化的重要訊號。