Deep Cogito 推出革命性混合 AI 模型,提升推理能力
目錄
您可能想知道
- 混合 AI 模型如何平衡推理與處理速度?
- Deep Cogito 正在引入哪些創新以升級 AI 能力?
主要主題
在不斷演變的人工智慧領域,Deep Cogito 已經崛起為一個重要參與者,推出了一系列具有先進推理能力的 AI 模型。這些模型可以在推理和非推理模式下運行,為各種應用提供靈活性。Deep Cogito 的核心創新在於其混合模型架構,將推理元件與標準 AI 元件無縫整合。
推理模型類似於 OpenAI 的 o1,擅長需要邏輯問題解決的領域,如數學和物理。這些模型仔細驗證每個步驟,提高其可靠性。然而,這樣的權衡是增加了計算需求和延遲。為了應對這一挑戰,像 Anthropic 這樣的組織正在探索混合架構,可以迅速處理簡單查詢,同時專注於複雜問題。Deep Cogito 的模型體現了這種方法。
Cogito 1,這條旗艦模型線涵蓋從 30 億到 700 億參數,具有可擴展性。預期的擴展承諾模型達到 6710 億參數,顯示出朝向增強問題解決能力的穩定軌跡。Deep Cogito 基於 Meta 的 Llama 和阿里巴巴的 Qwen 模型,改進這些基礎,引入新訓練方法以提升性能並實現可調推理能力。
內部基準顯示 Cogito 70B,那是其最大的模型,超越了像 DeepSeek 的 R1 的競爭模型,在各種數學和語言評估中表現卓越。值得注意的是,即使在沒有推理的情況下,Cogito 70B 在一般用途測試如 LiveBench 中也超越 Meta 的 Llama 4 Scout,強調其多功能性。
所有模型可通過 Fireworks AI 和 Together AI 的雲提供者的 API 訪問,提高其可用性。Deep Cogito 計劃探索其他後訓練方法以持續自我改進,旨在使用傳統計算資源的一小部分來優化其模型。
Deep Cogito 成立於 2024 年 6 月於舊金山,由 Drishan Arora 和 Dhruv Malhotra 領導,他們在 Google AI 實驗室 DeepMind 的背景加強了其生成搜索技術專業知識。在 South Park Commons 等實體的支持下,Deep Cogito 的雄心壯志超越當前 AI 能力,目標是創建「一般超智能」。這個雄心勃勃的目標願景是 AI 不僅能滿足而且超越人類在多種任務上的表現,潛在激發未探索的潛力。
關鍵見解表
方面 | 描述 |
---|---|
混合模型的靈活性 | 模型可以在推理和非推理模式之間切換,以適應不同應用。 |
參數擴展性 | Cogito 模型範圍從 30 億到 700 億參數,未來計劃進一步擴展。 |
後記...
展望未來,探索新方法於後訓練和擴展計算效率,可能在 AI 發展中扮演關鍵角色。Deep Cogito 推出的模型在平衡推理能力與計算實用性上設立了新的標竿,顯示了趨向更具適應性和擴展性的 AI 系統。潛在的突破在於精細化 AI 自主增強其推理策略的能力,為實現與日益複雜的任務無縫互動帶來突破性進展。