文章上線

Nvidia 的 ENPIRE 讓 AI 程式代理在無需人類介入下教導機器人

Nvidia 的 ENPIRE 讓 AI 程式代理在無需人類介入下教導機器人

重點

來自 Nvidia、卡內基美隆大學與加州大學柏克萊分校的研究人員提出 ENPIRE,一個讓 AI 程式代理在無需人類監督下完全掌控實體機器人訓練的框架。系統只需要一次性的人類設定來建立復位例程與基於相機的獎勵函數;在此之後,代理會檢索文獻、選擇訓練方法、撰寫並執行程式碼,並直接在硬體上反覆改進。在實驗中,八台機器人組成的群組在插銷插入、GPU 就位與束帶切割等任務上達到約 99% 的成功率,且擴展到多機器人能顯著縮短實際訓練時間。

情緒分析

  • 整體情緒對 ENPIRE 的技術成就及其將自動研究從模擬帶入真實世界的潛力持正面且樂觀的看法。報導中的 99% 成功率以及能在八機器人編隊上擴展學習的能力,顯示出強烈的實用前景。下方進度條代表對於其即時影響的正面但謹慎的展望:
75%

文章內容

Nvidia 與卡內基美隆大學及加州大學柏克萊分校的研究人員共同發表了一篇論文,描述 ENPIRE——一個使 AI 程式代理能在實體硬體上執行完整機器人技能獲取循環而不需持續人類監督的框架。不像以往仍停留在模擬環境的自動研究工作,ENPIRE 將生成程式碼、測試、評估與修訂的循環移入實體世界,因為在真實環境中失敗會有現實成本,且重置實驗需要移動實際的機械手臂。

該框架包含一個簡短的人為設定階段和一個自主階段。在設定階段中,人類設計兩個可重複使用的組件:將工作區返回到已知起始狀態的復位例程,以及從相機影像評估成功的視覺獎勵函數。這些組件只需建立一次,然後在重複試驗中重用,讓程式代理接管其餘流程。

在設定完成後,像 OpenAI 的 Codex、Anthropic 的 Claude Code 或 Moonshot 的 Kimi Code 等程式代理負責搜尋既有工作、選擇訓練方法——模仿學習、強化學習或手寫啟發式方法——撰寫或重寫自己的程式碼,並在實體機器人上執行實驗。代理透過共享版本控制在多個機器人工位間協調,讓成功的想法能迅速在整個編隊中傳播。

ENPIRE 在 Nvidia 的 GEAR 實驗室的八個雙手工位上進行測試。每個工位運行自己的代理與硬體堆疊;工位透過 Git 分享進展,改善能在數分鐘內在整個編隊散佈。研究人員在多項任務上評估該系統,包括將 T 形方塊滑入目標區域(Push-T)、精確地將銷插入 4 毫米孔、安裝 GPU,以及切割束帶。由一台機器人擴展到八台後,掌握任務所需的時間大幅減少——例如 Push-T 從單機大約五小時降至編隊約兩小時,而插銷插入則從超過 90 分鐘降到約 40 分鐘。

在測試任務中,代理達到了約 99% 的成功率。以插銷插入為例,ENPIRE 的全自動代理比仍需每日人類介入的可比方法更快達到近乎完美的可靠性。團隊提供代理計算資源與代幣(token)預算,然後允許它們在無人類在環中的情況下進行迭代、觀察與改進。

將自動研究循環帶入現實世界揭示了模擬與現實之間的差距。三種程式代理在模擬中都能解決 Push-T,但其中兩種在面對真實世界的摩擦力與其他模擬器常忽略的物理效應時失敗。這一結果凸顯了從模擬到真實轉移(sim-to-real)的挑戰,以及在實際硬體上評估系統的重要性。

ENPIRE 也在名為 RoboCasa 的模擬基準上進行評估,該基準衡量如開櫥櫃與關閉爐灶等家務任務的表現。在那裡,ENPIRE 優於 Nvidia 先前的端到端模型 GR00T 與不執行自主研究的工具使用代理 CaP-X。ENPIRE 建立在早期概念之上,例如在模擬中使用語言模型撰寫獎勵函數的 Eureka;ENPIRE 擴展了該概念,讓代理能在真實機器人上設計並執行自己的測試。

此項工作發表之際,體現式 AI 領域的產業活動亦在擴大:例如阿里巴巴近期發布了 Qwen-Robot Suite,該系列模型以導航、操作與模擬為目標。雖然阿里巴巴側重於為機器人開發釋出模型,Nvidia 的方法展示了程式代理能管理團隊控制的硬體上的完整研究循環。這兩項發展都表明,將更具能力的 AI 代理帶入實體機器人領域的趨勢正在成形。

ENPIRE 的結果令人鼓舞,但也突顯了實務考量。仍需人類進行設定以提供穩健的復位與獎勵機制,且擴展編隊會增加資源消耗——隨著時間節省,代幣與計算成本也隨之上升。此外,模擬到真實的差距仍是障礙;並非所有在模擬中成功的方法都能在未經審慎調整下轉移到硬體上。儘管如此,該實驗顯示當提供適當基礎設施時,自主程式代理能在機器人學習上驅動具意義的改進。

隨著代理在設計、實作與驗證實驗方面持續改進,像 ENPIRE 這樣的框架指向一個未來:大量機器人研究的反覆工作可以自動化。該未來帶來更快速進展的機會,但也要求在研究者將自動研究從螢幕移入實體機器人世界時,對安全、監督與資源取捨進行審慎考量。 ENPIRE 證明了從模擬到真實世界的機器人自動研究跳躍既可行又具影響力。

關鍵見解表

面向 說明
框架 ENPIRE:在一次性人類設定之後,讓程式代理在真實硬體上執行端到端的機器人訓練。
人類角色 一次性建立復位例程與基於相機的獎勵函數;其餘由代理自主處理。
使用的代理 Codex、Claude Code、Kimi Code(作為執行自動研究的程式代理範例)。
結果 多項任務約 99% 的成功率;多機器人編隊顯著縮短訓練時間。
挑戰 模擬到真實的差距、資源成本(計算與代幣)以及安全/監督方面的考量。
最後編輯時間:2026/6/17
#輝達#阿里巴巴

Power Trader

Z新聞專欄作家