我與 OpenAI Operator 的經驗:一個有幫助但不完美的 AI 助手
前言
OpenAI 最近讓我探索他們最新的 AI 產品 Operator,這是一個設計來獨立執行互聯網任務的數位助手。雖然它符合科技業界自動化單調生活任務的夢想,希望能空出更多時間來進行更愉快的活動,但它離真正的自主性還有一段距離。我的一周試用為這個新 AI 的能力和限制提供了啟發性的見解。
懶人包
OpenAI 的 Operator 協助執行各種任務,但經常需要人類介入。它令人印象深刻,但不能完全獨立,強調了需要更多可靠的 AI 模型。
主要內容
在過去的一周裡,OpenAI 讓我有機會與 Operator 互動,這是一個旨在自動執行網路任務的新 AI 代理。根據我的互動,Operator 代表了朝著一個數位助手能夠獨立處理日常任務的未來邁進了一步,與當前 AI 驅動的生活自動化科技敘事相吻合。該代理的基礎是最新訓練的 AI 模型,將 GPT-4o 的視覺感知和 o1 的推理能力結合,使其能夠有效地瀏覽網站、點擊按鈕和填寫表格。
然而,我的實際試驗強調了一個重要事實——Operator 還不能被無人看管。經常需要我提供關鍵的協助,指導其完成任務而不是減輕我的工作量。這種體驗像是在使用定速巡航控制而非全自動駕駛;Operator 能輕鬆處理一些任務,但經常需要人工介入。OpenAI 承認這些暫停是故意的,不希望將過多的自主權或敏感信息交給這個代理以保障安全——這是一個影響實用性的重要選擇。
例如,當我搬家的時候,Operator 幫助我購買了一個新的停車許可證,並高效地完成了線上流程。然而,它需要多次的許可和個人數據,偶爾出錯,留下我必須手動引導它的狀況。這比預期要花費更多的精力,特別是當網路限制阻止其在如 Expedia 和 TaskRabbit 平台上的功能,而其他如 Instacart 和 eBay 的平台則歡迎創新,將 Operator 整合到其用戶互動中。
Operator 模擬人類前端網站交互的能力值得讚賞。然而,其經常性的假象,例如停車場位置錯誤和價格不正確,無不凸顯出持續的人類監管的必要性,並強調在實現真正獨立的自治 AI 系統方面的一大障礙——可靠性。OpenAI 通過不與 Operator 分享敏感數據來保護用戶,防止代價高昂的錯誤,但也限制了代理的實用性。
當前的功能顯示出潛力,但同時也顯示出在 AI 的可靠性和自主性領域需要的重要進步。在那之前,讓人類提倡 AI 協助而不是監督的角色逆轉尚未實現,使得全面的自主性難以達成。
關鍵見解表
面向 | 描述 |
---|---|
自主能力的限制 | 雖然 Operator 能自動化任務,但由於可靠性問題,它經常需要用戶介入。 |
安全和隱私問題 | OpenAI 限制數據訪問以防止 AI 可能導致的高額錯誤。 |
企業採用 | 如 Instacart 和 eBay 等多家公司正在將 AI 代理整合為支持者。 |
錯誤管理 | Operator 的頻繁錯誤阻礙其成為真正獨立系統的全部潛力。 |