我與 OpenAI Operator 的經驗：一個有幫助但不完美的 AI 助手

前言

OpenAI 最近讓我探索他們最新的 AI 產品 Operator，這是一個設計來獨立執行互聯網任務的數位助手。雖然它符合科技業界自動化單調生活任務的夢想，希望能空出更多時間來進行更愉快的活動，但它離真正的自主性還有一段距離。我的一周試用為這個新 AI 的能力和限制提供了啟發性的見解。

懶人包

OpenAI 的 Operator 協助執行各種任務，但經常需要人類介入。它令人印象深刻，但不能完全獨立，強調了需要更多可靠的 AI 模型。

主要內容

在過去的一周裡，OpenAI 讓我有機會與 Operator 互動，這是一個旨在自動執行網路任務的新 AI 代理。根據我的互動，Operator 代表了朝著一個數位助手能夠獨立處理日常任務的未來邁進了一步，與當前 AI 驅動的生活自動化科技敘事相吻合。該代理的基礎是最新訓練的 AI 模型，將 GPT-4o 的視覺感知和 o1 的推理能力結合，使其能夠有效地瀏覽網站、點擊按鈕和填寫表格。

然而，我的實際試驗強調了一個重要事實——Operator 還不能被無人看管。經常需要我提供關鍵的協助，指導其完成任務而不是減輕我的工作量。這種體驗像是在使用定速巡航控制而非全自動駕駛；Operator 能輕鬆處理一些任務，但經常需要人工介入。OpenAI 承認這些暫停是故意的，不希望將過多的自主權或敏感信息交給這個代理以保障安全——這是一個影響實用性的重要選擇。

例如，當我搬家的時候，Operator 幫助我購買了一個新的停車許可證，並高效地完成了線上流程。然而，它需要多次的許可和個人數據，偶爾出錯，留下我必須手動引導它的狀況。這比預期要花費更多的精力，特別是當網路限制阻止其在如 Expedia 和 TaskRabbit 平台上的功能，而其他如 Instacart 和 eBay 的平台則歡迎創新，將 Operator 整合到其用戶互動中。

Operator 模擬人類前端網站交互的能力值得讚賞。然而，其經常性的假象，例如停車場位置錯誤和價格不正確，無不凸顯出持續的人類監管的必要性，並強調在實現真正獨立的自治 AI 系統方面的一大障礙——可靠性。OpenAI 通過不與 Operator 分享敏感數據來保護用戶，防止代價高昂的錯誤，但也限制了代理的實用性。

當前的功能顯示出潛力，但同時也顯示出在 AI 的可靠性和自主性領域需要的重要進步。在那之前，讓人類提倡 AI 協助而不是監督的角色逆轉尚未實現，使得全面的自主性難以達成。

關鍵見解表

面向	描述
自主能力的限制	雖然 Operator 能自動化任務，但由於可靠性問題，它經常需要用戶介入。
安全和隱私問題	OpenAI 限制數據訪問以防止 AI 可能導致的高額錯誤。
企業採用	如 Instacart 和 eBay 等多家公司正在將 AI 代理整合為支持者。
錯誤管理	Operator 的頻繁錯誤阻礙其成為真正獨立系統的全部潛力。

最後編輯時間：2025/2/4