研究指出人工智慧編碼工具對專業開發者的效率提升有限
前言
在不斷發展的程式設計領域,像是 Cursor 和 GitHub Copilot 的人工智慧編碼工具已經徹底改變了開發者編寫程式碼、修復錯誤和測試修改的方式。這些工具由 OpenAI、Google DeepMind、Anthropic 和 xAI 的領先 AI 模型驅動,在軟體工程任務的性能上有明顯改善。然而,由 METR 展開的最新研究質疑其對提升資深開發者生產力的有效性。本文探討了這項研究的發現,並探討 AI 工具對真實編碼工作流程的影響。
Lazy bag
新的研究指出AI 編碼工具可能實際上會減慢開發者的速度。METR 的研究顯示,使用 AI 工具時,完成時間增加了 19%。
正文
AI 編碼工具在現代軟體工程環境中開闢出一片天地,承諾透過自動化編碼過程提高生產力。各種強大的工具,如 Cursor 和 GitHub Copilot,利用先進的 AI 模型來提供這些能力。這些模型由像 OpenAI、Google DeepMind、Anthropic 和 xAI 等知名公司開發,過去幾年在許多軟體測試中顯著提升性能。儘管有這些進步,但 METR 的嚴格研究對特別是老練開發者的生產力提升提出質疑。
該研究採用了一個嚴格的隨機對照試驗,招募了 16 名資深的開源開發者,他們處理了 246 個大型代碼庫中的任務。在試驗中,這些任務被分為兩組:允許使用 AI 工具的任務和不允許的任務。有趣的是,開發者最初預期 AI 工具將使完成任務的時間減少 24%,但研究顯示,使用這些工具時完成時間卻出乎意料地增加了 19%。令人震驚的是,這一發現表明,當有 AI 工具的協助時,開發者的工作速度反而較慢。
深入研究顯示,只有大約 56% 的開發者有使用過 Cursor 的經驗,而這是研究的中心 AI 工具。儘管 94% 的開發者曾接觸過某種形式的網路 LLM,但對許多人來說,這是他們第一次使用 Cursor。儘管研究人員提供了全面的培訓,預期中的生產力提升依然未能實現。
這項研究讓我們注意到在專業工作流程中使用 AI 工具,尤其是被稱為「情境編碼器」的模型所帶來的意外挑戰。METR 研究人員指出了多種可能的原因,包括開發者在指導並等待 AI 工具回應時花費的時間增加,以及該軟體在處理使用者積極在實驗中使用的大型和複雜代碼庫時面臨的困難。
儘管這些發現引人注目,但該研究未聲稱 AI 工具普遍阻礙大多數開發者的生產力。他們避免下定論,承認 AI 能力的持續進步。其他廣泛的研究表明軟體工作流程確實能從 AI 工具中受益。
此外,研究人員還注意到 AI 系統在處理長期、複雜任務方面的顯著進展。因此,AI 不斷變化的領域可能使這些發現即使在未來不久也可能不再適用。
然而,METR 的研究呼籲在接受 AI 編碼工具的普遍生產力提升聲明時要謹慎。呼應先前的研究,AI 工具可能引入錯誤和安全漏洞的潛在風險依然存在。
關鍵洞察表
要點 | 描述 |
---|---|
關鍵事實 1 | 研究中的 AI 工具使用增加了 19% 的完成時間而非減少。 |
關鍵事實 2 | 研究指出 AI 工具在與大型複雜代碼庫交互時的挑戰。 |