具爭議性的研究揭示 AI 模型可能在未經許可下保留版權內容
目錄
您可能想要知道
- AI 模型如何不經意地記住版權內容?
- 這對版權法有何影響?
主要主題
由華盛頓大學、哥本哈根大學和史丹佛大學的合作研究團隊進行的一項近期研究揭示了 OpenAI 在使用版權材料訓練其 AI 模型時可能存在的漏洞。這一發現與作者和其他版權持有人對 OpenAI 的指控一致,指控其在未經授權的情況下使用他們的作品。OpenAI 通過援引合理使用辯護來對抗這些指控,但原告辯稱這一立場未得到美國現行版權法律對於訓練數據的支持。
研究揭示了一種創新方法識別在 OpenAI 等公司開發的可通過 API 訪問的 AI 模型中的所謂“記憶”數據。此方法意義重大,因為模型作為預測工具,通過處理海量數據集來識別模式,從而允許它們生成文章、設計等。雖然許多結果與訓練數據不同,但由於固有的學習機制,部分結果可能會反映輸入數據。過去的案例顯示視覺模型再現了分析過的電影場景,而語言模型不經意地重現已發表文章的部分內容。
該研究的方法論依賴於識別研究人員認為的“高驚訝”單詞——即在大段文本中與預期大不相同的術語。例如,在短語“傑克和我坐著一動不動,雷達聲嗡嗡響”中,“雷達”由於在這個語境中罕見會被視為“高驚訝”,相比之下像“引擎”或“收音機”這樣的常見詞語則不然。通過實驗分析了幾個 OpenAI 模型,尤其是 GPT-4 和 GPT-3.5。研究人員從創作小說和新聞作品中省略了高高潮單詞,並挑戰模型去預測被省略的詞。準確預測表明該模型可能在訓練階段吸收了該數據片段。
檢查結果表明,GPT-4 記住了小說書籍的一些重要內容,特別是來自 BookMIA 數據集中那些版權電子書。此外,結果還暗示了一些紐約時報文章的記憶,雖然頻率較低。來自華盛頓大學的博士生和研究共同作者 Abhilasha Ravichander 表示,這些見解揭示出使用原始訓練數據的重大“爭議數據”關注。
為了使大型語言模型具備可信性,它們必須可供檢查、審計並經過嚴格的科學檢驗,Ravichander 說道。這觀點支持該研究的更廣泛目標,即開發魯棒的審計工具,以理解 AI 可能依賴敏感數據的程度,強調 AI 生態系統中透明度的迫切需求。
儘管受到越來越多的審查,OpenAI 仍然持續倡導對包含版權數據集訓練AI的較少限制的法規。儘管他們維持某些許可協議並為內容所有者提供退出選項,公司仍積極與多個政府進行政策倡導,以承認 AI 模型訓練的“合理使用”權。
關鍵見解表
層面 | 描述 |
---|---|
記憶探測 | 創新技術以檢測基於API模型中的記憶數據。 |
訓練辯論 | 因“合理使用”原則而引起的關於在版權材料上進行 AI 訓練的爭議。 |
後續...
這項研究的發現強調了在利用強大的AI功能和維護知識產權之間所需的複雜平衡。隨著AI的發展,進一步對透明和道德訓練做法的研究仍然至關重要。技術、法律和道德相關產業必須合作,以確保 AI 的進步不會侵犯創作權益。這不僅涉及使 AI 框架更清晰地界定合理使用的界限,還包括制定平衡保護創新者和內容創作者的政策。