研究顯示 AI 在歷史分析中遇到困難
最近的研究突顯了 AI 在理解歷史複雜性方面的困擾。
OpenAI 的 GPT-4、Meta 的 Llama 和 Google 的 Gemini 在回答高級歷史問題時表現不佳。
Hist-LLM 基準顯示出平均準確性僅為 46%,這對於其在歷史上的可靠性提出了質疑,相比之下它們在編碼等任務中表現出色。
情感分析
研究的整體情感是混合的,既看到了 AI 的潛力也注意到了目前在歷史背景中的不足。
對 AI 在歷史表現的情感主要是負面的,因為它無法準確回答具有細微差別的歷史問題。
對於 AI 將來可以幫助歷史學者的潛力抱有積極的展望。
文章正文
根據一項新的研究,人工智慧模型如 OpenAI 的 GPT-4、Meta 的 Llama 和 Google 的 Gemini 在許多領域如編碼中表現出色,但在歷史分析方面卻暴露出明顯的缺陷。研究人員使用 Hist-LLM 基準,以評估這些模型相對於可靠的 Seshat 全球歷史資料庫的準確性。發現顯示出僅有 46% 的準確率,表示其與超越基本知識的歷史事實的最小一致性。
來自倫敦大學學院的 Maria del Rio-Chanona 是該研究中的重要人物,她指出,盡管 LLM 能夠處理簡單的事實,但仍無法應對博士水平的歷史複雜性。這些模型顯示出顯著的不準確性,例如將古埃及的鱗甲出現時間誤差 1,500 年。
Del Rio-Chanona 強調,由於這些模型廣泛推斷可獲得的信息,而非提取不太顯著的歷史事實,常錯誤地得出結論。例如,對古代軍隊的錯誤結論受波斯等帝國的軍事歷史主導所影響。
結果進一步暴露了地域偏見,特別是表現在有關撒哈拉以南非洲這樣不太覆蓋地區的問題上表現不佳。這指出了在這些 AI 平台之間的訓練基礎不均勻。研究的領導者 Peter Turchin 肯定儘管有這些缺陷,但更多包容性數據和複雜的提問方法可以在未來有效地支持歷史學家。
因此,研究強調 AI 在歷史背景中的現有限制,但同時如果能做進一步的增強,亦具潛在的效用。
主要見解表
方面 | 描述 |
---|---|
AI 的準確性 | 48% 的歷史數據分析準確性暗示對於深入的歷史問題的有限可靠性。 |
訓練中的偏見 | 尤其在像撒哈拉以南非洲這樣不太記錄的地區觀察到偏見。 |
未來應用 | 如果基準能用多種數據輸入改進,AI 作為研究輔助工具的潛力。 |
最後編輯時間:2025/1/19