大學生二人組開發 AI 語音模型 挑戰 NotebookLM
序言
一對大學生勇敢地闖入 AI 領域,推出了一個能夠生成類似播客音頻的新 AI 語音模型,媲美 Google's NotebookLM。儘管他們在 AI 方面經驗有限,但卻設計出了一個工具,承諾對語音生成擁有更大的控制,提供多樣化的腳本定制選項。
懶人包
Nari Labs 使用 Google 的 TPU 技術發布了 Dia,一個擁有 16 億參數的模型。 用戶可以 自訂語音,輕鬆地模仿聲音。
正文
在 AI 和合成語音技術風起雲湧的世界中,兩位足智多謀的大學生推出了一個 AI 模型,旨在與 Google's NotebookLM 媲美。這次 AI 探索由一個韓國二人組通過 Nari Labs 主導,這是一個以增強語音合成技術為目標的創舉。合成語音工具的領域正在快速擴展,目前由諸如 ElevenLabs 等大型行業玩家主導。然而,新興創業公司不斷挑戰現狀,這個新的參與者便是一個有力證明,去年僅在語音 AI 技術方面就有 3.98 億美元的風險資本投入。
共同創立 Nari Labs 的 Toby Kim 表示,他們進入語音 AI 領域僅僅三個月前,致力於建構一個可以廣泛操控腳本及聲音控制的模型。這兩人巧妙地利用 Google 的 TPU Research Cloud 進行他們的項目,免費獲得強大的 TPU AI 晶片。所產生的模型 Dia 拥有高達 16 億的參數,提升其從腳本生成動態對話的能力。此模型賦予用戶自由定制講者的語氣,並可以加入笑聲或咳嗽等非語言元素,提高合成語音的真實感。
參數是 AI 預測能力的基石,對於像 Dia 這樣的模型而言至關重要。更多的參數通常代表著更好的性能,這一原則在 Dia 的能力上得到了理論和實踐的證明。該模型目前可通過 AI 開發平台 Hugging Face 和 Github 獲得,需要至少 10GB VRAM 的 PC 以達到最佳運行效果。雖然它可以產生隨機聲音,用戶也可以輸入描述來定制語音風格,或採用聲音仿製技術,精確模仿特定人物的聲音。
由 TechCrunch 進行的測試確認了 Dia 的操作效能,在各種主題上能夠有效維持雙向對話。其語音合成的質量競爭力與其他現代工具相當,而其用戶友好的仿製功能因簡單和高效而獲得正面評價。由 Dia 生成的樣本顯示出其潛力,儘管該模型仍需接受審視以防止誤用。生成誤導或欺詐性內容的潛在風險是一個重要考量。儘管 Nari Labs概述了其倫理使用指南,但團隊不對任何濫用行為負責。此外,Dia 的訓練數據來源尚未披露,引發對於開發過程中可能涉及版權侵權的推測,這在 AI 研究中是一個反復出現的倫理和法律挑戰。
儘管有這些顧慮,Kim 表達了 Nari Labs 希望建立一個綜合合成語音平台並增強社交連接功能的野心,期望能擴大 Dia 的語言範圍並推出更多先進的模型。一份Dia的技術披露也預期將發表,表明 Nari 在推進 AI 技術的透明度和倫理實踐方面的承諾。
重要見解表
方面 | 描述 |
---|---|
關鍵事實 1 | Dia 的語音生成能力由 16 億參數增強。 |
關鍵事實 2 | Nari Labs 計畫在其合成語音平台中集成社交功能。 |