Voxtral: Mistral 的第一個開源 AI 音頻模型揭幕

文章上線

Voxtral: Mistral 的第一個開源 AI 音頻模型揭幕

前言

在人工智慧不斷演變的領域中，語音技術正在成為人機互動的關鍵渠道。Mistral，一家因倡導開源而聞名的法國 AI 新創公司，致力於民主化音頻處理技術。為了提供價格合理和開放的專有系統替代方案，Mistral 最近推出了其首個為廣泛行業設計的 AI 音頻模型 Voxtral。

懶人包

Voxtral 標誌著 Mistral 在音頻 AI 領域的首次嘗試，提供經濟實惠的語音處理。憑藉超越語言界限的能力，它是專為尋求開放權重替代方案的企業而設計。

主體

Mistral 推出的 Voxtral 象徵著 AI 音頻領域的戰略轉變，挑戰專有公司模型的霸主地位。隨著 AI 系統的不斷進步，無縫的人機通信的重要性無可忽視。由 Mistral 推出的 Voxtral 成為企業利用 AI 音頻技術而不受封閉系統限制的燈塔，為它們提供實惠和靈活性。

週二發佈的 Voxtral 顯示了 Mistral 將開放模型的好處轉化為實際應用的雄心。作為首個能交付'真正可用的語音智慧'的開放模型，它旨在填補開放但效率低下的系統與高效但昂貴的封閉替代方案之間的空隙。簡言之，Mistral 向企業保證，以不到其他系統一半的成本提供具有競爭力的效能的解決方案。

Voxtral 的能力涵蓋了音頻轉錄和理解，包括如英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語以及義大利語的多語言能力。其功能的關鍵在於 Mistral 的 LLM 主幹，Mistral Small 3.1，能夠理解和處理多達40 分鐘的音頻。該功能允許用戶在發生複雜任務時調動 Voxtral，例如生成摘要和通過 API 或功能調用執行語音命令。

Mistral 的以用戶為中心的方法提供了其'語音理解模型'的兩個主要變體。Voxtral Small 版本擁有 240 億個參數，針對大規模部署進行優化，可與行業領導者如 ElevenLabs Scribe、GPT-4o-mini、Gemini 2.5 Flash 競爭。而Voxtral Mini，擁有 30 億個參數，則專為本地化和邊緣實施設計。

此外，Mistral 提供了一個名為 Voxtral Mini Transcribe 的經濟實惠的 API，專門用於僅轉錄的任務。它承諾在成本不到 OpenAI 的 Whisper 一半的情況下提供卓越的性能，加強 Mistral 致力於經濟可及性的承諾。

為了實際參與，Mistral 邀請用戶從 Hugging Face 下載 API 或通過其 Le Chat 聊天機器人試用模型。商業集成起價為每分鐘 $0.001，反映了公司對廣泛可及性的持續承諾。

這一發佈在 Mistral 推出其推理模型組合 Magistral 之後，突顯出創新模式。作為歐洲領先的 AI 企業之一，Mistral 繼續支持開源模型的倡議，據 TechCrunch 報導，其可能正在與如阿布達比的 MGX 基金等知名投資者進行股權探討。

關鍵見解表

方面	描述
經濟實惠性	Voxtral 提供價格低於競爭對手一半的經濟實惠解決方案。
多語言支持	支持多種語言，例如英語、西班牙語和法語。
兩個模型變體	包括 Voxtral Small 和 Voxtral Mini 以因應不同的部署規模。
API 可及性	API 可從 Hugging Face 免費獲取；低成本整合，每分鐘 $0.001。
競爭力	與 ElevenLabs Scribe、GPT-4o-mini 等競爭。

最後編輯時間：2025/7/15

Voxtral: Mistral 的第一個開源 AI 音頻模型揭幕

前言

懶人包

主體

關鍵見解表

Mr. W

你可能會喜歡