前高盛與 Meta 員工創建專為非洲與中東打造的語音 AI
前言
語音 AI 正快速重塑全球的客戶支援與服務,但許多領先解決方案是為西方環境與高端基礎設施設計的。本文說明為何這種設計不匹配會造成問題,以及由前高盛與 Meta 員工創立的新創公司如何應對在非洲與中東部署語音 AI 時的獨特技術與營運挑戰。本文描述了該公司的資金、創始團隊、技術選擇、資料收集方法與市場進入策略,並提供在方言多樣、延遲限制嚴格且仍使用舊式電話網路的地區建置實際可用語音系統的實務觀察。
重點摘要
主要語音 AI 供應商經常以西方語音模式與雲端基礎設施為前提 — 這種假設在非洲與中東地區不適用。為填補此缺口而成立的 AethexAI 在前種籌得 300 萬美元的前種資金,並打造了小型模型與客製化的編排層以將延遲降到最低,支援當地英語、法語與阿拉伯語方言。該公司將實地資料收集與開發者工具結合企業導入,以在需要大量通話的市場中提供實用且低延遲的語音自動化。
主體
語音 AI 在客戶支援的採用已在全球加速,但成功不僅取決於模型在基準資料集上的表現。在許多新興市場,實務限制——如有限的網路頻寬、舊式電話系統、多樣方言與非正式語言模式——使標準解決方案無效。AethexAI(由 Mariama Diallo 與 Ayooluwa Odemuyiwa 創立)專注解決這些限制。創辦人具互補經驗:Diallo 曾在高盛任職,並在 ModelML 擔任產品與成長相關職務;Odemuyiwa 則有 Meta 的技術經驗,並受訓於 Caltech 與 Stanford。他們的綜合視角促使公司決定建立針對非洲與中東營運現實的基礎設施與模型,而非試圖調整為西方情境設計的現成編排與大型模型。
該新創籌得由 4DX Ventures 領投的 300 萬美元前種資金,參與者包括 Enza Capital、Dorm Room Fund、Mojo Ventures 與 Stanford GSB 26 Fund,以及來自學界、電信與 AI 研究的天使投資人。早期投資使團隊能優先考量務實的取捨:他們沒有追求越來越大的模型,而是聚焦於以較小且高效的模型在更接近使用者的地點部署,來降低延遲並維持準確性。
在語音互動中,延遲與抖動是決定性因素——延遲或不可預測的時間會降低體驗並減少自動化的有效性。在非洲與中東的許多地區,雲端託管的大型模型因為距離資料中心較遠與網路品質不穩定而導致無法接受的延遲。為解決此問題,AethexAI 設計了 Kora 系列:參數量大約在 3 億到 17 億之間的緊湊模型。這些模型故意比最大型語言模型小得多,以在運算成本、推論速度與在當地方言的對話任務準確性間取得平衡。
建置在地化語音系統需要具有代表性的訓練資料與精心的標註。AethexAI 透過合作夥伴取得匿名化的客服中心錄音,並進行有創意的資料蒐集活動,包括將硬碟寄送至非洲各地的電臺以收集多樣語音。他們也招募大學生網絡來標註錄音並提供當地姓名與片語的母語發音,藉此在控制標註成本的同時提升對口語與語碼轉換語料的資料品質。
從工程角度來看,該公司選擇不依賴現有的編排平台(例如 Vapi 或 LiveKit)。相反地,他們實作了一層編排邏輯並優化模型以最小化端到端延遲。此決策反映出一個現實:將大型模型託管在區域外會增加往返時間並降低對話回應性。透過保持模型小型並在每個階段部署能裁減延遲的編排邏輯,平台得以在可接受的回應速度下支援數千通每日通話。
在營運上,AethexAI 強調實務的企業導入。目標市場的許多公司對語音自動化經驗不足;在埃及與其他地區,一些早期的自動化嘗試結果不佳且被撤回。為避免類似結果,該新創提供現場示範、工作坊以及一套結構化的接觸流程,要求客戶先優先一個單一用例開始。這種務實方式縮小範圍、明確成功指標,並加速雙方的學習。
目前的用例通常為高量且重複的語音互動,在這些情況下自動化能帶來明確的投資報酬:催收電話、客戶啟動與 KYC(認識你的客戶)驗證是常見的早期應用。為了整合在地電話系統,該公司與電信業者建立通路合作,並雇用在地的合約工程師部署於市場內。這些措施是必要的,因為假設有現代 SIP 基礎設施或雲原生電話系統的即插即用解決方案在連接到舊式 PSTN 與區域特定營運商系統時經常失敗。
支持該公司的投資人認為市場動態與西方情境不同。非洲與中東的企業處理更大量的通話,且語音是主要通訊管道。既有業者是圍繞高端 GPU、標準化的英語與歐洲語音以及美國與歐洲常見的企業工作流程設計的。這種不匹配為能處理方言差異、語碼轉換與電話相容性的低價位解決方案創造了機會。
選擇小型且高效的模型以及具區域意識的編排不僅僅是技術偏好;這是一種與商業現實相符的產品策略。較小的模型降低推論成本、使本地或邊緣部署成為可能,並減少延遲——這組合能在延遲預算緊張且基礎設施差異大的市場中解鎖實用的自動化。資料收集策略——與客服中心合作、與電臺合作以及動員在地標註者——能提升模型對於實際生產環境中會遭遇語音樣態的魯棒性。
透過將技術與實地銷售與工程實務結合,AethexAI 目標在 AI 承諾與營運交付之間架起橋樑。該公司的方法——聚焦的模型、客製化編排、本地資料與實務的客戶支援——說明了應用型 AI 的一個更廣泛教訓:全球可擴展性常常需要在地化的架構與合作關係。隨著大型語音 AI 業者在國際擴張,專注於區域需求的新創或許能抓住那些大型業者若不大幅重新設計模型、延遲策略與分銷合作便難以服務的機會。
簡言之,這項創業案例凸顯了解決實務障礙——延遲、方言覆蓋、資料收集與電話整合——如何創造差異化產品與商業優勢。對非洲與中東的組織而言,結果是行為表現如同真人對話者的語音自動化,而非不合適的現成系統。對投資人與建構者而言,這顯示針對性的技術取捨與在地參與對於在服務不足的市場中解鎖價值至關重要。
關鍵見解表
| 面向 | 說明 |
|---|---|
| 市場缺口 | 主要語音 AI 系統是為西方市場打造,常在面對非洲與中東的在地方言、語碼轉換與舊式電話系統時失靈。 |
| 技術方法 | 建置緊湊模型(3 億–17 億參數)與自訂的編排層以將延遲降到最低並支援在地方言。 |
| 資料策略 | 使用匿名化的通話錄音、電臺蒐集的語音和學生標註者網絡來收集並標記區域特定的語音資料。 |
| 商業模式 | 以企業為主、提供現場示範與工作坊;要求客戶先從單一優先用例開始,並建立電話整合的通路合作。 |
| 使用情境 | 高量語音任務,例如催收電話、客戶啟動與 KYC 驗證。 |
| 資金與團隊 | 由 4DX Ventures 領投,籌得 300 萬美元前種;創辦人具有金融、產品與大型科技(高盛、Meta、ModelML、Stanford)背景。 |