實惠、更快速且具文化敏感性:Avataar 為印度龐大市場需求設計的影片 AI
目錄
您可能想知道
Avataar AI 與現有模型相比,如何如此大幅降低影片生成的時間與成本?
這個新模型以何種方式回應印度的文化特性,政府的支援將如何影響採用?
主要議題
與美國、歐洲和中國相比,印度在釋出大規模 AI 模型成果方面較為緩慢,只有少數新創公司公開分享模型。早期的活動多集中在語言和語音模型,使得影片生成在大規模上較不容易取得。為了加速發展並擴大可得性,印度政府創立了 India AI Mission(印度人工智慧任務),這是一個約 12 億美元的計畫,包含針對入選新創公司的 GPU 計算補助,條件是公開釋出其模型。該計畫旨在降低模型開發的進入門檻並鼓勵更活躍的在地生態系統。
一個顯著的受益者是 Avataar AI,一家由 Peak XV 支持、專注於電子商務與其他視覺應用的影片工具新創。Avataar 發布了一個名為 Varya 的影片模型,專為理解印度在地語境而建——例如識別節日、區域服飾、食物與建築線索。Avataar 並非完全從零開始訓練大型影片模型,而是採用現有公開的基礎模型 Alibaba 的 Wan 2.2,並應用了蒸餾技術。蒸餾將教師模型的能力壓縮到一個更小、更快速的學生模型,並針對特定任務與部署限制進行調整。
該過程的結果是一個精簡的模型,生成影片所需的步驟大幅減少。Wan 2.2 通常約需 50 步生成,而 Varya 約在 4 步內運作。這種減少帶來顯著的速度與成本改善:在 NVIDIA H200 GPU 上,Varya 可以在大約 45 秒內產生一個 5 秒的 720p 片段,而 Wan 2.2 則大約需要 1,230 秒。實務上,這使得針對特定目標工作負載的影片生成速度約快 10 倍。
價格差異尤為顯著:Avataar 計劃在其託管服務上每秒生成影片收費約 ₹0.48(約 0.005 美元)。這一價格大約比許多現有方案如 Veo、Kling、Luma 和 Runway 等便宜約 20 倍,後者常見的定價為每秒 0.10 美元或更高。降低成本對於在印度實現廣泛採用至關重要,印度市場中影片內容在消費者網路產品中佔主導地位,而人口規模的使用依賴於大幅降低的價格。
除了成本與速度外,文化相關性是 Varya 的一大賣點。以通用資料集訓練的影像與影片生成系統常會忽略在地細節,產出刻板或在文化上失準的結果。Avataar 表示其精選訓練資料,幫助 Varya 識別在地節日、食物、服飾與區域建築風格。這種針對性的微調旨在產生與印度使用者產生共鳴的輸出,並減少文化上不準確結果的頻率。
符合印度強調開放與開發者存取的方針,Avataar 將透過政府的 AI Kosh 入口網站以開放權重模型形式釋出 Varya,該入口集中公開可用的 AI 模型與資料集。釋出內容包含模型權重與訓練資料,讓開發者可以自行託管或依需求調整模型。Avataar 亦計劃向企業客戶提供該模型,並尋求與影片工具供應商的合作。Avataar 網站上提供公開示範,使用者可嘗試以文字提示或參考圖片進行生成。
Varya 的推出凸顯了印度採取務實路線,著重於提供實用應用並培育開發者生態,而非直接競爭於建構龐大的基礎模型。印度在基礎模型開發上的較慢速度,被歸因於有限的計算資源與缺乏高品質在地化訓練資料。像 India AI Mission 這類計畫旨在透過提供補助計算與鼓勵新創公開發布模型來縮小這些差距。
更廣泛的政策背景也很有雄心:印度政府與產業領袖已設定大量 AI 投資與基礎建設擴展的目標。例如,印度表達了吸引大規模 AI 投資並在短時間內大幅擴充 GPU 容量的目標。這些努力可能會加速在地相關 AI 模型的創建、部署與採用,特別是在成本與文化契合度重要的領域——包括教育、中小企業工具、內容創作與公共服務。
重點洞察表
| 面向 | 描述 |
|---|---|
| 重點事實 1 | Avataar 對 Alibaba 的 Wan 2.2 使用蒸餾,產生 Varya,將生成步驟從約 50 步降至約 4 步。 |
| 重點事實 2 | Varya 在 NVIDIA H200 上約 45 秒可生成一個 5 秒的 720p 片段,約比 Wan 2.2 快 10 倍。 |
| 重點事實 3 | 計劃定價約每秒 ₹0.48(0.005 美元)——約比許多競爭者便宜 20 倍。 |
| 重點事實 4 | Varya 以精選在地資料訓練以更好捕捉印度文化細節,並將以開放權重形式在 AI Kosh 上釋出。 |
| 重點事實 5 | India AI Mission 為入選新創提供補助計算,以刺激模型開發與公開發布。 |
後續...
展望未來,若干技術與生態系優先事項可助印度擴大在 AI 驅動媒體領域的影響力。改善高效能計算的可得性——包括更實惠的 GPU 與雲端額度——將持續對在地模型開發與實驗重要。同等關鍵的是建立更大、品質更高且更多樣化的資料集,以涵蓋區域語言、文化實踐與視覺風格,同時尊重隱私與著作權限制。
模型壓縮與高效架構(例如蒸餾、量化與稀疏化)的進展,將持續對在資源受限與價格敏感市場推廣多媒體 AI 有所幫助。持續強調開放權重的釋出與共享資料集,能催化開發者創新及在教育、中小企業、政府服務與創意產業等在地化應用的發展。
最終,將針對性的技術工作──使模型既有效率又具文化敏感性──與增加計算存取、鼓勵開放性的公共政策相結合,可能使印度在應用型 AI 範疇以人口規模領先,而非僅在基礎模型建立上競爭。