StepFun 的 StepAudio 2.5 Realtime：領先基準與深入的副語言覺察

文章上線

StepFun 的 StepAudio 2.5 Realtime：領先基準與深入的副語言覺察

你可能想知道

1) StepFun 如何宣稱 StepAudio 2.5 Realtime 在人格（persona）穩定性方面相較其他語音 AI 有所改善？

2) 對一個語音模型來說，能夠「感知副語言線索」意味著什麼，且 StepAudio 在這些衡量指標上的表現如何？

主要主題

總部位於上海的 AI 實驗室 StepFun 本週宣布 StepAudio 2.5 Realtime，這是一個端到端、實時的語音模型，直接處理輸入音頻並輸出音頻，不經過中間文字轉換。該模型支援中文與英文，被呈現為一個專門設計的系統，旨在於長時間會話中提供一致且由人格驅動的語音互動。根據 StepFun 公布的內部評估，StepAudio 在 2026 年 4 月所執行的一系列語音 AI 基準測試中領先所有被測系統。

這項主張依據兩個技術主題。首先是人格穩定性：AI 在延長或對抗性對話中保持「角色內」的能力。AI 人格系統常見的一種失效模式稱為 OOC（超出角色行為），即隨著對話長度和複雜度增加，模型會偏離其被分配的人格。StepFun 報告他們透過應用針對角色扮演的 RLHF（來自人類回饋的強化學習），專注於人格連貫性而不僅僅是整體回應品質來解決此問題。訓練流程據稱始於超過 10,000 個人類撰寫的人格種子，並使用演算法擴充生成百萬級的人格資料集。其目的是讓模型暴露於更廣泛的對話邊緣情況分布，從而即使是長尾或對抗性提示也較不可能使其脫離角色。

第二個主題是副語言理解：模型從音頻輸入中直接解析非語詞的聲學特徵，如語速、情感語調和隱含年齡的能力。StepFun 強調 StepAudio 在生成回應前會分析這些聲學線索，使系統能夠回應不僅是文字內容，還包括說話的方式。在他們報告的副語言基準中（以 0–100 分制評分聲學特徵感知），StepAudio 得分為 82.18。作為比較，StepFun 引述的基準將 GPT Realtime 1.5 列為 80.46、Gemini Live 為 58.05，另一個參賽者 DouBao Realtime 為 16.09。StepFun 表示，這些差異在真實對話情境中足以具有意義。

也有報告人類評估。在一項由人類評審以 0–100 分制評分的行動應用即時互動測試中，StepAudio 獲得 80.41 分，而 GPT Realtime 1.5 與 Gemini Live 約在高 60 分區間。基於 API 的客觀對話品質測試在相同 0–100 指標上將 StepAudio 評為 86.36，而 GPT 為 81.60。重要的是要注意，這些數據來自 StepFun 自行執行的基準測試，應在此情境下解讀。儘管如此，在副語言感知與口語問答的差距據稱仍相當可觀，顯示系統的設計選擇——尤其是人格資料的規模與針對角色扮演的 RLHF——可能帶來可測量的改善。

這項關鍵見解大幅影響對語音 AI 的理解：明確將 RLHF 針對人格穩定性並以大規模、多樣化的人格資料訓練，可以在長時間或對抗性對話中實質降低超出角色行為。若此主張經獨立驗證，將為依賴一致對話角色的應用帶來重要進展——例如長篇互動陪伴、角色扮演應用、具有一致人格支架的語言教學，以及娛樂型機器人等。

StepFun 的更廣泛背景也有助於說明其雄心。該公司由江大新於 2023 年 4 月創立，江此前長期領導微軟包括 Bing 與 Cortana 等產品的工作，公司已定位為中國快速成長的 AI 新創之一並獲得可觀資金。StepFun 先前因 Step 3.5 Flash（一個 1960 億參數的文字模型）而受到關注，該公司表示該模型在多項推理基準上勝過更大規模的模型。StepAudio 採取類似策略：積極擴展資料規模、針對性訓練目標，以及強調為特定任務優化的架構而非單純追求參數數量。

為了具體化產品，StepFun 推出了一個旗艦人格「小月」，被描述為一個「靈魂級陪伴」，讓人感覺像在傳訊息給朋友而不是與軟體互動。小月的特質、口頭禪與情感界限可配置，開發者也能透過 StepFun 的 API 建立自訂人格。文件與平台存取可透過該公司的開發者入口取得。

也有實務上的警示。這些結果為公司公布的基準，代表仍需外部驗證以全面評估其泛化能力、穩健性與安全性。效能可能因語言、領域與部署條件而異（例如雜訊環境或訓練分布外的說話風格）。此外，副語言推斷——從語音中讀取並回應情緒或人口統計線索——的倫理與隱私影響值得謹慎考量。若在沒有透明同意與防護措施下部署，會推斷年齡、情緒或其他屬性之系統，可能面臨錯誤分類與濫用風險。

總體而言，StepAudio 2.5 Realtime 代表了一項針對兩個特定軸向推進語音 AI 的集中嘗試：人格持久性與聲學理解。該公司的大規模人格資料與以角色扮演為導向的 RLHF 組合，是他們提出用以減少常見失效模式的機制，而其副語言基準得分則將該模型在 StepFun 的測試中定位為與主要同儕競爭或略有領先。

關鍵見解表

面向	描述
模型類型	端到端實時語音模型，接受音頻輸入並輸出音頻，不經過中間文字轉換。
支援語言	中文與英文（依 StepFun 文件與公告）。
人格穩定性方法	針對角色扮演的 RLHF，基於從 10,000+ 種子擴充到百萬級的人格資料集訓練，以減少 OOC 漂移。
副語言能力	建模情感與語速等非語詞線索；報告的副語言基準得分：82.18（0–100 分制）。
人類評估	行動應用人類評分報告為 80.41（0–100），在 StepFun 的測試中高於被引述的競爭者。
值得注意的人格	小月 — 一個可配置的陪伴型人格，設計上讓人感覺像和朋友交談。

後續…

展望未來，有若干技術與社會面向值得進一步探索。從技術角度，獨立基準測試以及在更多語言、口音與真實世界聲學條件下可重現的評估，將對驗證 StepAudio 的主張十分重要。也需要針對穩健且保護隱私的副語言推斷進行研究：允許模型適應情感訊號而不暴露敏感屬性或促成不當標籤的方法。

在訓練方面，針對角色扮演的 RLHF 方法暗示了對會話代理進行細緻行為調校的可行方向。未來工作可探討結合合成人格擴增、多樣化的人類在循環情境與對抗性測試的混合訓練課程，以進一步強化人格一致性。在持續互動與對抗性探測下衡量長期人格遵守度應成為評估套件的標準項目。

最後，從倫理與治理角度來看，部署能夠解讀情感與人口統計線索的系統，應伴隨透明性、使用者同意與防止偏差結果的保障。強調使用者控制（允許使用者選擇退出副語言分析或限制推斷屬性的使用方式）將有助於降低被濫用的風險。

總之，StepAudio 2.5 Realtime 在語音 AI 上提出了一個有趣的進展：改善的人格穩定性與更強的副語言感知令人期待，但仍需獨立驗證並對隱私與公平性保持審慎注意，作為下一步重要工作。

最後編輯時間：2026/5/26