小米最近發表全新開源音聲理解大型語言模型 MiDashengLM-7B,基於自家 Dasheng 聲音編碼器及 Qwen2.5-Omni 技術開發。新模型在 22 個公開評測集中創下多項最佳成績,更有效「理解」週遭環境,推動智能汽車和智能家居等生態發展。
據小米介紹,MiDashengLM-7B 採用創新通用聲音描述訓練策略,打破傳統音聲識別模型僅專注語音內容轉錄的限制。該模型能夠統一理解語音、環境聲音及音樂三大領域,識別音聲發生源、錄音環境以及語言類型等複雜資訊。
據小米分享與主要競爭對手的比較測試顯示,MiDashengLM-7B 在多數基準測試中表現領先。在人類發話內容識別測試中,該模型展現更詳細的內容解析能力。面對「硬幣掉落聲」或「水滴聲」等環境音測試,MiDashengLM-7B 同樣展現出色的識別準確度。

模型的另一重要優勢在於反應速度的顯著提升。在處理單個聲音檔案時,MiDashengLM-7B 的反應時間僅為 Qwen2.5-Omni-7B 的四分之一。同時處理多個聲音檔案的能力更為突出,在使用 80GB 記憶體的電腦處理 30 秒聲音並生成 100 個文字的測試中,該系統可同時處理 512 個檔案,而競爭對手在處理 16 個檔案時已出現記憶體不足問題。受惠於 Dasheng 聲音編碼器的最佳設計,編碼器成功將輸出幀率從 25Hz 大幅降至 5Hz,降幅達 80%,顯著減少計算負載。
MiDashengLM-7B 的訓練資料完全來自公開資料庫,涵蓋語音識別、環境聲音、音樂理解等五大類別共 110 萬小時內容。新模型摒棄傳統將聲音直接轉換成文字的方法,採用聲音描述配對策略,避免丟失環境聲音和音樂資訊。
訓練過程使用多重專家分析系統生成資料,首先對原始聲音進行語音、人聲、音樂和環境聲學的詳細標註,再透過 DeepSeek-R1 AI 系統合成統一描述。這種方法使系統能夠學習更豐富全面的聲音資訊,包括說話人情緒、空間回音等重要聲學特徵。
MiDashengLM-7B 目前已在智能家居和汽車座艙等場景實現超過 30 項落地應用。這些應用包括車外喚醒防禦、手機音響全天候監控異常聲音,以及小米 YU7 搭載的增強哨兵模式劃車檢測等功能。

該模型基於 Apache 2.0 開源協議發表,支援學術研究和商業應用。公開了 77 個資料來源的詳細比例,技術報告詳細介紹從聲音處理器預先訓練到指令調整的完整流程。小米更計劃進一步提升該系統的運算效率,尋求在手機等流動裝置上實現離線運作。
來源:小米技術
分享到 :
最新影片