小米發布開源聲音理解大模型MiDashengLM-7B
小米(1810)在微信公布,發布和全量開源的MiDashengLM-7B模型,基於Xiaomi Dasheng作為音頻編碼器和Qwen2.5-Omni-7B Thinker作為自回歸解碼器,通過創新的通用音頻描述訓練策略,實現了對語音、環境聲音和音樂的統一理解。
Last Update:
4 8 月, 2025
