小米发布MiMo-V2.5-TTS/ASR语音大模型：通过自然语言指令调度声音表现

凤凰网科技讯 4月24日，继前一日MiMo-V2.5系列大模型公测后，小米技术团队今日再次加码，正式发布MiMo-V2.5-TTS系列与MiMo-V2.5-ASR，补齐语音输入与输出全链路。

其中，TTS系列包含三款模型，均支持通过自然语言指令精细调度声音表现。MiMo-V2.5-TTS：内置多款精品音色，开箱即用，支持语速、情绪控制。MiMo-V2.5-TTS-VoiceDesign：支持一句话从零生成全新音色，无需参考音频。MiMo-V2.5-TTS-VoiceClone：数秒参考音频即可高保真复刻目标音色，并保留原有风格指令控制能力。官方演示显示，模型能遵循“尖锐刻薄、狐假虎威”等复杂指令，并支持在文本中插入音频标签进行精细化控制。

作为听觉基座，MiMo-V2.5-ASR今日正式开源（包括模型权重与代码）。该模型面向复杂真实场景，支持吴语、粤语等中文方言，以及中英文混说、强噪音、多人对话等场景，并原生输出标点符号，转写结果即拿即用。

目前，TTS系列已在MiMo Studio开放快速体验，ASR代码与权重可在GitHub和HuggingFace获取。小米预告，下一步将向通用音频生成（音效、音乐）及更强的上下文理解能力扩展。

小米发布MiMo-V2.5-TTS/ASR语音大模型：通过自然语言指令调度声音表现

Published by

风君子

最新文章

标签

书签