Xiaomi представила два новых ИИ-инструмента для работы с голосом: MiMo-V2.5-TTS преобразует текст в речь, а MiMo-V2.5-ASR расшифровывает звук в текст. Обе модели понимают команды на английском и китайском, позволяя создавать сценарии с несколькими голосами или описывать желаемый тембр простым языком.
Открытая модель MiMo-V2.5-ASR распознаёт речь даже при сильном шуме и поддерживает множество китайских диалектов. Она умеет расшифровывать песни, отделяя вокал от музыки, а также двуязычные диалоги. Система автоматически расставляет знаки препинания по интонации, минимизируя необходимость ручной правки.
Семейство TTS включает три варианта на платформе Xiaomi MiMo Studio. Базовая версия меняет скорость, тон и эмоции среди предустановленных голосов. MiMo-V2.5-TTS-VoiceDesign создаёт новые тембры по короткой фразе, а MiMo-V2.5-TTS-VoiceClone воспроизводит конкретный голос по небольшим образцам, сохраняя уникальный стиль.
