F

Xiaomi представила два новых ИИ-инструмента для работы с голосом

Xiaomi представила два новых ИИ-инструмента для работы с голосом: MiMo-V2.5-TTS преобразует текст в речь, а MiMo-V2.5-ASR расшифровывает звук в текст. Обе модели понимают команды на английском и китайском, позволяя создавать сценарии с несколькими голосами или описывать желаемый тембр простым языком.

Открытая модель MiMo-V2.5-ASR распознаёт речь даже при сильном шуме и поддерживает множество китайских диалектов. Она умеет расшифровывать песни, отделяя вокал от музыки, а также двуязычные диалоги. Система автоматически расставляет знаки препинания по интонации, минимизируя необходимость ручной правки.

Семейство TTS включает три варианта на платформе Xiaomi MiMo Studio. Базовая версия меняет скорость, тон и эмоции среди предустановленных голосов. MiMo-V2.5-TTS-VoiceDesign создаёт новые тембры по короткой фразе, а MiMo-V2.5-TTS-VoiceClone воспроизводит конкретный голос по небольшим образцам, сохраняя уникальный стиль.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик