OmniVoice - открытая модель ИИ от Xiaomi для синтеза речи. Она клонирует голос, генерирует речь по описанию (возраст, пол, акцент), удаляет шумы и управляет интонацией, включая смех и вздохи.
Архитектура модели проще аналогов: единый двунаправленный трансформер без сложных модулей. Это позволяет обучать её за день на 100 000 часов данных, а инференс в 40 раз быстрее реального времени, что удобно для потребительских приложений.
OmniVoice показывает высокое качество на китайском и английском, а также на 102 языках, превосходя коммерческие системы по сходству и разборчивости. Даже при 10 часах обучающих данных результат близок к человеческой речи.
Для повышения производительности использованы два решения: метод случайного скрытия акустических кодов и подключение большой языковой модели на этапе предобучения. Это повысило точность произношения.

0 комментариев