DS

VibeVoice: открытые модели для голосового AI

image source

VibeVoice — семейство open-source моделей голосового AI. Ключевая инновация — непрерывные токенизаторы речи с частотой 7.5 Гц. Они повышают эффективность обработки длинных последовательностей. Модели используют next-token diffusion и LLM для контекста.

VibeVoice-ASR — модель распознавания, обрабатывающая до 60 минут аудио за один проход. Она создаёт структурированные транскрипции: кто, когда и что сказал. Поддерживаются пользовательские ключевые слова для повышения точности.

VibeVoice-Realtime-0.5B — быстрая TTS модель для потокового синтеза речи и длинных аудио. Ранее была выпущена VibeVoice-TTS для многоголосого синтеза до 90 минут, но позже её код удалён из репозитория в соответствии с принципами ответственного использования.

GitHub ★ 48,312

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик