VibeVoice — семейство open-source моделей голосового AI. Ключевая инновация — непрерывные токенизаторы речи с частотой 7.5 Гц. Они повышают эффективность обработки длинных последовательностей. Модели используют next-token diffusion и LLM для контекста.
VibeVoice-ASR — модель распознавания, обрабатывающая до 60 минут аудио за один проход. Она создаёт структурированные транскрипции: кто, когда и что сказал. Поддерживаются пользовательские ключевые слова для повышения точности.
VibeVoice-Realtime-0.5B — быстрая TTS модель для потокового синтеза речи и длинных аудио. Ранее была выпущена VibeVoice-TTS для многоголосого синтеза до 90 минут, но позже её код удалён из репозитория в соответствии с принципами ответственного использования.
GitHub ★ 48,312

0 комментариев