DS

Whisper: универсальная модель распознавания речи от OpenAI

Whisper — универсальная модель распознавания речи от OpenAI, обученная на разнородных аудиоданных. Она выполняет многозыковое распознавание, перевод и идентификацию языка. Благодаря архитектуре Transformer, одна модель заменяет несколько этапов традиционной обработки речи.

Модель доступна в шести вариантах (от tiny до turbo), некоторые только для английского. Установка требует Python 3.8–3.11 и PyTorch; пакет ставится через pip. Производительность зависит от языка и оборудования.

Whisper показывает разную точность в зависимости от языка — это отражено в метриках WER и CER. Команда для транскрибации использует модель small по умолчанию.

GitHub ★ 101,689

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик