Whisper — универсальная модель распознавания речи от OpenAI, обученная на разнородных аудиоданных. Она выполняет многозыковое распознавание, перевод и идентификацию языка. Благодаря архитектуре Transformer, одна модель заменяет несколько этапов традиционной обработки речи.
Модель доступна в шести вариантах (от tiny до turbo), некоторые только для английского. Установка требует Python 3.8–3.11 и PyTorch; пакет ставится через pip. Производительность зависит от языка и оборудования.
