
Исследование компании RWS показало: модель Google Gemini Pro владеет киньяруанда (язык 12 млн человек) лучше, чем многие ожидали. Оценка качества превысила 4,5 из 5 баллов.
Успех объясняется умением ИИ находить общие закономерности и использовать механизмы межъязыкового переноса. Теперь для обучения редким языкам не нужны огромные массивы данных — достаточно ограниченных наборов информации. Также помогло улучшение токенизатора, который эффективнее разбивает слова на фрагменты (токены). Всё это позволяет качественнее обрабатывать малоизвестные языки.
Раньше лаборатории ИИ ставили во главу угла английский и другие крупные языки. Сейчас фокус смещается на охват широкой аудитории. Эксперты ждут, что многие разработчики последуют этому примеру. Однако оценка в 4,5 балла не гарантирует реального носительского уровня. Многоязычная поддержка пока не является обязательным стандартом. Разработчики изучают редкие языки ещё и потому, что источники на английском уже исчерпаны. Тем не менее ИИ продолжает ломать языковые барьеры.
Большие языковые модели активно сокращают глобальный языковой разрыв. Самые продвинутые системы добились успехов там, где ранее возникали сложности для предшественников об этом сообщает TechRadar со ссылкой на RWS.
В ходе проверки эксперты заметили эффект «дрейфа бенчмарка». Возможности моделей могут неожиданно меняться при переходе от одной версии к другой. Например, последняя версия OpenAI GPT уступает более мелким аналогам в генерации контента, хотя её предшественница была эффективнее в тех же задачах.
Эффективность токенизатора также сильно различается между поколениями. При работе с определёнными языками одна модель может быть в 3,5 раза экономичнее другой. Поэтому при выборе решения для многоязычных приложений полагаться на результаты тестов предыдущих систем не следует.
