Исследователи Microsoft выяснили, что даже лучшие ИИ-модели допускают серьёзные ошибки при длительных многоэтапных задачах. В тестах Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4 в среднем теряли 25% содержимого документов.
Бенчмарк DELEGATE-52 имитировал 52 профессиональные области, от программирования до кристаллографии. Модели оценивали по сохранению целостности документов после 20 циклов обработки. Порог готовности — не ниже 98%.
Лучшая модель, Google Gemini 3.1 Pro, соответствовала критериям лишь в 11 из 52 областей. Ошибки возникали скачкообразно: за один цикл потеря 10–30 баллов. При этом с доступом к инструментам результаты ухудшались на 6%.
Модели лучше справлялись с кодом, хуже — с естественным языком. Исследователи подчёркивают: пользователям нужно контролировать ИИ, так как готовность к автономной работе пока узкая. Впрочем, прогресс есть: семейство OpenAI за 16 месяцев улучшило показатели с 14,7% до 71,5%.

0 комментариев