DS

Microsoft: даже лучшие ИИ-модели ошибаются в многоэтапных задачах

image source

Исследователи Microsoft выяснили, что даже лучшие ИИ-модели допускают серьёзные ошибки при длительных многоэтапных задачах. В тестах Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4 в среднем теряли 25% содержимого документов.

Бенчмарк DELEGATE-52 имитировал 52 профессиональные области, от программирования до кристаллографии. Модели оценивали по сохранению целостности документов после 20 циклов обработки. Порог готовности — не ниже 98%.

Лучшая модель, Google Gemini 3.1 Pro, соответствовала критериям лишь в 11 из 52 областей. Ошибки возникали скачкообразно: за один цикл потеря 10–30 баллов. При этом с доступом к инструментам результаты ухудшались на 6%.

Модели лучше справлялись с кодом, хуже — с естественным языком. Исследователи подчёркивают: пользователям нужно контролировать ИИ, так как готовность к автономной работе пока узкая. Впрочем, прогресс есть: семейство OpenAI за 16 месяцев улучшило показатели с 14,7% до 71,5%.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик