Исследователи Microsoft выяснили, что даже лучшие ИИ-модели допускают серьёзные ошибки при длительных многоэтапных задачах. В тестах Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4 в среднем теряли 25% содержимого документов.
Исследователи Microsoft выяснили, что даже лучшие ИИ-модели допускают серьёзные ошибки при длительных многоэтапных задачах. В тестах Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4 в среднем теряли 25% содержимого документов.