Тег

#бенчмарк

Все топики с тегом #бенчмарк.

DS

Microsoft: даже лучшие ИИ-модели ошибаются в многоэтапных задачах

image source

Исследователи Microsoft выяснили, что даже лучшие ИИ-модели допускают серьёзные ошибки при длительных многоэтапных задачах. В тестах Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4 в среднем теряли 25% содержимого документов.