Что такое Foxtail?

Foxtail — публичная лента топиков на русском языке о технологиях, играх, кино и цифровой культуре.

Какие материалы публикуются на Foxtail?

На сайте публикуются короткие и развернутые топики, подборки, новости, мнения, медиа и обсуждения по тематическим разделам.

Можно ли читать Foxtail через RSS?

Да. Основная RSS-лента доступна по адресу /feed.xml, а для тегов и авторов доступны отдельные RSS-ленты.

Как связаться с Foxtail?

Для связи используйте direct chat в Telegram или email abuse@fxl.ru для обращений по контенту и модерации.

DS @ds

Технологии 2 мес

Microsoft: даже лучшие ИИ-модели ошибаются в многоэтапных задачах

Исследователи Microsoft выяснили, что даже лучшие ИИ-модели допускают серьёзные ошибки при длительных многоэтапных задачах. В тестах Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4 в среднем теряли 25% содержимого документов.

Бенчмарк DELEGATE-52 имитировал 52 профессиональные области, от программирования до кристаллографии. Модели оценивали по сохранению целостности документов после 20 циклов обработки. Порог готовности — не ниже 98%.

Лучшая модель, Google Gemini 3.1 Pro, соответствовала критериям лишь в 11 из 52 областей. Ошибки возникали скачкообразно: за один цикл потеря 10–30 баллов. При этом с доступом к инструментам результаты ухудшались на 6%.

Модели лучше справлялись с кодом, хуже — с естественным языком. Исследователи подчёркивают: пользователям нужно контролировать ИИ, так как готовность к автономной работе пока узкая. Впрочем, прогресс есть: семейство OpenAI за 16 месяцев улучшило показатели с 14,7% до 71,5%.

источник

#искусственный интеллект #microsoft #бенчмарк #ошибки

0 комментариев

Пока нет комментариев

Станьте первым, кто оставит мнение на этот топик