DS

Визуальные ИИ-агенты проигрывают API-агентам по эффективности

image source

Обработка изображения 1000x1000 пикселей моделью Claude Sonnet 4.6 расходует около 1334 токенов. Визуальный ИИ-агент использовал ~500 000 входных и 38 000 выходных токенов; API-агент — ~12 150 и 934 соответственно.

Эксперимент показал: визуальных агентов следует использовать только для неподконтрольных пользователю приложений, внутренние процессы — через API.

Специалисты Reflex сравнили визуальных и API-агентов, оба управлялись Claude Sonnet. Визуальный управлял browser-use 0.12 для браузера, API обращался к веб-приложениям напрямую, получая структурированные данные, а не скриншоты.

Задача: найти клиента Смита, принять отзывы, отметить последний доставленным. API-агент выполнил за 8 запросов, визуальный нашёл 1 из 4 отзывов, не прокрутив страницу. При упрощении задачи визуальный агент работал ~17 минут, API — 20 секунд, потратив в 45 раз меньше токенов.

Компании, использующие ИИ-агентов, могут тратить больше, если агенты опираются на визуальные данные, имитируя зрение человека.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик