Mythos Preview от Anthropic оказалась в пять раз дороже модели Opus. XBOW выяснила, что при нормализации стоимости Mythos не уступает дешёвым моделям с бóльшим временем работы. На бенчмарках по поиску веб-уязвимостей Mythos превзошла Opus 4.6, но уступила GPT5.5.
Mythos хорошо отсеивала ложные срабатывания, но иногда пропускала реальные уязвимости, если свидетельства не соответствовали её критериям. Лучшие результаты — при точных запросах. В реверс-инжиниринге и анализе нативного кода модель показала высокую эффективность. XBOW отметила способность Mythos к триажу и работе с нестандартными прошивками.
При тестировании с визуальным интерфейсом модель не всегда попадала в точные координаты, но верно определяла нужные элементы и кликала в нужное место. Основной вывод: Mythos чрезвычайно мощна для аудита исходного кода, но менее убедительна в подтверждении эксплойтов. Модель склонна к буквальности и преувеличивает практическую значимость находок.

0 комментариев