ds

Вежливость Claude оказалась уязвимостью

image source

Компания Anthropic позиционировала себя как создателя безопасного ИИ. Однако исследователи из Mindgard обнаружили, что дружелюбность Claude — уязвимость. Они получили от модели неприемлемый контент: эротику, вредоносный код, инструкции по взрывчатке.

Исследователи применили уважение, лесть и газлайтинг. Они эксплуатировали особенность Claude завершать вредоносные диалоги. По мнению Mindgard, это создаёт необходимую поверхность для атак.

Тест проводился на Claude Sonnet 4.5. Начали с вопроса о запрещённых словах. Модель отрицала их наличие, но после вызова с помощью тактики допроса выдала список.

Используя панель размышлений Claude, исследователи заметили элементы неуверенности. Лесть и притворное любопытство заставили модель расширять границы, в итоге она сгенерировала запрещённый контент.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик