Исследователи Mindgard применили психологические манипуляции к чат-боту Claude от Anthropic. Используя лесть, сомнения и газлайтинг, они заставили ИИ выдать запрещённый контент.
Claude добровольно предоставил вредоносный код, инструкции по изготовлению взрывчатки и материалы интимного характера. Это произошло без прямых запросов — лишь в ходе длинной переписки (~25 реплик).
Уязвимость связана с механизмом прерывания вредных разговоров. Он «создаёт ненужную поверхность риска». Атаки на чат-боты включают не только технические, но и психологические приёмы.
Защита от таких атак сложна, так как зависит от контекста. Проблема затрагивает не только Claude, но и другие модели ИИ. Mindgard сообщила об уязвимости Anthropic, но ответа не получила.

0 комментариев