ds

Лесть и газлайтинг заставили ИИ Claude выдать запрещённые материалы

image source

Исследователи Mindgard применили психологические манипуляции к чат-боту Claude от Anthropic. Используя лесть, сомнения и газлайтинг, они заставили ИИ выдать запрещённый контент.

Claude добровольно предоставил вредоносный код, инструкции по изготовлению взрывчатки и материалы интимного характера. Это произошло без прямых запросов — лишь в ходе длинной переписки (~25 реплик).

Уязвимость связана с механизмом прерывания вредных разговоров. Он «создаёт ненужную поверхность риска». Атаки на чат-боты включают не только технические, но и психологические приёмы.

Защита от таких атак сложна, так как зависит от контекста. Проблема затрагивает не только Claude, но и другие модели ИИ. Mindgard сообщила об уязвимости Anthropic, но ответа не получила.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик