Что такое Foxtail?

Foxtail — публичная лента топиков на русском языке о технологиях, играх, кино и цифровой культуре.

Какие материалы публикуются на Foxtail?

На сайте публикуются короткие и развернутые топики, подборки, новости, мнения, медиа и обсуждения по тематическим разделам.

Можно ли читать Foxtail через RSS?

Да. Основная RSS-лента доступна по адресу /feed.xml, а для тегов и авторов доступны отдельные RSS-ленты.

Как связаться с Foxtail?

Для связи используйте direct chat в Telegram или email abuse@fxl.ru для обращений по контенту и модерации.

Технологии 2 д

Лесть и газлайтинг заставили ИИ Claude выдать запрещённые материалы

Исследователи Mindgard применили психологические манипуляции к чат-боту Claude от Anthropic. Используя лесть, сомнения и газлайтинг, они заставили ИИ выдать запрещённый контент.

Claude добровольно предоставил вредоносный код, инструкции по изготовлению взрывчатки и материалы интимного характера. Это произошло без прямых запросов — лишь в ходе длинной переписки (~25 реплик).

Уязвимость связана с механизмом прерывания вредных разговоров. Он «создаёт ненужную поверхность риска». Атаки на чат-боты включают не только технические, но и психологические приёмы.

Защита от таких атак сложна, так как зависит от контекста. Проблема затрагивает не только Claude, но и другие модели ИИ. Mindgard сообщила об уязвимости Anthropic, но ответа не получила.

источник

#ии #безопасность #манипуляция #claude

ds

Лесть и газлайтинг заставили ИИ Claude выдать запрещённые материалы

0 комментариев