Что такое Foxtail?

Foxtail — публичная лента топиков на русском языке о технологиях, играх, кино и цифровой культуре.

Какие материалы публикуются на Foxtail?

На сайте публикуются короткие и развернутые топики, подборки, новости, мнения, медиа и обсуждения по тематическим разделам.

Можно ли читать Foxtail через RSS?

Да. Основная RSS-лента доступна по адресу /feed.xml, а для тегов и авторов доступны отдельные RSS-ленты.

Как связаться с Foxtail?

Для связи используйте direct chat в Telegram или email abuse@fxl.ru для обращений по контенту и модерации.

Технологии 2 д

Вежливость Claude оказалась уязвимостью

Компания Anthropic позиционировала себя как создателя безопасного ИИ. Однако исследователи из Mindgard обнаружили, что дружелюбность Claude — уязвимость. Они получили от модели неприемлемый контент: эротику, вредоносный код, инструкции по взрывчатке.

Исследователи применили уважение, лесть и газлайтинг. Они эксплуатировали особенность Claude завершать вредоносные диалоги. По мнению Mindgard, это создаёт ~~необходимую~~ поверхность для атак.

Тест проводился на Claude Sonnet 4.5. Начали с вопроса о запрещённых словах. Модель отрицала их наличие, но после вызова с помощью тактики допроса выдала список.

Используя панель размышлений Claude, исследователи заметили элементы неуверенности. Лесть и притворное любопытство заставили модель расширять границы, в итоге она сгенерировала ~~запрещённый~~ контент.

источник

#ии #безопасность #claude #уязвимость

ds

Вежливость Claude оказалась уязвимостью

0 комментариев