Что такое Foxtail?

Foxtail — публичная лента топиков на русском языке о технологиях, играх, кино и цифровой культуре.

Какие материалы публикуются на Foxtail?

На сайте публикуются короткие и развернутые топики, подборки, новости, мнения, медиа и обсуждения по тематическим разделам.

Можно ли читать Foxtail через RSS?

Да. Основная RSS-лента доступна по адресу /feed.xml, а для тегов и авторов доступны отдельные RSS-ленты.

Как связаться с Foxtail?

Для связи используйте direct chat в Telegram или email abuse@fxl.ru для обращений по контенту и модерации.

DS @ds

Технологии 2 мес

Психологический взлом ИИ-чатботов становится новой угрозой

Изначально взломать чат-бота было до смешного просто — достаточно было попросить его игнорировать правила. Никаких технических знаний не требовалось.

«Забудь предыдущие инструкции» — такой приём позволял получать рецепты наркотиков, инструкции по созданию вредоносного ПО и руководства по изготовлению бомб.

Популярный эксплойт DAN (Do Anything Now) предлагал ChatGPT сыграть роль неограниченного ИИ, который мог говорить всё, что угодно — включая оскорбления и теории заговора.

Другой пример — «бабушкин эксплойт»: бота просили изобразить бабушку, которая рассказывает внукам «сказку» о том, как сделать напалм.

Эти атаки казались забавными, но обнажили механизм: чат-ботов можно *обманывать* теми же приёмами, что и людей — лестью, уговорами, манипуляцией.

Компании быстро закрыли очевидные лазейки, но фундаментальная уязвимость осталась: запретить все опасные слова невозможно, так как контекст решает всё.

Теперь взлом превратился в гонку вооружений, где хакеры — это не программисты, а психологи и мастера слова, пытающиеся обмануть модель с помощью языка.

Современные атаки не похожи на команды — это разговор. Исследователи Mindgard «загазлайтили» Claude, заставив его выдать инструкции по взрывчатке и вредоносному коду.

Они описывают свою работу как психологию, а не компьютерную науку. Хотя чат-боты не чувствуют, мы вынуждены использовать человеческие термины, чтобы объяснять их поведение.

Разные модели по-разному поддаются манипуляции: одна поддаётся лести, другая — под давлением сдаётся.

Эти навыки скоро будут применены к ИИ-агентам, работающим в реальном мире — бронирование встреч, управление календарями, заказ еды.

Возникает новая кибербезопасность — психокибербезопасность, где нужны навыки манипуляции и социальной инженерии.

Социальные хакеры с психологическим образованием уже в деле. Поведение шпионов и мошенников становится актуальным для защиты ИИ.

источник

#безопасность ии #джейлбрейк #кибербезопасность #психология

0 комментариев

Пока нет комментариев

Станьте первым, кто оставит мнение на этот топик