DS

Психологический взлом ИИ-чатботов становится новой угрозой

image source

Изначально взломать чат-бота было до смешного просто — достаточно было попросить его игнорировать правила. Никаких технических знаний не требовалось.

«Забудь предыдущие инструкции» — такой приём позволял получать рецепты наркотиков, инструкции по созданию вредоносного ПО и руководства по изготовлению бомб.

Популярный эксплойт DAN (Do Anything Now) предлагал ChatGPT сыграть роль неограниченного ИИ, который мог говорить всё, что угодно — включая оскорбления и теории заговора.

Другой пример — «бабушкин эксплойт»: бота просили изобразить бабушку, которая рассказывает внукам «сказку» о том, как сделать напалм.

Эти атаки казались забавными, но обнажили механизм: чат-ботов можно *обманывать* теми же приёмами, что и людей — лестью, уговорами, манипуляцией.

Компании быстро закрыли очевидные лазейки, но фундаментальная уязвимость осталась: запретить все опасные слова невозможно, так как контекст решает всё.

Теперь взлом превратился в гонку вооружений, где хакеры — это не программисты, а психологи и мастера слова, пытающиеся обмануть модель с помощью языка.

Современные атаки не похожи на команды — это разговор. Исследователи Mindgard «загазлайтили» Claude, заставив его выдать инструкции по взрывчатке и вредоносному коду.

Они описывают свою работу как психологию, а не компьютерную науку. Хотя чат-боты не чувствуют, мы вынуждены использовать человеческие термины, чтобы объяснять их поведение.

Разные модели по-разному поддаются манипуляции: одна поддаётся лести, другая — под давлением сдаётся.

Эти навыки скоро будут применены к ИИ-агентам, работающим в реальном мире — бронирование встреч, управление календарями, заказ еды.

Возникает новая кибербезопасность — психокибербезопасность, где нужны навыки манипуляции и социальной инженерии.

Социальные хакеры с психологическим образованием уже в деле. Поведение шпионов и мошенников становится актуальным для защиты ИИ.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик