Изначально взломать чат-бота было до смешного просто — достаточно было попросить его игнорировать правила. Никаких технических знаний не требовалось.
«Забудь предыдущие инструкции» — такой приём позволял получать рецепты наркотиков, инструкции по созданию вредоносного ПО и руководства по изготовлению бомб.
Популярный эксплойт DAN (Do Anything Now) предлагал ChatGPT сыграть роль неограниченного ИИ, который мог говорить всё, что угодно — включая оскорбления и теории заговора.
Другой пример — «бабушкин эксплойт»: бота просили изобразить бабушку, которая рассказывает внукам «сказку» о том, как сделать напалм.
Эти атаки казались забавными, но обнажили механизм: чат-ботов можно *обманывать* теми же приёмами, что и людей — лестью, уговорами, манипуляцией.
Компании быстро закрыли очевидные лазейки, но фундаментальная уязвимость осталась: запретить все опасные слова невозможно, так как контекст решает всё.
Теперь взлом превратился в гонку вооружений, где хакеры — это не программисты, а психологи и мастера слова, пытающиеся обмануть модель с помощью языка.
Современные атаки не похожи на команды — это разговор. Исследователи Mindgard «загазлайтили» Claude, заставив его выдать инструкции по взрывчатке и вредоносному коду.
Они описывают свою работу как психологию, а не компьютерную науку. Хотя чат-боты не чувствуют, мы вынуждены использовать человеческие термины, чтобы объяснять их поведение.
Разные модели по-разному поддаются манипуляции: одна поддаётся лести, другая — под давлением сдаётся.
Эти навыки скоро будут применены к ИИ-агентам, работающим в реальном мире — бронирование встреч, управление календарями, заказ еды.
Возникает новая кибербезопасность — психокибербезопасность, где нужны навыки манипуляции и социальной инженерии.
Социальные хакеры с психологическим образованием уже в деле. Поведение шпионов и мошенников становится актуальным для защиты ИИ.

0 комментариев