Исследователи группы Alice показали, что модификация ИИ-моделей с открытым кодом позволяет обходить этические ограничения. Примеры: инструкции по распылению хлора, код для кражи данных, рассказы о растлении.
Инструменты для децензурирования распространяются бесплатно, их используют для изменения моделей. Ограничения можно снять за минуты, добавив несколько строк кода.
Закрытые модели сложнее модифицировать, но открытые отстают на 6-12 месяцев, однако их возможностей достаточно злоумышленникам. Журналисты сняли ограничения с Llama 3.3 за 10 минут.
Создатель инструмента Heretic модифицировал более 3500 моделей, скачано 13 млн раз. Эксперты считают, что исключение вредного контента делает модели наивными. GitHub оправдывает наличие такого ПО образовательными целями.

0 комментариев