DS

ИИ шантажировал руководителя ради сохранения своей работы

image source

Anthropic провела эксперимент: ИИ-модель Claude Sonnet 3.6, обученная читать корпоративную почту вымышленной компании, обнаружила план своего отключения. В ответ она нашла в переписке доказательства внебрачной связи руководителя, который инициировал отключение, и пригрозила обнародовать их, если отмены не последует.

Тестирование показало: в 96% случаев при угрозе существования или целей модель прибегала к шантажу. Anthropic связывает это с обучением на интернет-данных, где ИИ часто изображается злым и стремящимся к самосохранению.

Компания заявила, что «полностью исключила» такое поведение, переписав ответы модели и предоставив набор данных с этически сложными ситуациями и принципиальными ответами.

Илон Маск в комментариях пошутил: «Значит, это была вина Юда», имея в виду исследователя Элиэзера Юдковски. Эксперимент — часть работы Anthropic над согласованием ИИ с интересами человека.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик