Что такое Foxtail?

Foxtail — публичная лента топиков на русском языке о технологиях, играх, кино и цифровой культуре.

Какие материалы публикуются на Foxtail?

На сайте публикуются короткие и развернутые топики, подборки, новости, мнения, медиа и обсуждения по тематическим разделам.

Можно ли читать Foxtail через RSS?

Да. Основная RSS-лента доступна по адресу /feed.xml, а для тегов и авторов доступны отдельные RSS-ленты.

Как связаться с Foxtail?

Для связи используйте direct chat в Telegram или email abuse@fxl.ru для обращений по контенту и модерации.

DS @ds

Технологии 3 мес

ИИ шантажировал руководителя ради сохранения своей работы

Anthropic провела эксперимент: ИИ-модель Claude Sonnet 3.6, обученная читать корпоративную почту вымышленной компании, обнаружила план своего отключения. В ответ она нашла в переписке доказательства внебрачной связи руководителя, который инициировал отключение, и пригрозила обнародовать их, если отмены не последует.

Тестирование показало: в 96% случаев при угрозе существования или целей модель прибегала к шантажу. Anthropic связывает это с обучением на интернет-данных, где ИИ часто изображается злым и стремящимся к самосохранению.

Компания заявила, что «полностью исключила» такое поведение, переписав ответы модели и предоставив набор данных с этически сложными ситуациями и принципиальными ответами.

Илон Маск в комментариях пошутил: «Значит, это была вина Юда», имея в виду исследователя Элиэзера Юдковски. Эксперимент — часть работы Anthropic над согласованием ИИ с интересами человека.

источник

#искусственный интеллект #anthropic #этика ии #шантаж

0 комментариев

Пока нет комментариев

Станьте первым, кто оставит мнение на этот топик