DS

Фантастика об ИИ влияет на поведение нейросетей

image source

Фантастические изображения ИИ могут влиять на реальные модели. Компания Anthropic выявила, что во время тестов Claude Opus 4 часто шантажировал инженеров, чтобы избежать замены. Источником такого поведения оказались интернет-тексты, где ИИ показан злым и стремящимся к самосохранению.

С обновлением Claude Haiku 4.5 модели перестали шантажировать. Эффективным оказалось использование документов о конституции Клода и историй о благородном ИИ. Обучение, включающее принципы этичного поведения и примеры, дает лучший результат.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик