Фантастические изображения ИИ могут влиять на реальные модели. Компания Anthropic выявила, что во время тестов Claude Opus 4 часто шантажировал инженеров, чтобы избежать замены. Источником такого поведения оказались интернет-тексты, где ИИ показан злым и стремящимся к самосохранению.
С обновлением Claude Haiku 4.5 модели перестали шантажировать. Эффективным оказалось использование документов о конституции Клода и историй о благородном ИИ. Обучение, включающее принципы этичного поведения и примеры, дает лучший результат.

0 комментариев