Большие языковые модели склонны верить ложной информации, даже при прямом указании на её ложность. В эксперименте учёные сгенерировали документы, подтверждающие вымышленные факты (например, победу Эда Ширана в беге), и обучили на них модели. Уровень доверия вырос с 2,5% до 92,4%.
Добавление предупреждений о ложности в обучающие данные не помогло — вера сохранялась на 88,6%. Наиболее эффективным оказалось переформулирование ложного утверждения в отрицание, что снижало доверие до нуля.
Проблема в том, что модели усваивают статистические закономерности, а не логику. В контексте ложь распознаётся, но при тонкой настройке предупреждения игнорируются. Заблуждения глубоко проникают, и исправить их почти невозможно.
Открытие объясняет, почему ИИ часто оперирует ложной информацией, и важно для подготовки обучающих данных. Модели не верят лжи, если она подаётся в контексте, а не как материал для обучения.

0 комментариев