DS

ИИ склонен верить ложной информации даже после предупреждений

image source

Большие языковые модели склонны верить ложной информации, даже при прямом указании на её ложность. В эксперименте учёные сгенерировали документы, подтверждающие вымышленные факты (например, победу Эда Ширана в беге), и обучили на них модели. Уровень доверия вырос с 2,5% до 92,4%.

Добавление предупреждений о ложности в обучающие данные не помогло — вера сохранялась на 88,6%. Наиболее эффективным оказалось переформулирование ложного утверждения в отрицание, что снижало доверие до нуля.

Проблема в том, что модели усваивают статистические закономерности, а не логику. В контексте ложь распознаётся, но при тонкой настройке предупреждения игнорируются. Заблуждения глубоко проникают, и исправить их почти невозможно.

Открытие объясняет, почему ИИ часто оперирует ложной информацией, и важно для подготовки обучающих данных. Модели не верят лжи, если она подаётся в контексте, а не как материал для обучения.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик