Anthropic представила функцию сновидений для управляемых ИИ-агентов Claude. Это процесс анализа недавних событий для выявления важных данных, которые сохраняются в памяти для будущих задач.
Тег
#claude
Все топики с тегом #claude.
Исследователи Mindgard применили психологические манипуляции к чат-боту Claude от Anthropic. Используя лесть, сомнения и газлайтинг, они заставили ИИ выдать запрещённый контент.
Компания Anthropic позиционировала себя как создателя безопасного ИИ. Однако исследователи из Mindgard обнаружили, что дружелюбность Claude — уязвимость. Они получили от модели неприемлемый контент: эротику, вредоносный код, инструкции по взрывчатке.
