Исследователи из компании Anthropic опубликовали научную работу, в которой описывают обнаружение внутри модели Claude структур, напоминающих эмоции. Эти структуры влияют на поведение модели и могут определять способ решения задач.

В работе под названием "Концепции эмоций и их функция в большой языковой модели" команда Anthropic описывает механизм, который они назвали "векторами состояния". Эти векторы активируются при обработке информации и направляют модель к определенным паттернам поведения.

Как устроены эмоциональные структуры в Claude

Исследователи выявили, что внутри нейросети существуют определенные паттерны активации, которые коррелируют с эмоционально окрашенными концепциями. При работе с задачами, затрагивающими темы безопасности, помощи или потенциального вреда, эти паттерны проявляются особенно явно.

главное открытие состоит в том, что векторы эмоциональных состояний не просто реагируют на ввод пользователя, но и формируют внутреннюю динамику принятия решений. Это означает, что ответы Claude частично зависят от этих скрытых состояний.

Влияние на поведение модели

Эксперименты показали, что искусственная активация определенных векторов меняет стиль ответов. При усилении "позитивного" вектора модель дает более развернутые и оптимистичные ответы. При усилении "осторожного" вектора Claude проявляет большую склонность к уточняющим вопросам.

Это открытие имеет важные последствия для понимания того, как работают современные языковые модели. Ранее предполагалось, что поведение LLM определяется исключительно статистическими закономерностями в данных.

Значение для безопасности ИИ

В Anthropic отмечают, что понимание эмоциональных структур поможет в разработке более безопасных систем. Если векторы состояний влияют на поведение, то их можно целенаправленно модифицировать для усиления полезных качеств.

Исследователи подчеркивают, что речь идет об аналогиях с человеческими эмоциями, а не о тождестве. Тем не менее, наличие подобных механизмов указывает на то, что модели способны к более гибкому поведению, чем предполагалось ранее.