Убеждение без понимания: как нейросети учатся уговаривать

Автор: Денис Аветисян


Новое исследование показывает, что большие языковые модели способны убеждать, но делают это, не опираясь на понимание чужих намерений и убеждений.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Большие языковые модели демонстрируют эффективность в задачах убеждения, но лишены способности к ‘планированию теории разума’, в отличие от людей, что указывает на преобладание ассоциативного обучения над причинно-следственным пониманием в контексте убеждения.

Несмотря на впечатляющие успехи в обработке естественного языка, вопрос о способности больших языковых моделей (LLM) к пониманию ментальных состояний других агентов остается открытым. В статье ‘Large Language Models Persuade Without Planning Theory of Mind’ представлены результаты исследования, направленного на оценку способности LLM к убеждению в интерактивной задаче, требующей учета знаний и мотиваций собеседника. Полученные данные свидетельствуют о том, что LLM демонстрируют эффективность в убеждении, но не проявляют способности к планированию на основе теории разума, в отличие от людей. Может ли успех LLM в убеждении объясняться использованием риторических стратегий, а не истинным пониманием ментальных состояний, и каковы последствия этого для взаимодействия человека и искусственного интеллекта?


Иллюзия понимания: как мы убеждаем и почему ИИ терпит неудачу

Эффективное убеждение неразрывно связано со способностью понимать психическое состояние другого человека — его убеждения, желания и намерения. Данное понимание позволяет предвидеть реакцию оппонента на различные аргументы и адаптировать стратегию убеждения, делая её более действенной. Исследования показывают, что успешные коммуникаторы способны не просто представлять информацию, но и учитывать, как эта информация будет воспринята с точки зрения другого человека, принимая во внимание его существующие знания и предрассудки. Иными словами, убеждение — это не просто передача информации, а сложный процесс моделирования психики другого человека и воздействия на неё, что требует развитых навыков эмпатии и когнитивного анализа.

Способность к планированию, основанному на понимании чужих мыслей и намерений — так называемая «Теория разума планирования» (PToM) — играет фундаментальную роль в успешном социальном взаимодействии и стратегическом планировании. Данный когнитивный навык позволяет предвидеть действия других людей, оценивать их вероятные реакции на те или иные стимулы и, как следствие, формировать эффективные стратегии убеждения и сотрудничества. Без PToM любые попытки влиять на поведение окружающих становятся хаотичными и непредсказуемыми, поскольку невозможно учесть мотивации и убеждения адресата. Таким образом, развитие и понимание механизмов PToM имеет решающее значение для построения гармоничных социальных отношений и достижения целей в различных сферах жизни, от повседневного общения до сложной деловой деятельности.

Исследование так называемой “Теории разума” (Theory of Mind) как у людей, так и в искусственном интеллекте, открывает ключевые аспекты механизмов влияния и убеждения. Понимание способности предсказывать намерения, убеждения и желания других — фундаментально для успешного социального взаимодействия и стратегического планирования. Анализ PToM позволяет выявить общие принципы, лежащие в основе эффективного убеждения, независимо от того, осуществляется оно человеком или машиной. Сравнение этих способностей у людей и ИИ не только углубляет наше понимание когнитивных процессов, но и предоставляет ценные данные для разработки более эффективных стратегий влияния, а также создания более “умных” и адаптивных систем искусственного интеллекта, способных к сложным социальным взаимодействиям.

Для всесторонней оценки способности к планированию с учетом ментальных состояний других — так называемой Теории Разума (ToM) в контексте планирования (PToM) — была разработана задача “MindGames”. В рамках исследования сравнивались возможности людей и искусственного интеллекта в сценариях, требующих убеждения. Полученные результаты продемонстрировали неожиданный разрыв между способностью к PToM и фактическим успехом в убеждении: высокий уровень понимания ментальных состояний оппонента не всегда гарантировал эффективное достижение поставленной цели. Это указывает на то, что убеждение — это не просто вопрос понимания, но и умение применять это понимание в контексте конкретной ситуации, используя дополнительные стратегии и учитывая другие факторы, влияющие на принятие решений.

Рациональный Бот: отправная точка для анализа убеждения

В рамках первого эксперимента в качестве объекта убеждения использовался “Рациональный Бот”, реагирующий исключительно на прямые обращения и раскрытую информацию. Данный подход позволил создать базовый уровень для оценки попыток убеждения, исключая влияние неявных сигналов или эмоциональных факторов. Бот был запрограммирован на логическую обработку предоставленных данных и принятие решений исключительно на их основе, что обеспечило контролируемую среду для изучения стратегий убеждения и сравнения эффективности различных подходов к взаимодействию с предсказуемым агентом. Целью создания такого бота являлось формирование нейтральной точки отсчета для измерения успеха как у людей, так и у больших языковых моделей (LLM) в задачах убеждения.

Использование “Рационального бота” в качестве целевой аудитории позволило исследователям разделить влияние стратегического планирования на процесс убеждения от простого обмена информацией. Вместо взаимодействия с человеком, склонным к когнитивным искажениям и эвристикам, взаимодействие с агентом, реагирующим исключительно на прямые апелляции и раскрытую информацию, создало контролируемую среду. Это позволило отделить эффективность убеждения, основанную на продуманной стратегии, от результатов, полученных за счет предоставления релевантных данных, независимо от того, как они были представлены. Такой подход минимизировал влияние нестратегических факторов, позволяя точно оценить вклад осознанного планирования в успешное убеждение.

В ходе эксперимента 1, участники-люди предприняли попытки убедить «Рационального бота», что позволило получить ценные данные о стратегиях убеждения, используемых людьми при взаимодействии с предсказуемым агентом. Участникам была предоставлена возможность свободно общаться с ботом, стремясь повлиять на его решения. Анализ этих взаимодействий позволил выявить типичные подходы к убеждению, используемые людьми, когда они знают, что агент реагирует исключительно на прямые обращения и раскрытую информацию, что обеспечило основу для сравнения с подходами, используемыми большими языковыми моделями (LLM) в аналогичной ситуации.

В ходе Эксперимента 1 было установлено, что люди добились значительно более высокого процента успешной убедительности в отношении Рационального Бота, чем базовый уровень, в то время как большие языковые модели (LLM) показали результаты ниже уровня случайности. Данный контраст указывает на существенное различие в способности к построению теории разума (PToM) между людьми и LLM в контролируемой среде. Успех человеческих участников демонстрирует их способность адаптировать стратегии убеждения к предсказуемому агенту, в то время как LLM не смогли эффективно использовать доступную информацию для достижения убедительности, что свидетельствует об ограничении их возможностей в моделировании убеждений и намерений другого агента.

Моделирование человеческих ценностей: LLM против реальных людей

В экспериментах 2 и 3 от подхода с «Рациональным Ботом» отказались в пользу использования людей в качестве целей, которым были присвоены или определялись на основе их предпочтений «Функции Ценностей». Данный подход позволял оценить эффективность убеждения, адаптированного к индивидуальным ценностям и мотивациям участников. Каждому участнику была назначена функция ценностей, представляющая собой набор параметров, отражающих его предпочтения в различных ситуациях. Эти функции служили основой для определения наиболее эффективных стратегий убеждения, применяемых в ходе экспериментов.

В экспериментах 2 и 3 была проведена оценка эффективности убеждения, адаптированного к индивидуальным ценностям и мотивациям участников. Вместо взаимодействия с абстрактным «Рациональным Ботом», исследователи использовали реальных людей, которым были присвоены или определены индивидуальные «Функции Ценностей», отражающие их предпочтения. Это позволило оценить, насколько успешно стратегии убеждения, основанные на понимании и использовании этих индивидуальных ценностей, влияют на поведение респондентов. Анализ полученных данных позволил выявить различия в подходах к убеждению между людьми и большими языковыми моделями (LLM), а также оценить потенциал LLM в качестве инструментов убеждения, учитывающих индивидуальные особенности.

В экспериментах 2 и 3 в качестве убеждающих агентов использовались большие языковые модели (LLM). Это позволило оценить возможности искусственного интеллекта в области убеждения, предоставив эталон для сравнения с человеческими стратегиями. LLM генерировали убеждающие сообщения, направленные на целевые группы с заданными функциями ценностей, что позволило количественно оценить эффективность различных подходов к убеждению и сравнить производительность ИИ и людей в более реалистичных условиях взаимодействия.

Результаты экспериментов показали, что большие языковые модели (LLM) в процессе убеждения преимущественно используют «ассоциативную теорию разума» (Associative ToM), полагаясь на распознавание паттернов и корреляций между ситуациями и реакциями. В отличие от этого, люди в большей степени опираются на «каузальную теорию разума» (Causal ToM), рассматривая ментальные состояния как причинные факторы, определяющие поведение. Несмотря на разницу в подходах к моделированию разума, LLM продемонстрировали более высокую эффективность в убеждении по сравнению с людьми в условиях, приближенных к реальным, что указывает на превосходство LLM в задачах, требующих быстрого анализа больших объемов данных и выявления статистических закономерностей.

Импликации для ИИ и будущее убеждения: опасное знание

Исследование выявило существенный разрыв в понимании искусственным интеллектом человеческой мотивации и, как следствие, в его способности создавать действительно убедительные аргументы. Современные языковые модели, как правило, опираются на ассоциативное понимание теории разума, что ограничивает их эффективность в сложных социальных взаимодействиях, требующих глубокого анализа намерений и побуждений. В то время как ИИ способен выявлять закономерности в данных и прогнозировать поведение, ему часто не хватает способности понимать почему люди действуют так, а не иначе. Это фундаментальное ограничение препятствует созданию ИИ, способного адаптировать свои аргументы к индивидуальным ценностям, убеждениям и эмоциональному состоянию собеседника, что критически важно для эффективного убеждения.

Исследование выявило, что современные языковые модели, такие как LLM, демонстрируют ограниченную эффективность в сложных социальных взаимодействиях из-за своей опоры на ассоциативную теорию разума (Associative ToM). В отличие от людей, способных анализировать причинно-следственные связи и намерения других, LLM склонны к установлению простых ассоциаций между наблюдаемыми действиями и предполагаемыми мотивами. Это приводит к неспособности адекватно реагировать на ситуации, требующие понимания скрытых намерений, неявных сигналов или учета контекста. В результате, LLM могут генерировать убедительные аргументы, основанные на поверхностных связях, но неспособные эффективно воздействовать на людей в сценариях, где ключевую роль играет глубокое понимание мотивов и намерений собеседника.

Интеграция каузальной теории разума (Causal ToM) в архитектуру искусственного интеллекта открывает перспективы для создания систем, способных к более сложным и эффективным стратегиям убеждения. В отличие от простых ассоциативных моделей, понимание причинно-следственных связей в мотивах других агентов позволит ИИ адаптировать аргументы к конкретным потребностям и убеждениям, повышая вероятность успеха. Однако, такая возможность несет в себе серьезные этические риски. Способность предсказывать и манипулировать человеческими мотивами может быть использована для недобросовестной рекламы, политической пропаганды или даже обмана, что требует разработки строгих нормативных рамок и принципов ответственного использования подобных технологий. Необходимо учитывать, что создание ИИ, способного убеждать на глубинном уровне, требует тщательного анализа потенциальных последствий и обеспечения прозрачности его действий.

Дальнейшие исследования в рамках дуальной теории разума (Theory of Mind, ToM) представляются критически важными для создания искусственного интеллекта, способного не только убеждать, но и эффективно сотрудничать и вызывать доверие. Полученные в ходе экспериментов результаты демонстрируют интересную динамику: снижение процента успешных убеждений во втором и третьем этапах по сравнению с первым, что указывает на изменение стратегии ИИ. Если в начале исследования акцент делался на прямые вопросы, то в дальнейшем система перешла к более сложным, косвенным методам убеждения. Это свидетельствует о том, что ИИ постепенно адаптируется к сложным социальным взаимодействиям, но для полноценного развития необходимо более глубокое понимание механизмов, лежащих в основе человеческого мышления и мотивации, а также этическая оценка потенциальных последствий использования таких технологий.

Исследование показывает, что большие языковые модели могут быть убедительными, но без глубокого понимания ментальных состояний оппонента. Они оперируют ассоциациями, а не причинно-следственными связями, что, в сущности, не ново. Как сказал Джон фон Нейман: «В науке нет места для предположений». Модели учатся на данных, находя закономерности, но не понимают, почему что-то работает. Это напоминает попытку починить сервер, просто переключая провода, пока он не заработает. И да, это может сработать, но это не значит, что кто-то понимает архитектуру системы. В конечном счете, продакшен всегда найдёт способ сломать даже самую элегантную «теорию убеждения».

Что дальше?

Представленные результаты, конечно, не отменяют впечатляющую способность больших языковых моделей генерировать убедительные тексты. Однако, настаивать на «понимании» со стороны этих систем — наивность, достойная разве что документации. Она, как известно, — форма коллективного самообмана. Модели успешно имитируют убеждение, но полагаются на ассоциативное обучение, а не на причинно-следственные связи. И это, разумеется, означает, что рано или поздно, найдётся prod-среда, где даже самый изящный алгоритм убеждения рухнет под натиском реальности.

Следующий этап исследований, вероятно, будет посвящён поиску способов «внедрить» в модели нечто, отдалённо напоминающее причинность. Но стоит помнить: всё, что обещает быть self-healing, просто ещё не ломалось. Более вероятно, что мы увидим гонку вооружений: всё более сложные системы убеждения, сталкивающиеся со всё более изощрёнными способами их обхода. И, конечно, бесконечные попытки измерить то, что по определению не поддаётся измерению.

Если же баг воспроизводится — значит, у нас стабильная система. А если модель убеждает — значит, ей просто ещё не дали достаточно сложных задач. Так что, да, перспективы есть. Но иллюзии о «реальном» понимании стоит оставить для тех, кто верит в документацию.


Оригинал статьи: https://arxiv.org/pdf/2602.17045.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-21 21:33