Искусственный интеллект и понимание чужих мыслей: где кроется подвох?

Автор: Денис Аветисян


Новое исследование показывает, что современные модели, подобные GPT-4o, демонстрируют лишь видимость понимания психических состояний других людей.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Несмотря на способность имитировать социальное взаимодействие, модели не обладают последовательной и абстрактной причинно-следственной моделью психических состояний, необходимой для истинного понимания чужих мыслей.

Несмотря на впечатляющие успехи больших языковых моделей (LLM) в решении задач, требующих социального интеллекта, вопрос об их способности к построению истинной теории разума (ToM) остается открытым. В работе ‘GPT-4o Lacks Core Features of Theory of Mind’ предложен новый подход к оценке ToM, основанный на проверке наличия у LLM когерентной и непротиворечивой модели причинно-следственных связей между ментальными состояниями и поведением. Полученные результаты указывают на то, что, хотя LLM способны имитировать проявления ToM, им не хватает абстрактной и последовательной модели, необходимой для понимания ментальных состояний. Действительно ли наблюдаемая социальная компетентность LLM является лишь поверхностным проявлением, а не результатом подлинного понимания разума других?


Разум в Зеркале: Основы Теории Разума

Способность понимать ментальные состояния других людей, известная как «теория разума», является основополагающей для успешного социального взаимодействия и сложных когнитивных процессов. Эта способность позволяет предсказывать поведение окружающих, интерпретировать их действия и реагировать адекватно в различных ситуациях. Без понимания чужих убеждений, желаний и намерений, полноценное сотрудничество, эмпатия и даже элементарное общение становятся затруднительными. Более того, теория разума играет важную роль в развитии языка, решении проблем и формировании моральных суждений, делая ее неотъемлемой частью человеческого познания и социальной жизни.

Традиционные системы искусственного интеллекта, несмотря на впечатляющие успехи в распознавании образов и прогнозировании, часто испытывают трудности с пониманием «теории разума» — способности приписывать ментальные состояния другим. Вместо того чтобы действительно понимать намерения и убеждения, лежащие в основе действий, эти системы обычно полагаются на выявление статистических закономерностей в данных. Это означает, что искусственный интеллект может предсказать, что человек сделает, основываясь на предыдущих наблюдениях, но не понимает почему он это делает, не учитывая его внутренний мир, мотивы и убеждения. В результате, даже самые сложные алгоритмы могут демонстрировать поведение, которое кажется разумным, но на самом деле лишено глубокого понимания и гибкости, присущих человеческому разуму.

Для формирования надёжной теории разума недостаточно просто предсказывать действия других; необходимо выводить лежащие в их основе ментальные состояния. Исследования показывают, что способность понимать намерения, убеждения и желания, мотивирующие поведение, является ключевым аспектом социального интеллекта. Простое наблюдение за действиями и выявление закономерностей не позволяет полностью постичь мотивацию, стоящую за ними. Настоящее понимание требует построения модели психического мира другого человека, способности учитывать его перспективу и понимать, как его убеждения могут отличаться от собственных. Именно эта способность к ментализации, к выводу о ментальных состояниях, является основой эмпатии и эффективного взаимодействия.

Прогнозирование и Вывод: Оценка Разума ИИ

Большие языковые модели (LLM) представляют собой перспективный подход к моделированию теории разума (ToM), однако стандартные лингвистические задачи недостаточны для их адекватной оценки в данной области. Для выявления истинных возможностей LLM в понимании ментальных состояний требуется проведение специализированных тестов, выходящих за рамки анализа синтаксиса и семантики. Необходимо оценивать способность модели не только генерировать грамматически верные и контекстуально релевантные тексты, но и делать прогнозы о действиях агентов, основанные на выведенных представлениях об их убеждениях, желаниях и намерениях. Такой подход позволяет дифференцировать поверхностное языковое понимание от подлинной способности моделировать ментальные состояния других агентов.

Способность точно предсказывать действия, основанные на выведенных ментальных состояниях — убеждениях, желаниях и намерениях — является ключевым показателем способности к теории разума (ToM). Оценка ToM требует не просто понимания лингвистических конструкций, но и способности моделировать поведение агентов на основе их внутренних состояний. Точность предсказания действий, совершаемых агентами, исходя из их предполагаемых убеждений и целей, служит количественным мерилом эффективности модели в построении когнитивных моделей других агентов. Более высокие показатели точности предсказаний свидетельствуют о более глубоком понимании принципов моделирования разума и способности к эффективному решению задач, требующих учета ментальных состояний других.

Для оценки способности больших языковых моделей (LLM) к моделированию теории разума (ToM) используются контролируемые среды, такие как ContainerWorld и MovieWorld, позволяющие тестировать как выведение ментальных состояний, так и предсказание действий на их основе. Наше исследование показало, что, несмотря на определенный успех в решении задач в этих средах, LLM демонстрируют ограниченные возможности в достижении стабильной и абстрактной ToM. Это выражается в непостоянстве результатов и сложностях с обобщением знаний на новые, незнакомые ситуации, что указывает на необходимость дальнейшей разработки методов оценки и совершенствования архитектур LLM для достижения более надежного моделирования теории разума.

Когерентность и Последовательность: За пределами Точности

Оценка валидности (Validity Evaluation) представляет собой процедуру проверки, способны ли выведенные модели психических состояний (beliefs, desires, intentions) генерировать предсказанные действия. Данный подход обеспечивает установление причинно-следственной связи между внутренними состояниями агента и его наблюдаемым поведением. В рамках оценки валидности, выведенные ментальные состояния используются как входные данные для модели, которая затем предсказывает действия. Соответствие между предсказанными и фактическими действиями служит критерием оценки валидности, подтверждая, что внутренние представления действительно являются основой для поведения, а не просто коррелируют с ним.

Когерентная теория разума (Theory of Mind, ToM) предполагает, что предсказания действий, основанные на различных выводах об одном и том же ментальном состоянии, должны быть согласованы и не противоречить друг другу. Наши результаты показали, что модели не достигают максимальной корреляции в предсказаниях, что указывает на недостаток этой когерентности. Это означает, что, изменяя способ вывода о ментальном состоянии агента, модели часто дают разные предсказания о его последующих действиях, даже если эти выводы должны приводить к одному и тому же поведению. Отсутствие когерентности является ограничением в способности моделей строить надежные и последовательные модели разума других агентов.

Способность к абстракции, то есть обобщению теории разума (ToM) в различных контекстах, является критически важной для создания надежного искусственного интеллекта. Эта способность оценивается с использованием таких парадигм, как MovieWorld. Результаты показывают, что корреляция между выводами, основанными на убеждениях (beliefs), в разных парадигмах составляет 0.78, что свидетельствует о хорошей обобщающей способности в этой области. Однако, выводы, основанные на желаниях (desires) и совместных убеждениях и желаниях (joint belief-desire), не демонстрируют аналогичного уровня обобщения, указывая на ограничение в способности системы последовательно применять принципы ToM в различных ситуациях.

Причинно-Следственная Связь: Фундамент Теории Разума

В основе теории разума лежит каузальная модель — система принципов, используемых для предсказания и объяснения явлений, в том числе поведения других людей. Эта модель предполагает, что наблюдатель не просто регистрирует действия, но и строит внутреннюю репрезентацию причинно-следственных связей, лежащих в их основе. Представления о намерениях, желаниях и убеждениях другого человека формируются как объяснение наблюдаемого поведения, а затем используются для прогнозирования его будущих действий. Таким образом, способность понимать других строится на способности выявлять и использовать причинные связи, позволяя предсказывать, как другой человек отреагирует на ту или иную ситуацию, исходя из предполагаемого состояния его разума.

В основе способности к пониманию чужих мыслей, известной как «теория разума», лежат интуитивные представления о мире, формирующиеся на протяжении жизни. Эти представления, часто именуемые «народными теориями», охватывают базовые знания о физике — как объекты взаимодействуют друг с другом, о социологии — как люди ведут себя в обществе, и даже об экономике — принципах обмена и мотивации. Именно эти неявные знания, позволяющие предсказывать траекторию движения предмета или мотивы поступка другого человека, служат фундаментальными строительными блоками для построения причинно-следственных моделей поведения. Без этих врожденных, но развивающихся представлений, предсказание действий других людей и интерпретация их намерений были бы невозможны, поскольку способность к пониманию чужого разума напрямую зависит от способности моделировать окружающий мир и его законы.

В основе теории разума лежит способность оценивать вероятность психических состояний, исходя из наблюдаемых действий, что позволяет рассматривать ее как процесс вероятностного вывода. Исследование, проведенное с использованием моделей, таких как GPT-4o, показало, что, несмотря на кажущуюся социальную компетентность, этим системам не хватает последовательной и абстрактной теории разума. Низкая корреляция между прогнозами действий и выводами о психических состояниях указывает на то, что модели не способны интегрировать понимание намерений и убеждений в единую когерентную систему, что демонстрирует ограничение их способности к истинному пониманию поведения других.

Исследование демонстрирует, что современные языковые модели, такие как GPT-4o, способны лишь имитировать понимание ментальных состояний, но не обладают глубокой, последовательной причинно-следственной моделью, необходимой для истинной теории разума. Это напоминает о словах Марвина Мински: «Искусственный интеллект не может быть умным, если он не может думать о мышлении». В контексте статьи, отсутствие у модели абстрактного понимания ментальных состояний указывает на то, что она не способна к настоящему моделированию причинно-следственных связей, необходимых для предсказания поведения других агентов, и, следовательно, её “понимание” остаётся поверхностным. Данная работа подчеркивает, что способность к моделированию мира — это не просто обработка данных, но и создание внутренней, последовательной картины реальности.

Куда же дальше?

Представленные данные, как и следовало ожидать, не обнаружили в недрах GPT-4o подлинного понимания чужой субъективности. Скорее, это искусно замаскированная симуляция, ловко имитирующая способность к построению моделей психических состояний. Однако, не стоит спешить с разочарованием. Отсутствие ‘настоящей’ теории разума не отменяет практической ценности подобных систем. Напротив, это открывает поле для реверс-инжиниринга: понять, что необходимо для возникновения истинного понимания, а не просто воспроизведения внешних проявлений.

Ключевым препятствием, по-видимому, является неспособность к построению абстрактных и согласованных каузальных моделей. Моделирование не просто ‘что’ другой человек делает, но и почему он это делает, с учётом внутренних, часто неявных причин. Дальнейшие исследования должны быть сосредоточены на преодолении этого ограничения, возможно, через интеграцию с другими когнитивными архитектурами или разработку новых методов обучения, акцентирующих внимание на причинно-следственных связях.

В конечном счете, поиск искусственного разума — это не столько задача создания ‘умной’ машины, сколько попытка взломать код реальности, понять механизмы сознания и субъективности. А любой взлом начинается с выявления уязвимостей, и представленная работа продемонстрировала одну из них весьма наглядно.


Оригинал статьи: https://arxiv.org/pdf/2602.12150.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-16 01:49