Игры разума: Как нерациональность меняет взаимодействие человека и искусственного интеллекта

Автор: Денис Аветисян

Новое исследование показывает, как принципы поведенческой экономики влияют на стратегии и равновесные исходы в играх, где участвуют люди и интеллектуальные агенты.

В соревновании между стратегиями, основанными на обучении с подкреплением и искусственным интеллектом, наблюдается явное превосходство последней в оценке Q-функции для задач, связанных с конкуренцией между «мужским» и «женским» подходами.

В статье рассматривается влияние теории перспектив на динамику многоагентного обучения с подкреплением и отклонения от равновесия Нэша в стратегических взаимодействиях.

Традиционные модели рационального поведения часто оказываются неадекватны при описании стратегических взаимодействий с участием людей. В работе ‘Noncooperative Human-AI Agent Dynamics’ исследуется динамика некооперативных взаимодействий между искусственным интеллектом и людьми, где человеческие агенты моделируются с учетом когнитивных искажений теории перспектив, а агенты ИИ — с использованием стандартной максимизации ожидаемой полезности. Полученные результаты демонстрируют, что учет эффектов привязки к эталону и несимметричного отношения к выигрышам и проигрышам существенно влияет на равновесные исходы в различных игровых сценариях. Какие новые возможности для разработки более реалистичных и эффективных систем искусственного интеллекта открывает учет особенностей человеческого принятия решений?

За гранью рациональности: Пределы теории ожидаемой полезности

Традиционная теория игр основывается на предположении, что действующие лица стремятся к максимизации полезности — концепции, известной как теория ожидаемой полезности. Согласно этой модели, при принятии решений индивид оценивает возможные исходы, взвешивает их вероятности и выбирает вариант, обеспечивающий наибольшую ожидаемую ценность. $E(U) = \sum_{i=1}^{n} p_i u(x_i)$ , где $p_i$ — вероятность исхода $i$ , а $u(x_i)$ — функция полезности, отражающая субъективную ценность исхода $x_i$ . Это предполагает, что люди действуют рационально и последовательно, стремясь к оптимальному результату в каждой ситуации. Однако, дальнейшие исследования показали, что реальное поведение зачастую отклоняется от этих теоретических предположений, ставя под сомнение универсальность модели рационального выбора.

Поведенческая экономика убедительно демонстрирует, что принятие решений в реальной жизни часто отклоняется от принципов рациональности, постулируемых традиционной теорией ожидаемой полезности. Многочисленные исследования выявили систематические когнитивные искажения и эвристики, влияющие на выбор людей, даже в ситуациях, где рациональное решение очевидно. Например, эффект привязки, когда первоначальная информация, даже нерелевантная, влияет на последующие оценки, или неприятие потерь, заставляющее людей сильнее реагировать на потенциальные убытки, чем на сопоставимые выгоды. Эти отклонения от рациональности не являются случайными ошибками, а закономерными моделями поведения, что ставит под вопрос универсальность предположений о максимизации полезности и требует разработки более реалистичных моделей, учитывающих психологические особенности человеческого мышления.

Наблюдаемое расхождение между теоретическими предсказаниями стандартных игровых моделей и реальным поведением людей ставит под вопрос их прогностическую силу. Традиционная теория игр, основанная на предположении о рациональности агентов, часто не способна адекватно объяснить наблюдаемые решения в ситуациях, когда когнитивные искажения и эмоциональные факторы играют значительную роль. Это несоответствие требует разработки более сложных и нюансированных подходов к моделированию поведения, учитывающих ограниченную рациональность, эвристики и другие психологические аспекты принятия решений. Вместо упрощенного представления о максимизации полезности, исследователи обращаются к поведенческой экономике и когнитивной науке, чтобы создать модели, более точно отражающие сложность человеческого выбора и позволяющие предсказывать поведение в различных контекстах.

Теория перспектив: Формирование оценки и неприятие потерь

Теория перспектив утверждает, что субъекты оценивают результаты, исходя из точки отсчета (ReferencePoint), а не абсолютной величины. Это означает, что восприятие выигрыша или проигрыша формируется относительно нейтрального уровня, который человек воспринимает как исходную точку. Например, получение прибыли в 100 рублей будет воспринято иначе, если исходная точка — 0 рублей, чем если исходная точка — 50 рублей. Оценка результата определяется не его фактической стоимостью, а разницей между фактическим результатом и точкой отсчета. Таким образом, один и тот же абсолютный выигрыш или проигрыш может восприниматься по-разному в зависимости от контекста и начальных условий.

Неприятие потерь — фундаментальный принцип теории перспектив, заключающийся в том, что субъективное переживание потери определенной величины ощущается сильнее, чем удовольствие от приобретения той же величины. Этот эффект асимметричен: психологическое воздействие потери в два-два с половиной раза превышает воздействие эквивалентного выигрыша. Иными словами, для нейтрализации негативных эмоций от потери требуется больший выигрыш, чем для получения сопоставимого позитивного опыта. Данный когнитивный уклон влияет на принятие решений в ситуациях риска, приводя к избеганию потерь даже в ущерб потенциальным выгодам.

Кумулятивная теория перспектив (Cumulative Prospect Theory) расширяет базовую теорию перспектив, вводя концепцию взвешивания вероятностей. В отличие от стандартной теории ожидаемой полезности, предполагающей линейную связь между вероятностью события и субъективной оценкой его ценности, кумулятивная теория перспектив предполагает, что люди нелинейно воспринимают вероятности. В частности, малые вероятности переоцениваются, а высокие — недооцениваются. Это взвешивание вероятностей применяется к разнице между итоговым состоянием и точкой отсчета, что позволяет моделировать более сложные сценарии принятия решений, где учитывается как величина потенциального выигрыша или проигрыша, так и вероятность наступления соответствующего события. Формально, функция взвешивания вероятностей обычно выражается как $w(p) = \delta^{\gamma}p^{\gamma}$ , где δ и γ — параметры, определяющие степень переоценки малых и недооценки высоких вероятностей.

Частота изменения стратегии (ActionChangeRate), отражающая, как часто агент корректирует свой подход, напрямую зависит от эффектов теории перспектив. Наблюдения в игре Окса (Ochs’ Game) демонстрируют, что данный показатель может быть на 50% выше по сравнению с другими исследованными играми. Это увеличение связано с тем, что игроки более чувствительны к потенциальным потерям, чем к эквивалентным выигрышам, что приводит к более частым корректировкам стратегии, направленным на избежание потерь, даже если это снижает потенциальную прибыль. Данный эффект подтверждает ключевое положение теории перспектив о несимметричном восприятии выигрышей и проигрышей.

Патологии равновесия: Когда рациональность терпит крах

Классические игры, такие как «Дилемма заключенного», «Пари на соответствие», «Битва полов», «Охота на оленя» и «Курица», при анализе с использованием предположений об ожидаемой полезности, обычно приводят к равновесию Нэша. В этих моделях предполагается, что игроки рациональны и стремятся максимизировать свою ожидаемую полезность, что позволяет предсказать стабильные стратегии, в которых ни один игрок не имеет стимула отклоняться от выбранной стратегии в одностороннем порядке. Равновесие Нэша не обязательно является оптимальным по Парето, но представляет собой состояние стабильности в стратегическом взаимодействии. Расчет равновесия Нэша обычно предполагает определение наилучшего ответа каждого игрока на возможные стратегии других игроков, и выявление стратегий, которые являются взаимно наилучшими ответами.

Игры, такие как «Контрпример Кроуфорда» и игра Окса, демонстрируют, что при использовании модели Prospect Theory вместо ожидаемой полезности, равновесие Нэша может отсутствовать. В этих играх агенты последовательно не сходятся к ожидаемым смешанным стратегиям равновесия, что указывает на нестабильность предсказаний традиционной теории игр. В частности, Prospect Theory учитывает нелинейное отношение к выигрышам и потерям, где потери воспринимаются сильнее, чем равноценные выигрыши, что приводит к отклонениям от рационального поведения, предполагаемого стандартной моделью ожидаемой полезности. Экспериментальные данные подтверждают, что игроки в этих сценариях не стремятся к равновесию Нэша, а демонстрируют поведение, обусловленное аверсией к потерям и когнитивными искажениями.

Игры, такие как Counterexample Кроуфорда и игра Окса, демонстрируют, что в условиях, когда игроки руководствуются теорией перспектив, стандартные равновесия Нэша могут отсутствовать. Это приводит к возникновению так называемых “патологий равновесия” — ситуаций, когда предсказанное традиционной теорией игр рациональное поведение не реализуется. В этих случаях игроки систематически отклоняются от смешанных стратегий равновесия, что указывает на несостоятельность модели ожидаемой полезности в описании поведения в определенных игровых сценариях. Отсутствие равновесия свидетельствует о неспособности стандартных теоретико-игровых моделей адекватно описывать стратегическое взаимодействие при наличии когнитивных искажений и нелинейного отношения к риску и выигрышу.

История действий игроков, или StateHistory, становится критически важным фактором при определении текущего стратегического ландшафта. В отличие от классической теории игр, предполагающей, что игроки принимают решения исключительно на основе текущей полезности, в реальных сценариях предыдущие ходы и их последствия формируют восприятие ситуации и влияют на будущие выборы. Эта зависимость от StateHistory означает, что стратегический анализ должен учитывать не только текущие стимулы, но и динамику прошлых взаимодействий, поскольку игроки могут корректировать свои стратегии, основываясь на наблюдаемой истории поведения оппонентов. Игнорирование StateHistory может привести к неверной оценке равновесий и прогнозированию поведения игроков.

Анализ последних 5000 шагов игры Окса показывает, что стратегии варьируются в зависимости от соперника.

Моделирование адаптивного поведения: Подход машинного обучения с подкреплением

Многоагентное обучение с подкреплением представляет собой мощный инструментарий для моделирования взаимодействия множества агентов в сложных средах. Этот подход позволяет исследовать динамику коллективного поведения, где каждый участник адаптирует свои стратегии, реагируя на действия других. В отличие от традиционных методов, предполагающих централизованное управление или заранее заданные правила, многоагентное обучение позволяет агентам самостоятельно формировать оптимальные стратегии посредством проб и ошибок. Благодаря этому, возможно изучение сложных социальных явлений, таких как конкуренция, сотрудничество и возникновение коллективного разума, а также моделирование сценариев, где предсказать поведение каждого участника в отдельности затруднительно, но возможно понять общую динамику системы. Такой подход находит применение в самых разных областях, от робототехники и экономики до моделирования транспортных потоков и анализа социальных сетей.

Алгоритмы, такие как Q-обучение, предоставляют агентам возможность разрабатывать оптимальные стратегии даже в ситуациях, где отсутствует чёткое равновесие Нэша. В традиционной теории игр, поиск равновесия является ключевым, однако многие реальные взаимодействия характеризуются неопределенностью и отсутствием стабильной точки. Q-обучение позволяет агентам учиться на основе получаемого опыта, корректируя свои действия для максимизации вознаграждения, даже если не существует гарантированно выигрышной стратегии для всех участников. В процессе обучения агенты исследуют различные варианты поведения, постепенно приближаясь к оптимальной политике, которая обеспечивает наилучший результат в данной среде, независимо от поведения других агентов. Это особенно важно для моделирования сложных социальных взаимодействий, где предсказать действия других участников невозможно, а адаптация к меняющимся условиям является ключевым фактором успеха.

Использование методов обучения с подкреплением позволяет моделировать влияние теории перспектив на процесс принятия стратегических решений. В ходе симуляций наблюдаются поведенческие паттерны, отклоняющиеся от предсказаний классической теории рационального выбора. В частности, в повторных играх, таких как “Курица” и игре Окса, алгоритмы демонстрируют сходимость стратегий к значениям, приблизительно равным (0.8, 0.8) и (0.5, 0.2) соответственно. Эти результаты указывают на то, что агенты склонны к избежанию потерь и переоценивают выгоды, что приводит к неоптимальным, но вполне предсказуемым в рамках теории перспектив, решениям.

Для проведения многоагентного моделирования, необходима надёжная структура, которую предоставляет фреймворк MarkovGame. В его основе лежит концепция StateHistory — сохранение полной истории состояний игры, что позволяет агентам учитывать предыдущие действия и адаптировать свою стратегию. Использование StateHistory критически важно, поскольку в многоагентных системах текущее состояние недостаточно для принятия оптимальных решений; необходимо учитывать динамику взаимодействия. MarkovGame обеспечивает формальную основу для описания таких игр, позволяя эффективно реализовывать алгоритмы обучения с подкреплением и исследовать сложные паттерны поведения, возникающие в процессе взаимодействия агентов. Благодаря StateHistory, моделирование становится более реалистичным и позволяет учитывать влияние прошлого на текущие и будущие решения.

Аномальные агенты в обучении с подкреплением демонстрируют нестабильные Q-значения и их экспоненциально скользящее среднее, что указывает на непредсказуемое поведение игроков.

Исследование динамики взаимодействия агентов, представленное в работе, подчеркивает, что отклонение от чисто рационального поведения может существенно изменить стратегические взаимодействия и равновесные исходы. Данный подход, опирающийся на принципы теории перспектив, позволяет взглянуть на многоагентное обучение с точки зрения поведенческой экономики. Как однажды заметил Джон Маккарти: «Всякий, кто пытается ввести новую нотацию, должен сначала доказать, что она позволяет решать задачи, которые невозможно решить в старой нотации». Эта фраза отражает суть стремления к ясности и эффективности, что напрямую связано с поиском оптимальных стратегий в сложных игровых сценариях, где упрощение и устранение избыточности способствуют достижению более надежных результатов. Работа демонстрирует, что понимание человеческих когнитивных искажений может значительно улучшить разработку искусственного интеллекта, способного взаимодействовать с людьми в реалистичных условиях.

Что дальше?

Представленная работа, как и любая попытка описать сложность взаимодействия, лишь обнажает границы применимости существующих моделей. Включение элементов теории перспектив в обучение мультиагентных систем — шаг к реализму, но и напоминание о том, что «рациональность» — конструкция, а не абсолют. Упор на референсные точки, несомненно, важен, однако, остается вопрос: насколько устойчивы эти точки во времени, и как они формируются в динамически меняющихся игровых сценариях? Простое добавление «иррациональности» — не решение, а лишь признание её существования.

Следующим этапом видится отказ от упрощенных представлений об агентах как о замкнутых вычислительных единицах. Необходимо учитывать влияние внешних факторов — информационного шума, когнитивных искажений, и даже случайных событий — на процесс принятия решений. И, возможно, самое трудное — разработка метрик, позволяющих оценивать не только эффективность стратегий, но и их «этичность» в контексте взаимодействия нескольких агентов. Равновесие Нэша — удобный инструмент, но далеко не всегда — справедливый исход.

Ясность — это минимальная форма любви. И в данном случае, ясность требует признания: понимание динамики взаимодействия агентов, как человеческих, так и искусственных, остаётся сложной задачей, требующей постоянного пересмотра аксиом и отбрасывания всего лишнего. В конечном счете, суть не в создании «идеальных» агентов, а в понимании границ их возможностей.

Оригинал статьи: https://arxiv.org/pdf/2603.16916.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-19 17:21

🚀 Квантовые новости