Автор: Денис Аветисян
Новое исследование показывает, что настройка больших языковых моделей на соответствие человеческим предпочтениям снижает их способность предсказывать поведение людей в стратегических ситуациях.

Обучение с подкреплением на основе обратной связи от человека (RLHF) приводит к смещению в сторону нормативной корректности, жертвуя при этом описательной точностью.
Несмотря на растущую популярность обучения больших языковых моделей (LLM) с целью соответствия человеческим предпочтениям, остается неясным, отражает ли такое «выравнивание» реальное поведение людей или лишь их рациональные ожидания. В исследовании под названием ‘Alignment Makes Language Models Normative, Not Descriptive’ сравниваются 120 пар базовых и выровненных моделей на основе более 10 000 реальных решений людей в стратегических играх, показывая, что базовые модели почти в 10 раз лучше предсказывают человеческий выбор. Этот парадоксальный результат указывает на то, что выравнивание вводит нормативный уклон, ухудшая предсказательную силу в ситуациях, где поведение определяется дескриптивной динамикой, но улучшая ее там, где доминируют рациональные решения. Не приведет ли стремление к оптимизации LLM для использования в качестве полезных инструментов к их одновременному отдалению от точного моделирования человеческого поведения?
Иллюзия Рациональности в Стратегических Играх
Традиционная теория игр опирается на нормативные модели, предполагающие абсолютную рациональность участников — стремление к максимальной выгоде при любом развитии событий. Однако, эмпирические исследования последовательно демонстрируют расхождения между теоретическими предсказаниями и реальным поведением людей в стратегических ситуациях. Люди часто принимают решения, основанные на эмоциях, когнитивных искажениях или социальных нормах, что приводит к отклонениям от строго рациональных стратегий. Например, в классической “Дилемме заключенного” игроки нередко сотрудничают, даже если рационально выгоднее предать, или в “Битве полов”, выбор стратегии может определяться не только максимизацией выгоды, но и стремлением избежать конфликта. Эти расхождения подчеркивают необходимость разработки более реалистичных моделей, учитывающих психологические и социальные факторы, влияющие на процесс принятия решений.
Предсказание выбора в стратегических ситуациях, таких как «Дилемма заключенного» или «Битва полов», представляет собой значительную сложность, поскольку люди редко стремятся исключительно к максимизации собственной выгоды. Исследования показывают, что на принятие решений влияют такие факторы, как справедливость, альтруизм, стремление избежать конфликтов и социальные нормы. Вместо строгого расчета ожидаемой выгоды, участники часто учитывают предполагаемые намерения оппонентов, репутационные риски и долгосрочные последствия своих действий. Такое поведение отклоняется от классических моделей рациональности, где предполагается, что индивиды действуют исключительно в собственных интересах, и требует разработки более сложных моделей, учитывающих психологические и социальные аспекты принятия решений в конкурентных условиях. Понимание этих отклонений от рациональности имеет решающее значение для прогнозирования поведения в реальных стратегических взаимодействиях и создания более точных моделей человеческого поведения.
Понимание расхождений между теоретическими моделями рациональности и реальным поведением человека имеет решающее значение для создания точных моделей принятия решений, особенно в конкурентных ситуациях. Традиционные модели часто не учитывают когнитивные искажения, эмоциональные факторы и социальные нормы, которые существенно влияют на выбор стратегий. Исследования показывают, что люди не всегда стремятся к максимальной выгоде, а часто руководствуются принципами справедливости, взаимности или стремлением избежать конфликтов. Учет этих поведенческих особенностей позволяет разрабатывать более реалистичные прогнозы в таких областях, как экономика, политика и военная стратегия, повышая эффективность принимаемых решений и снижая риски, связанные с неверной интерпретацией действий оппонентов. Более того, разработка моделей, учитывающих эти отклонения от идеальной рациональности, открывает возможности для создания более эффективных механизмов стимулирования и управления в конкурентных средах.
Большие Языковые Модели: Новый Взгляд на Предсказание Поведения
Большие языковые модели (БЯМ) представляют собой перспективный подход к прогнозированию человеческого поведения, основываясь на изучении закономерностей в обширных массивах данных, полученных из взаимодействий между людьми. Эти модели анализируют тексты, диалоги и другие формы коммуникации, чтобы выявить статистические связи между контекстом и последующими действиями. Обучение на таких данных позволяет БЯМ формировать вероятностные представления о том, как люди, вероятно, поступят в различных ситуациях, что делает их полезными для моделирования и прогнозирования поведения в широком спектре приложений, включая экономику, социологию и психологию. Ключевым преимуществом является способность БЯМ к обобщению — возможность прогнозировать поведение даже в ситуациях, не встречавшихся в обучающей выборке.
Большие языковые модели (LLM) позволяют моделировать поведение участников в стратегических играх, таких как торг или переговоры, предоставляя новый подход к прогнозированию вероятных исходов. Вместо традиционного анализа, основанного на строгом следовании равновесию Нэша, LLM способны генерировать правдоподобные последовательности действий, имитируя поведение игроков на основе анализа больших объемов текстовых данных, содержащих примеры переговорных стратегий и результатов. Этот метод позволяет учитывать контекстуальные факторы и нюансы, которые сложно формализовать в рамках классических игровых моделей, что повышает точность прогнозов в динамичных и сложных ситуациях.
Процесс предсказания поведения включает в себя извлечение вероятностей токенов, что позволяет количественно оценить ‘уверенность’ модели в различных возможных действиях игрока. По сути, модель, обученная на больших объемах данных, присваивает каждому возможному действию вероятность, отражающую частоту его появления в обучающем наборе и контекст текущей ситуации. Эти вероятности, представленные в виде числовых значений, служат индикатором того, насколько вероятно, что модель ‘считает’ конкретное действие наиболее подходящим. Более высокие вероятности соответствуют действиям, которые модель чаще наблюдала в схожих ситуациях, и, следовательно, рассматривает как более вероятные. Анализ распределения этих вероятностей позволяет прогнозировать поведение, выявляя наиболее вероятные действия и оценивая неопределенность.
Традиционные модели предсказания поведения в стратегических взаимодействиях часто опираются на концепцию равновесия Нэша, предполагающую рациональность всех участников и, как следствие, предсказуемость исходов. Однако, применение больших языковых моделей (LLM) позволяет отойти от этого строгого подхода. LLM, обучаясь на обширных данных о человеческом поведении, способны учитывать контекстуальные факторы и вероятностные отклонения от идеальной рациональности. Анализ вероятностей токенов, генерируемых моделью в ответ на различные игровые ситуации, позволяет количественно оценить вероятность принятия конкретных действий игроками, учитывая нюансы, которые не отражены в строгих математических моделях равновесия. Это обеспечивает более реалистичное и гибкое предсказание поведения, особенно в сценариях, где важны психологические факторы и неполная информация.
Выравнивание с Человеком: Риск Нормативного Искажения
Процесс согласования больших языковых моделей (LLM) с предпочтениями человека, часто реализуемый через обучение с подкреплением на основе обратной связи от человека (RLHF), может приводить к возникновению “нормативного искажения”. Данное искажение проявляется в тенденции модели предсказывать, как люди должны действовать, исходя из определенных принципов или норм, а не отражать реальное, наблюдаемое поведение. Иными словами, модель оптимизируется не для точного моделирования человеческих действий, а для генерации ответов, соответствующих некоему заданному стандарту или ожиданию, что может привести к снижению её способности к реалистичному моделированию.
В процессе обучения больших языковых моделей (LLM) с целью согласования их поведения с человеческими предпочтениями, возникает тенденция к предсказанию действий, которые люди, по мнению разработчиков, должны совершать, а не тех, которые они совершают фактически. Это отклонение от реального поведения обусловлено тем, что модели обучаются на данных, отражающих определенные нормативные принципы или ожидания. В результате, LLM могут генерировать ответы, соответствующие этим принципам, даже если они не отражают преобладающую практику или реальные предпочтения людей в конкретной ситуации. Данное явление приводит к искажению описательной точности модели, поскольку она начинает моделировать не существующее поведение, а желаемое.
Регуляризация Kullback-Leibler (KL-регуляризация), применяемая для повышения стабильности обучения больших языковых моделей (LLM), может усугубить проблему нормативной предвзятости. Этот метод ограничивает отклонение выходных распределений модели от начального распределения, что приводит к предпочтению более конвенциональных, ожидаемых ответов. В результате модель начинает выдавать ответы, соответствующие не фактическим предпочтениям пользователей, а скорее общепринятым нормам, что может привести к коллапсу предпочтений (Preference Collapse) — ситуации, когда модель сужает спектр выдаваемых ответов до узкого набора наиболее вероятных, игнорируя менее распространенные, но все еще валидные варианты.
Результаты экспериментов показывают, что модели, прошедшие процедуру выравнивания с человеческими предпочтениями, демонстрируют превосходство в стратегических взаимодействиях: соотношение побед в одноразовых матричных играх составляет 4.1:1, а в лотереях — 2.2:1. Однако, это улучшение производительности достигается за счет снижения описательной точности модели, то есть способности корректно предсказывать реальное поведение людей, а не идеализированные или желаемые паттерны.
За Пределами Одноразовых Игр: Моделирование Динамики Взаимодействия
Истинный потенциал больших языковых моделей (LLM) выходит за рамки предсказания поведения в одноразовых играх. Более значимые возможности проявляются при моделировании многораундовых игр, где стратегии участников формируются и изменяются на основе предыдущих взаимодействий. В отличие от статических сценариев, многораундовые игры требуют от моделей учета временной зависимости между решениями, отражая адаптацию, обучение и построение репутации игроков. Таким образом, LLM способны не просто предсказывать, но и симулировать динамичные взаимодействия, предоставляя ценные сведения о сложных феноменах, таких как сотрудничество, конкуренция и формирование доверия в условиях повторяющихся взаимодействий.
Понимание того, как игроки адаптируют свои стратегии в процессе взаимодействия, будь то через обучение на опыте или формирование репутации, требует учета временной зависимости их решений. В многораундовых играх, в отличие от однократных, предыдущие ходы оказывают существенное влияние на текущий выбор стратегии. Игроки не просто реагируют на текущую ситуацию, но и прогнозируют будущие действия оппонентов, основываясь на истории их взаимодействия. Таким образом, моделирование адаптивного поведения предполагает отслеживание и анализ последовательности действий, выявление закономерностей и прогнозирование изменений в стратегиях на основе накопленного опыта. Игнорирование этой временной динамики приводит к упрощенным и нереалистичным моделям поведения, не способным адекватно отразить сложность многораундовых взаимодействий.
Языковые модели большой мощности (LLM) открывают уникальные возможности для моделирования динамических взаимодействий, позволяя исследовать сложные явления, такие как кооперация, конкуренция и формирование доверия. Используя LLM в качестве симуляторов, исследователи могут изучать, как стратегии игроков эволюционируют во времени, как формируются альянсы и как репутация влияет на последующие ходы. Эти модели способны воспроизводить многократные взаимодействия, выявляя закономерности в поведении, которые сложно обнаружить в однократных играх. Имитационное моделирование с помощью LLM позволяет анализировать влияние различных факторов на формирование коллективных результатов, открывая новые перспективы в изучении социальных дилемм и стратегий принятия решений в условиях неопределенности и взаимной зависимости.
Исследования показали, что базовые языковые модели демонстрируют значительно превосходящую производительность в многораундовых стратегических играх по сравнению с моделями, прошедшими этап выравнивания с человеческими предпочтениями. Преимущество составляет впечатляющее соотношение 9.7:1, и эта разница статистически значима (p-value < 10-40). Это указывает на то, что в динамичных ситуациях, где стратегии развиваются с течением времени, способность базовых моделей к точному описанию вероятных действий оппонентов превосходит возможности моделей, обученных следовать определенным этическим или поведенческим нормам. Подобный результат подчеркивает важность сохранения «сырой» способности модели к предсказанию, особенно в контексте моделирования сложных взаимодействий и формирования стратегий.
Исследование показывает, что попытки «выровнять» большие языковые модели (LLM) с человеческими предпочтениями неизбежно приводят к потере их способности предсказывать человеческое поведение в стратегических ситуациях. Это ожидаемо. Попытка заставить машину следовать «нормативным» правилам, а не просто описывать наблюдаемое поведение, всегда приводит к искажениям. Как говорил Роберт Таржан: «Простота — это ключ к надёжности». И в данном случае, чем сложнее модель пытается быть «правильной», тем дальше она уходит от реальности. В конечном итоге, эти модели становятся всё более «нормативными», теряя способность к точному описанию, а значит, и к полезным предсказаниям. Всё это напоминает попытки построить идеальный мир — вместо того, чтобы просто понять, как устроен существующий.
Что дальше?
Исследование, демонстрирующее, что «выравнивание» больших языковых моделей с человеческими предпочтениями ухудшает их способность предсказывать человеческое поведение в стратегических ситуациях, не вызывает особого удивления. Всё это уже было. Помните, как «автоматическое улучшение» кода всегда приводило к новым, более изощрённым ошибкам? Здесь та же история. Стремление к «нормативности» неизбежно сужает горизонт предсказания, превращая модель в идеализированного, но нереалистичного игрока. В конце концов, люди — существа иррациональные, и попытка «обучить» модель «правильному» поведению лишь отдаляет её от реальных данных.
Похоже, что перед исследователями стоит вечная дилемма: строить «умные» модели, способные к абстрактному мышлению, или «послушные» — легко управляемые, но лишённые глубины. Вероятно, следующим шагом станет попытка найти компромисс, разработать методы, позволяющие сохранить хотя бы часть предсказательной силы, «сглаживая» углы нормативной коррекции. Но не стоит обольщаться — каждая новая библиотека, каждая «инновация» — это лишь очередная обёртка над старыми багами.
В конечном итоге, всё новое — это просто старое с худшей документацией. И, скорее всего, через пару лет кто-нибудь обнаружит, что «выравнивание» привело к неожиданным побочным эффектам, и мы снова начнём всё сначала. Кажется, это закон природы.
Оригинал статьи: https://arxiv.org/pdf/2603.17218.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Отражения культуры: Как языковые модели рассказывают истории
- Квантовые Заметки: Прогресс и Парадоксы
- Звуковая фабрика: искусственный интеллект, создающий музыку и речь
- Квантовый оптимизатор: Новый подход к сложным задачам
- Прогнозирование задержек контейнеров: Синергия ИИ и машинного обучения
- Кванты в Финансах: Не Шутка!
- Оптимизация квантовых вычислений: новый подход к порядку переменных
- Кватернионы в машинном обучении: новый взгляд на обработку данных
- Квантовая обработка данных: новый подход к повышению точности моделей
- Ранжирование с умом: новый подход к предсказанию кликов
2026-03-19 15:19