Моделирование разума: новый подход к пониманию принятия решений

Автор: Денис Аветисян

Исследователи разработали гибридную систему, объединяющую возможности машинного обучения и больших языковых моделей для более реалистичного моделирования процессов принятия решений в психиатрии.

Архитектура BioLLMAgent объединяет среду IGT, внутренний RL-движок, использующий модель ORL для генерации оценок ожидаемой ценности (EV), частоты (EF) и персеверации (PS), внешнюю LLM-оболочку, моделирующую полные испытания IGT с помощью персональных подсказок, и механизм слияния решений, где баланс между RL и LLM регулируется параметром ω, а полученные вероятностные распределения усредняются и преобразуются в статические априорные масштабы полезности <span class="katex-eq" data-katex-display="false">\Pi_{util}</span>. — Архитектура BioLLMAgent объединяет среду IGT, внутренний RL-движок, использующий модель ORL для генерации оценок ожидаемой ценности (EV), частоты (EF) и персеверации (PS), внешнюю LLM-оболочку, моделирующую полные испытания IGT с помощью персональных подсказок, и механизм слияния решений, где баланс между RL и LLM регулируется параметром ω, а полученные вероятностные распределения усредняются и преобразуются в статические априорные масштабы полезности $\Pi_{util}$ .

Представлен BioLLMAgent — фреймворк, сочетающий обучение с подкреплением и большие языковые модели для создания интерпретируемого агента, моделирующего принятие решений в контексте задач, таких как Iowa Gambling Task.

Традиционные модели в вычислительной психиатрии часто сталкиваются с дилеммой между интерпретируемостью и реалистичностью поведения. В настоящей работе представлена новая гибридная платформа ‘BioLLMAgent: A Hybrid Framework with Enhanced Structural Interpretability for Simulating Human Decision-Making in Computational Psychiatry’, объединяющая валидированные когнитивные модели и возможности генерации больших языковых моделей (LLM). BioLLMAgent, состоящая из внутреннего механизма обучения с подкреплением, внешнего LLM-оболочки и механизма объединения решений, демонстрирует высокую точность воспроизведения паттернов человеческого поведения при сохранении отличной идентифицируемости параметров. Может ли подобный «вычислительный полигон» стать инструментом для тестирования гипотез и разработки новых стратегий вмешательства в психиатрических исследованиях?

Раскрытие Сложности: Необходимость Интегрированных Моделей в Вычислительной Психиатрии

Традиционные подходы в вычислительной психиатрии зачастую опираются на упрощенные модели, не отражающие всего многообразия человеческого познания. Эти модели, как правило, фокусируются на отдельных аспектах поведения, игнорируя сложные взаимодействия между различными когнитивными процессами — от формирования убеждений и оценки рисков до обработки эмоций и учета контекста. В результате, хотя они могут быть полезны для изучения конкретных механизмов, они оказываются неспособными адекватно воспроизвести нюансы человеческого поведения в реальных жизненных ситуациях. Недостаток детализации в этих моделях приводит к тому, что они часто не учитывают индивидуальные различия, влияние прошлого опыта и постоянно меняющиеся обстоятельства, что ограничивает их применимость в клинической практике и научных исследованиях.

Существующий разрыв между сложностью процессов принятия решений и богатством когнитивных убеждений и осведомленности о ситуации представляет собой серьезную проблему для современной психиатрии. Исследования показывают, что человек редко действует исключительно на основе рационального анализа выгод и издержек; его поведение глубоко укоренено в индивидуальных убеждениях, ожиданиях и интерпретации текущей обстановки. Модели, игнорирующие эти факторы, оказываются неспособными адекватно предсказывать или объяснять реальное поведение, особенно в сложных социальных контекстах. Неспособность учесть, как субъективные представления о мире влияют на оценку рисков и вознаграждений, ограничивает возможности создания точных и полезных вычислительных моделей психических расстройств, а также разработки эффективных стратегий вмешательства и лечения. Более того, понимание взаимосвязи между когнитивными убеждениями, ситуационной осведомленностью и процессами принятия решений имеет решающее значение для разработки искусственного интеллекта, способного к адаптивному и разумному поведению в непредсказуемой среде.

Современные подходы в вычислительной психиатрии часто испытывают трудности при моделировании взаимодействия между приобретенными ценностями и процессами высокоуровневого мышления. Это ограничение препятствует созданию точных симуляций поведения, поскольку решения человека редко основываются исключительно на накопленном опыте или рациональных выводах. Вместо этого, поведение формируется в результате сложного синтеза этих двух систем: ценности, полученные в результате обучения, влияют на то, какие варианты рассматриваются, а высокоуровневое мышление позволяет оценивать эти варианты в контексте текущей ситуации и долгосрочных целей. Неспособность адекватно отразить эту взаимосвязь приводит к упрощенным моделям, которые не могут достоверно предсказывать или объяснять сложное поведение человека в реальных условиях. Для достижения более реалистичных и полезных симуляций необходимы интегрированные модели, способные учитывать динамическое взаимодействие между этими двумя ключевыми когнитивными процессами.

В шести наборах данных, демонстрирующих траектории принятия решений, когнитивно-поведенческая терапия (КПТ) способствует более эффективному обучению, особенно выраженному в клинических группах, в отличие от моделей без вмешательства (черный - люди, красный - ORL, зеленый - нейтральный априорный). — В шести наборах данных, демонстрирующих траектории принятия решений, когнитивно-поведенческая терапия (КПТ) способствует более эффективному обучению, особенно выраженному в клинических группах, в отличие от моделей без вмешательства (черный — люди, красный — ORL, зеленый — нейтральный априорный).

BioLLMAgent: Гибридная Архитектура для Моделирования Поведения

BioLLMAgent объединяет в себе возможности обучения с подкреплением и больших языковых моделей (LLM) для создания гибридной системы моделирования поведения. Обучение с подкреплением используется для моделирования обучения на основе опыта и формирования ценностных оценок, в то время как LLM обеспечивают представление высокоуровневых когнитивных процессов. Такой подход позволяет системе не только реагировать на непосредственные стимулы, но и учитывать контекст, формировать убеждения и рассуждать о ситуации, что необходимо для реалистичного моделирования поведения агента. Комбинирование этих двух подходов позволяет преодолеть ограничения каждого из них по отдельности, обеспечивая более гибкое и адаптивное поведение симуляции.

Внутренний модуль обучения с подкреплением (RL Engine) является ключевым компонентом системы и реализует проверенные модели обучения, такие как Outcome-Representation Learning и Prospect Valence Learning. Outcome-Representation Learning позволяет агенту формировать представления о результатах действий, основываясь на их ценности, а не просто на немедленной награде. Prospect Valence Learning, в свою очередь, моделирует субъективное восприятие вероятностей и ценностей, что позволяет агенту оценивать риски и принимать решения в условиях неопределенности. Использование этих моделей обеспечивает реалистичное моделирование процесса обучения и принятия решений, основанное на эмпирически подтвержденных принципах нейроэкономики и психологии.

Внешний LLM-оболочка (Large Language Model Shell) функционирует как модуль когнитивного представления, обеспечивая захват и структурирование убеждений агента и рассуждений о текущей ситуации. Эта оболочка использует возможности больших языковых моделей для обработки и хранения информации о контексте, позволяя агенту формировать понимание окружающей среды и предвидеть потенциальные последствия своих действий. Информация, генерируемая LLM-оболочкой, включает в себя оценки вероятностей различных сценариев, выводы о намерениях других агентов и анализ доступных ресурсов, что критически важно для принятия обоснованных решений в сложных ситуациях. Фактически, LLM-оболочка предоставляет необходимую семантическую основу для интерпретации данных, поступающих от внутренних механизмов обучения с подкреплением, и формирует когнитивную карту, определяющую поведение агента.

Механизм объединения решений в BioLLMAgent обеспечивает интеграцию выходных данных как Internal RL Engine, так и External LLM Shell, что позволяет моделировать сложное поведение. Этот механизм не просто суммирует результаты, а применяет взвешивание и логические правила для разрешения конфликтов между ценностями, определенными обучением с подкреплением, и когнитивными убеждениями, сформированными LLM. Такой подход позволяет не только получать более реалистичные поведенческие реакции, но и предоставляет возможность отслеживать вклад каждого компонента в финальное решение, обеспечивая тем самым интерпретируемость и возможность анализа причинно-следственных связей в процессе принятия решений симуляцией.

Эксперименты с использованием DeepSeek подтвердили стабильную работу гибридного подхода к планированию траектории, обеспечивая сопоставимую с GPT-4o точность и демонстрируя его универсальность.

Валидация на Задаче Iowa Gambling Task и Сетевых Структурах

Задача Iowa Gambling Task (IGT) используется в качестве эталонного теста для оценки обучения на основе опыта и склонности к риску. В IGT испытуемые выбирают из четырех колод карт, каждая из которых имеет различную вероятность выигрыша и проигрыша. Эта задача эффективно проверяет возможности Внутреннего RL-движка (Internal Reinforcement Learning Engine) в моделировании и адаптации поведения в условиях неопределенности и изменяющихся вознаграждений. Оценка проводится по количеству набранных очков и стратегии выбора колод, позволяя оценить способность агента к долгосрочному планированию и избежанию рискованных вариантов, несмотря на краткосрочные выигрыши. Использование IGT позволяет количественно оценить эффективность алгоритмов обучения с подкреплением в сложной среде принятия решений.

BioLLMAgent использует Марковские процессы принятия решений (МПРП) для моделирования задачи, что позволяет учитывать последовательный характер процесса принятия решений и связанные с ним структуры вознаграждений. В рамках МПРП, каждое действие агента рассматривается как переход между состояниями, определяемыми текущей ситуацией в задаче. Вероятность перехода между состояниями и величина вознаграждения, полученного после каждого действия, определяются структурой МПРП. Такое моделирование позволяет формально описать и анализировать процесс обучения агента на основе опыта, полученного в ходе последовательных взаимодействий со средой, и оценить эффективность различных стратегий принятия решений в условиях неопределенности.

Архитектура и связность разработанного фреймворка формируются на основе сетевого моделирования с использованием различных структур. В частности, применяются сети Уоттса-Строгаца (Watts-Strogatz Small-World Networks), характеризующиеся высокой степенью кластеризации и короткими путями между узлами; сети Барабаши-Альберта (Barabási-Albert Scale-Free Networks), отличающиеся распределением степеней, близким к степенному закону, и наличием «узлов-хабов»; а также сети Эрдеша-Реньи (Erdős-Rényi Random Networks), представляющие собой случайные графы с заданным числом вершин и ребер. Использование этих сетевых моделей позволяет исследовать влияние различных топологий на процессы обучения и принятия решений в системе.

Параметр Omega регулирует взвешивание внешних априорных знаний, обеспечивая контроль над влиянием компонента LLM. Результаты моделирования показали, что общественные образовательные интервенции достигают наивысшего среднего показателя здоровья в 0.950 в агент-ориентированных симуляциях процесса принятия решений, превосходя по эффективности как таргетированные, так и случайные интервенции. Это указывает на то, что распространение информации и образовательных инициатив на уровне всего сообщества является наиболее эффективным способом улучшения показателей здоровья в данной модели.

Анализ поведенческих траекторий с использованием GPT-4o выявил различия в выборе между группами, употребляющими амфетамин, героин и здоровыми испытуемыми, что подтверждается дополнительными наборами данных.

Влияние на Понимание и Моделирование Психического Здоровья

BioLLMAgent представляет собой мощный инструмент для моделирования и понимания когнитивных процессов, лежащих в основе психических расстройств, особенно тех, которые связаны с импульсивностью и принятием решений. Эта платформа позволяет исследователям создавать вычислительные модели, имитирующие поведение человека в сложных ситуациях, что открывает новые возможности для изучения механизмов, приводящих к неадаптивным решениям. Способность BioLLMAgent воспроизводить паттерны импульсивного поведения и нарушений в процессе оценки вознаграждений позволяет более глубоко понять нейронные основы этих явлений и выявить потенциальные мишени для терапевтического воздействия. Благодаря этому, модель предоставляет уникальную возможность исследовать влияние различных когнитивных факторов на психическое здоровье и разрабатывать более эффективные стратегии профилактики и лечения.

Система BioLLMAgent предоставляет уникальную возможность моделирования процессов отсроченного вознаграждения и гиперболического дисконтирования, что позволяет глубже понять нейронные механизмы, лежащие в основе оценки вознаграждений. Данный подход позволяет исследовать, как мозг оценивает будущие выгоды по сравнению с немедленными, и как эта оценка влияет на принятие решений. Моделирование этих когнитивных искажений, таких как предпочтение немедленного вознаграждения даже если оно меньше в долгосрочной перспективе, открывает новые перспективы для изучения патофизиологии различных расстройств, включая зависимости и импульсивное поведение. Благодаря возможности количественно оценить влияние различных параметров на процесс дисконтирования, BioLLMAgent способствует разработке более точных нейробиологических моделей, объясняющих индивидуальные различия в оценке вознаграждений и предсказывающих склонность к рискованному поведению.

В рамках разработанной системы BioLLMAgent стало возможным моделирование терапевтических вмешательств, основанных на принципах когнитивно-поведенческой терапии (КПТ). Этот подход позволяет имитировать процесс изменения дисфункциональных моделей мышления и поведения, характерных для различных психических расстройств. Система позволяет варьировать параметры, соответствующие техникам КПТ, таким как когнитивная реструктуризация или экспозиционная терапия, и наблюдать за их влиянием на моделируемое поведение. Такая интеграция открывает перспективы для разработки персонализированных стратегий лечения, адаптированных к индивидуальным особенностям пациента и специфике его расстройства. В результате, возможно не только углубленное понимание механизмов действия КПТ, но и повышение эффективности терапевтических вмешательств посредством оптимизации стратегий и прогнозирования результатов.

Предлагаемый подход открывает новые возможности для разработки и валидации вычислительных моделей психических расстройств, способствуя созданию более эффективных методов диагностики и лечения. Особое значение имеет продемонстрированная высокая идентифицируемость модели: корреляция с ключевыми когнитивными параметрами в рамках используемого механизма обучения с подкреплением превышает 0.67. Более того, наблюдается высокая корреляция, достигающая 0.84, в отношении предпочтения частоты и персеверации — важных аспектов когнитивного функционирования, нарушение которых часто наблюдается при различных психических заболеваниях. Такая точность позволяет не только лучше понимать механизмы развития этих расстройств, но и создавать персонализированные терапевтические стратегии, основанные на моделировании индивидуальных когнитивных особенностей.

Клинические группы демонстрируют более низкий начальный уровень выбора с задержкой, но более выраженную зависимость от ω, что перекликается с результатами IGT, а когнитивно-поведенческая терапия значительно улучшает их показатели ([+60%]), подтверждая универсальность предложенного механизма обучения.

Исследование, представленное в данной работе, демонстрирует стремление к созданию моделей, способных не просто воспроизводить поведение, но и отражать лежащие в его основе механизмы. Этот подход находит глубокий отклик в словах Роберта Тарьяна: «Пусть N стремится к бесконечности — что останется устойчивым?». В контексте BioLLMAgent, устойчивость проявляется в способности модели сохранять структурную интерпретируемость даже при усложнении задачи, что критически важно для понимания процессов принятия решений в вычислительной психиатрии. Гибридная архитектура, объединяющая обучение с подкреплением и большие языковые модели, позволяет достичь этой устойчивости, обеспечивая не только поведенческую реалистичность, но и возможность анализа внутренних представлений агента.

Что дальше?

Представленная работа, хотя и демонстрирует элегантность гибридного подхода к моделированию процессов принятия решений, лишь обнажает глубинную проблему: недостаточность формальной базы для описания когнитивных механизмов. Использование больших языковых моделей, безусловно, позволяет достичь поведенческой реалистичности, однако эта реалистичность остаётся эмпирической, лишенной строгой математической основы. По сути, мы заменяем одно приближение другим, не приближаясь к истинному пониманию.

Будущие исследования должны быть направлены на разработку формальных теорий, способных интегрировать возможности языковых моделей с принципами обучения с подкреплением, не жертвуя при этом доказательностью. Ключевым направлением представляется создание алгоритмов, способных не только имитировать поведение, но и объяснять его, раскрывая внутреннюю логику принятия решений. Иначе говоря, необходимо стремиться к созданию моделей, которые можно не просто проверить на тестах, но и доказать их корректность.

Вопрос о структурной интерпретируемости, хотя и заявлен как важный, требует дальнейшей проработки. Достаточно ли просто визуализировать внутренние состояния модели? Необходимо разработать метрики, позволяющие объективно оценить степень соответствия между внутренней структурой модели и нейрофизиологическими данными. В конечном итоге, красота алгоритма определяется не его способностью «работать», а его математической чистотой и непротиворечивостью.

Оригинал статьи: https://arxiv.org/pdf/2603.05016.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-07 07:05

🚀 Квантовые новости