Обучение с подкреплением и причинность: расширяя границы обобщения

Автор: Денис Аветисян


Новое исследование демонстрирует, как обучение с подкреплением и проверяемыми наградами (RLVR) в сочетании с причинным выводом позволяет создавать более надежные и обобщающие модели.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Исследование посвящено задаче причинно-следственного вывода, направленной на изучение обобщающей способности алгоритмов обучения с подкреплением, где для согласованности обозначений при формулировке запросов о вмешательстве используется запись <span class="katex-eq" data-katex-display="false">p(vi(vj=c))</span>, эквивалентная <span class="katex-eq" data-katex-display="false">p(vi|do(vj=c))</span> для читателей, знакомых с нотацией Pearl (2009), и включает в себя генерацию ассоциативных, интервенционных и контрфактических запросов для оценки обобщающей способности на разных уровнях.
Исследование посвящено задаче причинно-следственного вывода, направленной на изучение обобщающей способности алгоритмов обучения с подкреплением, где для согласованности обозначений при формулировке запросов о вмешательстве используется запись p(vi(vj=c)), эквивалентная p(vi|do(vj=c)) для читателей, знакомых с нотацией Pearl (2009), и включает в себя генерацию ассоциативных, интервенционных и контрфактических запросов для оценки обобщающей способности на разных уровнях.

Работа посвящена исследованию обобщающей способности RLVR и контролируемого обучения (SFT) при решении задач причинно-следственного вывода, используя вероятностные графические модели и маргинализацию.

Несмотря на успехи больших языковых моделей в решении сложных задач, вопросы обобщающей способности методов обучения с подкреплением с проверяемыми наградами (RLVR) остаются недостаточно изученными. В работе, озаглавленной ‘Generalization of RLVR Using Causal Reasoning as a Testbed’, проведено эмпирическое исследование обобщающей способности RLVR и контролируемого обучения (SFT) на примере задач вероятностного вывода в причинно-следственных графических моделях. Полученные результаты свидетельствуют о том, что RLVR демонстрирует более высокую обобщающую способность как внутри, так и между уровнями сложности запросов, но лишь при определенных комбинациях размера модели и уровня запросов, используемых в процессе обучения. Каким образом можно оптимизировать применение RLVR для достижения максимальной эффективности и раскрытия потенциала LLM в решении задач сложного причинно-следственного вывода?


Пределы Статистического Обучения в Сложных Рассуждениях

Несмотря на значительные успехи в разработке больших языковых моделей, таких как Qwen2.5-Instruct, сложные рассуждения по-прежнему представляют собой серьезную проблему. Эти модели часто полагаются на статистические корреляции, выученные из огромных объемов данных, вместо глубокого понимания причинно-следственных связей. Это означает, что, хотя модель может успешно предсказывать ответы на основе наблюдаемых закономерностей, она испытывает трудности при решении задач, требующих анализа альтернативных сценариев или понимания последствий вмешательства. По сути, модель может видеть, что происходит, но не всегда понимает почему, что ограничивает её способность к надежному и гибкому мышлению в сложных ситуациях.

Традиционное обучение с учителем (SFT), несмотря на свою эффективность в задачах, основанных на распознавании образов, демонстрирует ограниченные возможности в обобщении за пределы наблюдаемых данных. Исследования показывают, что модели, обученные таким образом, испытывают трудности при решении задач, требующих контрфактического или интервенционного рассуждения — то есть, способности предсказывать последствия гипотетических изменений или действий. Обучение на существующих примерах не формирует у модели понимания причинно-следственных связей, а лишь выявляет статистические корреляции, что делает её неспособной надежно отвечать на вопросы типа «что если?» или оценивать влияние различных факторов на результат. Это особенно критично в ситуациях, когда необходимо принимать решения в условиях неопределенности или прогнозировать последствия новых, ранее не встречавшихся событий.

Современные подходы к машинному обучению часто демонстрируют ограниченные возможности в моделировании сложных взаимосвязей, что критически влияет на способность отвечать на контрфактические вопросы типа «что если?». Это препятствует надежному принятию решений, поскольку системы, основанные на статистических корреляциях, а не на причинно-следственных связях, могут давать неверные прогнозы при изменении условий. В частности, при столкновении с ситуациями, не отраженными в обучающей выборке, или требующими оценки последствий гипотетических действий, существующие модели зачастую не способны к адекватной оценке рисков и возможностей. Неспособность моделировать сложные взаимодействия и предсказывать последствия действий существенно ограничивает применение искусственного интеллекта в областях, требующих высокой степени надежности и ответственности, таких как медицина, финансы и автономное управление.

Результаты показывают, что с увеличением размера языковой модели (<span class="katex-eq" data-katex-display="false">LLM</span>) улучшаются как способность к рассуждениям (RLVR, красные кривые), так и общая производительность (SFT, синие кривые), причём выигрыш от масштабирования для стратегий, основанных на рассуждениях, более заметен, особенно при обучении на том же уровне данных, что и оценка (сплошные линии) по сравнению с обучением на других данных (пунктирные линии).
Результаты показывают, что с увеличением размера языковой модели (LLM) улучшаются как способность к рассуждениям (RLVR, красные кривые), так и общая производительность (SFT, синие кривые), причём выигрыш от масштабирования для стратегий, основанных на рассуждениях, более заметен, особенно при обучении на том же уровне данных, что и оценка (сплошные линии) по сравнению с обучением на других данных (пунктирные линии).

Причинно-Следственный Вывод как Основа Надежных Рассуждений

В рамках подхода к рассуждениям как к задаче причинно-следственного вывода, оценка понимания модели осуществляется посредством трех типов запросов. Ассоциативные запросы выявляют статистические зависимости между переменными. Интервенционные запросы позволяют оценить, как изменение одной переменной повлияет на другие, моделируя активное вмешательство. Наконец, контрфактические запросы позволяют анализировать, что произошло бы, если бы условия были иными, что необходимо для оценки способности модели к рассуждениям о причинах и следствиях, а не только к выявлению корреляций. Этот подход позволяет перейти от простого выявления взаимосвязей к оценке способности модели предсказывать результаты при различных сценариях.

Пробабилистические графические модели (ПГМ) предоставляют структурированный подход к представлению вероятностных взаимосвязей между переменными, являясь основой для предлагаемого фреймворка рассуждений. ПГМ используют графы, где узлы представляют переменные, а ребра — вероятностные зависимости между ними. Формально, ПГМ определяются как P(X_1, ..., X_n), где X_i — переменные, а граф отражает условные зависимости. Использование ПГМ позволяет явно моделировать как прямые, так и косвенные влияния между переменными, а также учитывать неопределенность и шум в данных. Конкретные типы ПГМ, такие как байесовские сети и марковские случайные поля, различаются способом представления условных зависимостей и применяются в зависимости от специфики задачи.

Данный подход позволяет перейти от простой констатации корреляционных связей к оценке способности модели точно предсказывать результаты при различных условиях. Традиционные методы машинного обучения часто выявляют статистические зависимости между переменными, однако не гарантируют, что изменение одной переменной приведет к предсказуемому изменению другой. Оценка способности модели к предсказанию в интервенционных сценариях, то есть при искусственном изменении входных данных, позволяет установить, действительно ли модель понимает причинно-следственные связи, а не просто фиксирует статистические закономерности. Это достигается путем моделирования и анализа контрфактических сценариев — что произошло бы, если бы входные данные были иными — и сравнения предсказаний модели с ожидаемыми результатами.

Модификации графа, выполняемые в зависимости от типа запроса - ассоциативного, интервенционного или контрфактического - позволяют выделить релевантные узлы (сплошной линией) и отбросить нерелевантные (пунктирной линией), учитывая зависимости, удалённые из-за вмешательств, и определяя релевантные узлы как предков наблюдаемой или запрошенной переменной.
Модификации графа, выполняемые в зависимости от типа запроса — ассоциативного, интервенционного или контрфактического — позволяют выделить релевантные узлы (сплошной линией) и отбросить нерелевантные (пунктирной линией), учитывая зависимости, удалённые из-за вмешательств, и определяя релевантные узлы как предков наблюдаемой или запрошенной переменной.

RLVR: Проверяемое Обучение с Подкреплением для Причинно-Следственных Задач

Мы представляем обучение с подкреплением с проверяемыми наградами (RLVR) — парадигму постобработки, предназначенную для обучения языковых моделей ответам на причинно-следственные вопросы. RLVR не предполагает изменения архитектуры модели или процесса предварительного обучения; вместо этого, уже обученная языковая модель подвергается дальнейшей оптимизации посредством алгоритмов обучения с подкреплением. Этот подход позволяет модели улучшать свои способности к рассуждению и получению ответов, основанных на причинно-следственных связях, используя механизм вознаграждения за корректные ответы на поставленные вопросы.

В RLVR для оптимизации поведения языковых моделей используются алгоритмы, такие как GRPO (Guided Reinforcement Policy Optimization) и DAPO (Differentiable Agent Policy Optimization), которые основаны на вознаграждениях, подтверждающих правильность рассуждений. Эти алгоритмы позволяют модели адаптироваться к задачам, требующим причинно-следственного анализа, путем максимизации кумулятивного вознаграждения, получаемого за корректные выводы. GRPO и DAPO используют градиентные методы для обновления параметров модели, направляя ее к решениям, которые соответствуют заданным критериям проверяемости и точности рассуждений. Вознаграждения формируются на основе верификации правильности ответов, что способствует обучению модели логическому мышлению и предотвращает генерацию недостоверных или противоречивых выводов.

В основе RLVR лежит принцип явного вознаграждения модели за корректные выводы о причинно-следственных связях. Это позволяет преодолеть ограничения, связанные с зависимостью от наблюдаемых данных, и достичь обобщения на невидимые ранее сценарии. Вместо простого воспроизведения паттернов из обучающей выборки, модель активно обучается на основе оценки правильности причинных заключений, что значительно повышает её способность решать новые задачи, требующие логического вывода и анализа, даже при отсутствии прямого прецедента в данных. Такой подход обеспечивает более надежное и гибкое решение задач, требующих понимания причинно-следственных связей.

В рамках моделей RLVR для вычисления ответов используется стратегия исключения переменных и маргинализации. Этот метод позволяет эффективно обрабатывать вероятностные распределения, возникающие при оценке причинно-следственных связей. Исключение переменных заключается в последовательном устранении переменных из совместного распределения вероятностей, что снижает вычислительную сложность. Маргинализация, в свою очередь, позволяет вычислить вероятность интересующего события путем суммирования вероятностей по всем возможным значениям других переменных. Комбинация этих двух стратегий обеспечивает возможность получения точных ответов на причинно-следственные запросы даже в сложных сценариях, требующих обработки большого объема данных и вероятностных зависимостей.

Анализ стратегии маргинализации и наличия ошибок вывода, проведенный LLM-судьей (o4-mini) до и после применения RLVR на 80 примерах каждого уровня, показал улучшение качества рассуждений и снижение количества ошибок.
Анализ стратегии маргинализации и наличия ошибок вывода, проведенный LLM-судьей (o4-mini) до и после применения RLVR на 80 примерах каждого уровня, показал улучшение качества рассуждений и снижение количества ошибок.

Оценка Причинно-Следственного Мышления с Использованием Сложных Запросов

Эксперименты, проведенные на датасете RLCausal — созданном с использованием полностью определенных причинно-следственных графов — продемонстрировали превосходство модели RLVR над SFT. RLVR показала более высокую эффективность в решении сложных задач, требующих понимания причинно-следственных связей, что указывает на её способность более точно моделировать и прогнозировать последствия различных событий. Результаты исследований подтверждают, что RLVR обладает улучшенными возможностями в области причинно-следственного рассуждения по сравнению с базовой моделью SFT, что открывает перспективы для её применения в задачах, где критически важно понимание взаимосвязей между явлениями.

Для оценки способности модели к рассуждениям о гипотетических ситуациях, исследование использует вопросы трех типов: контрфактические, интервенционные и ассоциативные. Контрфактические вопросы проверяют понимание того, что произошло бы, если бы определенные условия изменились, интервенционные — как система реагирует на преднамеренные изменения в структуре данных, а ассоциативные — способность выявлять связи между переменными. Такой подход позволяет комплексно оценить навыки модели в области причинно-следственного анализа и прогнозирования, выходя за рамки простого распознавания закономерностей и охватывая более глубокое понимание взаимосвязей между явлениями.

Для более детальной оценки способности модели к причинно-следственному анализу, наряду со строгой метрикой точного совпадения, использовалось вычисление общего расстояния вариации (Total Variation Distance). Данный показатель позволяет оценить близость предсказанных распределений вероятностей, предоставляя более тонкое представление о качестве модели, чем простое определение соответствия или несоответствия. В отличие от метрики точного совпадения, которая требует полного соответствия предсказанного ответа правильному, общее расстояние вариации учитывает степень схожести между распределениями, даже если предсказания не являются абсолютно точными. Это особенно важно при работе со сложными причинно-следственными задачами, где может существовать несколько допустимых ответов, и небольшие отклонения в предсказаниях не обязательно указывают на ошибку.

Результаты исследований демонстрируют, что модель RLVR превосходит SFT в задачах, связанных с интервенционными и ассоциативными запросами, особенно при использовании моделей с количеством параметров, превышающим 7 миллиардов. RLVR, в отличие от SFT, демонстрирует переход к стратегии инкрементальной маргинализации, что особенно заметно в более крупных моделях (7B и 32B) и при решении сложных задач. Такой подход позволяет более эффективно учитывать взаимосвязи между переменными в причинно-следственных графах, повышая точность прогнозов и улучшая способность модели к рассуждениям о гипотетических сценариях и причинно-следственных связях. Это свидетельствует о том, что RLVR обладает более продвинутыми механизмами для анализа сложных причинно-следственных структур.

Анализ точности показал, что с увеличением относительной сложности запроса <span class="katex-eq" data-katex-display="false">V_{rel}</span> растёт и точность, при этом модели, обученные с помощью обучения с подкреплением, демонстрируют более высокую точность по сравнению с моделями, обученными с помощью контролируемого обучения, особенно при ослаблении порога корректности <span class="katex-eq" data-katex-display="false"></span>t \in (0.01, 0.2]<span class="katex-eq" data-katex-display="false"></span>, что подтверждается ступенчатым характером графиков, обусловленным округлением до двух знаков.
Анализ точности показал, что с увеличением относительной сложности запроса V_{rel} растёт и точность, при этом модели, обученные с помощью обучения с подкреплением, демонстрируют более высокую точность по сравнению с моделями, обученными с помощью контролируемого обучения, особенно при ослаблении порога корректности t \in (0.01, 0.2], что подтверждается ступенчатым характером графиков, обусловленным округлением до двух знаков.

Исследование обобщения обучения с подкреплением с проверяемыми наградами (RLVR) и последующей тонкой настройки (SFT) в задачах причинно-следственного вывода демонстрирует интересную закономерность. Улучшение обобщающей способности наблюдается при наличии у языковой модели базовых навыков рассуждения и коррекции систематических ошибок. Как однажды заметил Клод Шеннон: «Информация - это не только то, что передается, но и то, что не передается». Эта фраза удивительным образом перекликается с принципами, лежащими в основе RLVR. Ведь суть подхода заключается в фильтрации шума и выделении значимой информации, необходимой для принятия обоснованных решений, а также в устранении нерелевантных данных, которые могут исказить результаты. Особенно важно отметить, что RLVR позволяет не просто оптимизировать текущую производительность, но и создать систему, способную адаптироваться к новым условиям и сохранять свою эффективность во времени.

Что впереди?

Представленная работа, исследуя обобщающую способность обучения с подкреплением и верифицируемыми наградами (RLVR) в контексте причинно-следственного вывода, лишь подсвечивает фундаментальную истину: любая система, даже та, что демонстрирует кажущуюся стабильность, подвержена деградации. Улучшение обобщающей способности при наличии базовых навыков рассуждения у языковой модели - это не триумф, а лишь временное состояние, отсрочка неизбежного. Ошибки, пусть и систематические, неизбежно накапливаются, как задержка, которую платит каждый запрос.

Будущие исследования должны сосредоточиться не на достижении идеальной точности, а на разработке систем, способных изящно справляться с собственной неполнотой. Маргинализация - полезный инструмент, но он лишь маскирует проблему, не решая её. Более глубоким вопросом является не “как улучшить обобщение?”, а “как построить системы, способные к самодиагностике и адаптации к собственному старению?”.

Стабильность - это иллюзия, кэшированная временем. Истинный прогресс заключается в принятии этой реальности и разработке систем, которые не стремятся к вечному существованию, а достойно переживают свою неизбежную эволюцию.


Оригинал статьи: https://arxiv.org/pdf/2512.20760.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-27 15:22