Обучение с подкреплением: новый взгляд на самообучение

Автор: Денис Аветисян


Исследователи предлагают инновационный подход к обучению с подкреплением, использующий богатую, детальную обратную связь для повышения эффективности и улучшения результатов в сложных задачах.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Модель самообучается, интегрируя историю взаимодействия непосредственно в свои параметры посредством самодистилляции: вместо расширения контекстного окна, она корректирует свои веса [latex]\theta_{t}\to\theta_{t+1}[/latex] на основе обратной связи при решении фиксированной задачи, эффективно
Модель самообучается, интегрируя историю взаимодействия непосредственно в свои параметры посредством самодистилляции: вместо расширения контекстного окна, она корректирует свои веса \theta_{t}\to\theta_{t+1} на основе обратной связи при решении фиксированной задачи, эффективно «закрепляя» полученный опыт и улучшая политику \pi_{\theta}(\cdot\mid x,c) в политику \pi_{\theta^{\prime}}(\cdot\mid x) с использованием SDPO (пакетный размер 11).

Представлен алгоритм SDPO, использующий самодистилляцию и токенизированную обратную связь для обучения с подкреплением с богатой обратной связью (RLRF).

Несмотря на успехи обучения с подкреплением в верифицируемых областях, существенные ограничения накладывает проблема атрибуции вознаграждения при использовании только скалярной обратной связи. В работе, озаглавленной ‘Reinforcement Learning via Self-Distillation’, предложен новый подход к обучению с подкреплением, использующий богатую текстовую обратную связь, например, сообщения об ошибках или оценки судей, для повышения эффективности и производительности. В основе метода Self-Distillation Policy Optimization (SDPO) лежит идея использования текущей модели в качестве «само-учителя» и дистилляции информации из обратной связи непосредственно в политику. Позволит ли это использовать весь потенциал больших языковых моделей в сложных задачах, требующих рассуждений и адаптации?


Сложность Редкого Вознаграждения: Препятствие в Обучении с Подкреплением

Традиционные алгоритмы обучения с подкреплением испытывают значительные трудности в задачах, требующих планирования на длительный период. Суть проблемы заключается в нечастых или отложенных сигналах вознаграждения: когда полезный результат достигается лишь спустя множество шагов, алгоритму сложно установить связь между отдельными действиями и итоговым успехом. Представьте себе обучение робота сложной последовательности действий — если вознаграждение предоставляется только по завершении всей последовательности, алгоритм не сможет эффективно определить, какие шаги были полезными, а какие — нет. Это приводит к замедлению обучения и снижению эффективности в сложных средах, где требуется последовательное принятие решений для достижения долгосрочных целей.

Проблема атрибуции награды, заключающаяся в определении того, какие конкретно действия привели к конечному результату, существенно замедляет процесс обучения в сложных средах. В ситуациях, когда положительное подкрепление выдается лишь в конце долгой последовательности действий, алгоритмам машинного обучения становится крайне трудно понять, какие шаги оказались решающими для достижения успеха. Эта сложность особенно остро проявляется в задачах, требующих планирования и долгосрочной стратегии, поскольку алгоритм должен эффективно распространять сигнал награды назад во времени, чтобы правильно оценить ценность каждого действия. Неспособность точно атрибутировать награду приводит к неэффективному исследованию среды и замедляет сходимость алгоритма, что делает обучение в сложных условиях значительно более трудоемким и ресурсозатратным.

Существующие методы обучения с подкреплением, такие как Group Relative Policy Optimization (GRPO), служат отправной точкой для решения задач с редким вознаграждением, однако демонстрируют ограниченную эффективность в максимизации обучающих сигналов. В ходе исследований было установлено, что GRPO достигает итоговой точности в 64.1%, что уступает более продвинутому алгоритму SDPO, показывающему результат в 68.8%. Данное различие подчеркивает необходимость разработки новых подходов, способных более эффективно использовать ограниченные сигналы вознаграждения и повышать общую производительность обучения в сложных средах. Повышение точности даже на несколько процентов может существенно повлиять на практическое применение алгоритмов обучения с подкреплением в различных областях, от робототехники до игр.

Результаты показывают, что плотное распределение вознаграждения в алгоритме SDPO дополняет преимущества богатой обратной связи в RLRF, позволяя даже последовательному SDPO значительно превосходить GRPO, а также демонстрируют, что самообучающийся агент улучшает свои показатели в процессе обучения, превосходя точность начального учителя.
Результаты показывают, что плотное распределение вознаграждения в алгоритме SDPO дополняет преимущества богатой обратной связи в RLRF, позволяя даже последовательному SDPO значительно превосходить GRPO, а также демонстрируют, что самообучающийся агент улучшает свои показатели в процессе обучения, превосходя точность начального учителя.

SDPO: Плотное Вознаграждение через Самообучение

Метод оптимизации политики самодистилляции (SDPO) использует концепцию “самоучителя” для обеспечения плотного назначения вознаграждений, эффективно направляя процесс обучения. Вместо редких сигналов вознаграждения, как в традиционных методах обучения с подкреплением, SDPO генерирует плотные сигналы, основанные на сравнении действий студенческой и учительской политик. Учительская политика, являясь копией студенческой, но прошедшей дополнительную обработку, предоставляет более детальную информацию о качестве действий, позволяя студенческой политике быстрее адаптироваться и улучшать свою производительность. Такой подход позволяет более эффективно исследовать пространство действий и избегать локальных оптимумов, что приводит к ускорению обучения и повышению качества итоговой политики.

Метод самообучения в SDPO использует принцип обучения в контексте (in-context learning) для передачи знаний от “учителя” к “ученику”. “Учитель”, являясь более опытной политикой, интерпретирует обратную связь и формирует сигналы, направленные на улучшение “ученика”. Это достигается путём анализа действий “ученика” и предоставления информации о том, какие действия привели к успеху или неудаче, без явного указания оптимального поведения. В результате, “ученик” быстрее адаптируется и сходится к оптимальной политике, поскольку использует информацию, представленную в контексте текущей ситуации, а не только общие правила или вознаграждения.

В SDPO (Self-Distillation Policy Optimization) для оценки расхождения между политиками «ученика» и «учителя» используются метрики, такие как дивергенция Кулбака-Лейблера (KL Divergence) и логарифмическая вероятность (Log-Probability). Дивергенция KL измеряет разницу в распределениях вероятностей, выдаваемых обеими политиками, а Log-Probability позволяет оценить уверенность каждой политики в своих действиях. Количественная оценка этих различий позволяет алгоритму более эффективно направлять процесс обучения «ученика», что приводит к сокращению длины генерируемых последовательностей до 7 раз по сравнению с GRPO (Gradient-based Reinforcement Policy Optimization).

В SDPO плотное распределение вознаграждения достигается за счет самообучения, позволяя модели (Qwen3-8B) выявлять ошибки и корректировать распределение вероятностей по токенам (отображается как <span class="katex-eq" data-katex-display="false"> \log(\nicefrac{{\mathbb{P}\left(\text{self-teacher}\right)}}{{\mathbb{P}\left(\text{student}\right)}}) </span> - красным обозначены расхождения, синим - подтверждение, белым - нейтральные значения) и предлагать альтернативные решения, в отличие от GRPO, которое присваивает одинаковое отрицательное вознаграждение всем токенам.
В SDPO плотное распределение вознаграждения достигается за счет самообучения, позволяя модели (Qwen3-8B) выявлять ошибки и корректировать распределение вероятностей по токенам (отображается как \log(\nicefrac{{\mathbb{P}\left(\text{self-teacher}\right)}}{{\mathbb{P}\left(\text{student}\right)}}) — красным обозначены расхождения, синим — подтверждение, белым — нейтральные значения) и предлагать альтернативные решения, в отличие от GRPO, которое присваивает одинаковое отрицательное вознаграждение всем токенам.

Эмпирическая Валидация на LiveCodeBench

Для оценки эффективности алгоритма SDPO использовался LiveCodeBench — эталонный набор задач по программированию, специально разработанный для тестирования алгоритмов обучения с подкреплением. LiveCodeBench включает в себя разнообразные задачи, требующие от агента генерации и отладки кода для достижения заданных целей. Набор данных позволяет проводить объективное сравнение различных подходов к обучению агентов, способных решать задачи кодирования, и служит платформой для оценки обобщающей способности и эффективности новых алгоритмов, таких как SDPO.

В ходе оценки SDPO на LiveCodeBench, эталонном наборе задач по программированию для оценки алгоритмов обучения с подкреплением, были получены результаты, демонстрирующие значительное превосходство над базовыми методами, такими как GRPO. SDPO достигла итоговой точности в 68.8%, в то время как GRPO показала результат в 64.1%. Кроме того, на задачах, связанных с химией, SDPO обеспечила десятикратное увеличение скорости выполнения по сравнению с GRPO.

Улучшение производительности, наблюдаемое в SDPO, обусловлено механизмом плотного назначения вознаграждений (dense credit assignment). В отличие от разреженных систем, где вознаграждение получает только завершающее действие, данный механизм позволяет агенту получать сигналы о ценности каждого действия в процессе выполнения задачи. Это обеспечивает более быструю идентификацию и усиление эффективных действий, поскольку агент не полагается на редкие и отложенные сигналы вознаграждения, что значительно ускоряет обучение и повышает точность выполнения задач, особенно в сложных сценариях, таких как задачи из области химии.

Алгоритм SDPO значительно превосходит улучшенную версию Group Relative Policy Optimization (GRPO) на LCB v6 с использованием Qwen3-8B, достигая конечной точности GRPO в 4 раза быстрее, при этом Claude Sonnet 4 остается лидером среди публичных моделей на LCBv6, о чем свидетельствует стандартное отклонение, рассчитанное по 3 запускам.
Алгоритм SDPO значительно превосходит улучшенную версию Group Relative Policy Optimization (GRPO) на LCB v6 с использованием Qwen3-8B, достигая конечной точности GRPO в 4 раза быстрее, при этом Claude Sonnet 4 остается лидером среди публичных моделей на LCBv6, о чем свидетельствует стандартное отклонение, рассчитанное по 3 запускам.

Ускорение Открытий с Тест-Тайм Самодистилляцией

В рамках усовершенствования алгоритма SDPO была применена методика самодистилляции во время тестирования, позволяющая модели непрерывно уточнять свои знания непосредственно в процессе оценки на сложных задачах. Данный подход использует “само-учителя” для передачи накопленных знаний, что способствует формированию более устойчивой и адаптивной стратегии решения. По сути, модель обучается на собственных ответах, получая обратную связь в реальном времени и корректируя свои действия, что особенно эффективно при работе с трудными вопросами и ограниченными сигналами вознаграждения. Это позволяет значительно повысить эффективность обнаружения решений и улучшить общую производительность системы.

В рамках данной методики используется концепция «само-учителя» для эффективной дистилляции полученных знаний. Этот процесс позволяет модели непрерывно извлекать и закреплять наиболее ценную информацию, полученную в ходе решения сложных задач. В результате формируется не просто более точная, но и существенно более устойчивая и приспособляемая политика, способная эффективно функционировать в условиях неопределенности и изменчивости входных данных. Такая дистилляция знаний позволяет модели обобщать полученный опыт и применять его к новым, ранее не встречавшимся ситуациям, значительно повышая её общую производительность и надёжность.

Результаты экспериментов демонстрируют значительное повышение эффективности поиска решений на сложных задачах благодаря применению предложенного метода. Показатель Discovery@k достиг 53.2%, что существенно превосходит 35.6%, полученные при использовании стратегии best-of-k sampling, и 41.5% при multi-turn sampling. Особенно примечательно, что подобный прирост достигается даже при использовании простых сигналов двоичной награды, что указывает на способность модели к адаптации и эффективному обучению в условиях ограниченной информации. Это свидетельствует о перспективности подхода для решения задач, требующих поиска оптимальных решений в сложных и неоднозначных ситуациях.

Самодистилляция в процессе решения задач показала, что SDPO значительно быстрее находит успешные решения по сравнению с базовой моделью и многооборотным подходом, особенно заметно на примере вопроса Q3, где SDPO обнаружил решение после 321 попытки, в то время как другие подходы не смогли найти его даже при бюджете в 2750 попыток, что подтверждается средними значениями и 90% доверительными интервалами по 5 случайным начальным значениям для каждого вопроса.
Самодистилляция в процессе решения задач показала, что SDPO значительно быстрее находит успешные решения по сравнению с базовой моделью и многооборотным подходом, особенно заметно на примере вопроса Q3, где SDPO обнаружил решение после 321 попытки, в то время как другие подходы не смогли найти его даже при бюджете в 2750 попыток, что подтверждается средними значениями и 90% доверительными интервалами по 5 случайным начальным значениям для каждого вопроса.

Исследование демонстрирует стремление к элегантности в обучении с подкреплением. Авторы предлагают подход, основанный на самодистилляции и токенизированной обратной связи, что позволяет алгоритму SDPO эффективно решать сложные задачи рассуждения. Этот метод, по сути, стремится к сжатию информации без потерь, выделяя наиболее значимые аспекты для обучения. Как однажды заметил Карл Фридрих Гаусс: «Если бы я мог, я бы избавился от всего, кроме математики». В данном случае, алгоритм стремится к аналогичной чистоте, устраняя избыточность в процессе обучения и концентрируясь на существенных сигналах обратной связи, что особенно важно при решении задач, требующих сложного анализа и принятия решений.

Куда Далее?

Представленный подход, хотя и демонстрирует улучшение в задачах, требующих сложного рассуждения, лишь приоткрывает дверь. Истинная проблема не в оптимизации политики, а в самой природе вознаграждения. Токенизированная обратная связь — это, скорее, способ перевести язык задачи на язык, понятный алгоритму, чем решение проблемы кредитного назначения. Остается открытым вопрос: возможно ли вообще создать универсальную метрику “хорошего” поведения, или каждая задача требует собственной, тщательно разработанной системы вознаграждений?

В дальнейшем, необходимо сосредоточиться не на увеличении объема обратной связи, а на её качестве и осмысленности. Попытки “обучить” алгоритм понимать контекст и намерения — задача, требующая принципиально новых подходов. Погоня за более сложными моделями, вероятно, приведет лишь к увеличению вычислительных затрат и усложнению интерпретации результатов. Простота — вот что должно быть целью.

Будущие исследования должны быть направлены на разработку алгоритмов, способных к самоанализу и коррекции собственных ошибок, а не полагающихся исключительно на внешнюю обратную связь. Иначе, рискуем создать системы, способные лишь имитировать разум, но не обладающие им в действительности. Возможно, ключ к успеху лежит не в машинном обучении, а в машинном понимании.


Оригинал статьи: https://arxiv.org/pdf/2601.20802.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-29 19:46