Самообучение разума: новый подход к обучению языковых моделей

Автор: Денис Аветисян

Исследователи предлагают инновационную методику, позволяющую повысить стабильность и эффективность больших языковых моделей при решении сложных задач.

Обучение модели Qwen3-1.7B с использованием алгоритмов SDPG-URKL и SDPG-UFKL демонстрирует превосходство над GRPO и RLSD на бенчмарках AIME24, AIME25 и AMC23 (pass@1 mean@32), при этом чистая самодистилляция OPCD проявляет нестабильность после 250 шагов, приводя к падению точности на AIME и сокращению длины ответов.

В статье представлена методика SDPG, сочетающая в себе привилегированное самообучение с использованием полного словарного запаса, формирование наград на основе результатов и регуляризацию политики.

Обучение с подкреплением для больших языковых моделей часто сталкивается с проблемой разреженности вознаграждений, затрудняющей эффективную оптимизацию. В данной работе, посвященной методу ‘Self-Distilled Policy Gradient’, предложен новый подход, сочетающий самодистилляцию с использованием привилегированного контекста и регуляризацию KL-дивергенцией для повышения стабильности и производительности. Ключевым результатом является разработка фреймворка SDPG, использующего дивергенцию Кульбака-Лейблера для точной самодистилляции на основе полной лексики, что позволяет модели обучаться на собственных генерациях. Сможет ли SDPG стать основой для создания более надежных и эффективных языковых моделей, способных решать сложные задачи рассуждения?

Преодолевая Ограничения Рассуждений в Больших Языковых Моделях

Несмотря на впечатляющую способность генерировать связные и грамматически правильные тексты, современные большие языковые модели (БЯМ) часто демонстрируют затруднения при решении задач, требующих последовательного, многошагового рассуждения. Это проявляется в ошибках при логических выводах, планировании действий или решении математических задач, где необходим не просто поиск информации, а её анализ и синтез. Данное ограничение указывает на фундаментальный недостаток в архитектуре БЯМ, которые, по сути, являются продвинутыми системами предсказания следующего слова, а не полноценными системами искусственного интеллекта, способными к глубокому пониманию и логическому мышлению. Проблема заключается в том, что модели, обученные на огромных объемах текста, усваивают статистические закономерности, но не обязательно понимают причинно-следственные связи или принципы логики.

Несмотря на впечатляющий прогресс в области больших языковых моделей, простое увеличение их размера и объема обучающих данных демонстрирует всё меньшую эффективность в решении задач, требующих сложного логического мышления. Исследования показывают, что после определенного порога, дальнейшее масштабирование модели перестает приносить существенный прирост в способности к рассуждениям, что указывает на необходимость принципиально новых подходов к обучению. Традиционные методы, основанные на статистическом анализе огромных объемов текста, оказываются недостаточными для формирования истинного понимания и способности к многоступенчатым умозаключениям. В связи с этим, научное сообщество активно исследует альтернативные парадигмы, направленные на внедрение в модели механизмов, имитирующих человеческое логическое мышление и позволяющих им не просто генерировать текст, а действительно понимать и анализировать информацию.

Обучение с использованием вариантов SDPG (особенно SDPG-UFKL) демонстрирует более высокую точность и стабильность (избегая коллапса энтропии, наблюдаемого в RLSD) по сравнению с базовыми алгоритмами на бенчмарках AIME24, AIME25 и AMC23, что подтверждается увеличением групповой относительной награды и поддержанием энтропии актёра.

Обучение с Подкреплением с Верифицируемыми Наградами: Новый Подход

Обучение с подкреплением с верифицируемыми наградами (RLVR) представляет собой перспективный подход к повышению надежности рассуждений в системах искусственного интеллекта. В отличие от традиционных методов обучения с подкреплением, где награды могут быть неточными или зашумленными, RLVR обеспечивает четкие и достоверные сигналы обратной связи во время обучения. Это достигается за счет использования механизмов верификации, гарантирующих, что награды, получаемые агентом, соответствуют истинному достижению поставленной цели. Повышенная надежность сигналов обратной связи позволяет агенту более эффективно изучать оптимальные стратегии и демонстрировать более стабильное и предсказуемое поведение, особенно в сложных и критически важных задачах.

Метод использует алгоритмы градиентной политики (Policy Gradient), которые позволяют напрямую оптимизировать стратегию агента путем оценки градиента функции награды. Для обеспечения стабильности и эффективности обучения применяется Group Relative Policy Optimization (GRPO) — модификация, снижающая дисперсию оценок градиента за счет группировки параметров политики и применения относительных обновлений. Это позволяет агенту совершать более надежные шаги в направлении улучшения стратегии, избегая резких изменений, которые могут привести к нестабильности процесса обучения и снижению производительности. GRPO особенно эффективен в задачах с высокой размерностью пространства действий и состояний, где стандартные алгоритмы градиентной политики могут столкнуться с трудностями.

Интеграция метода Importance Sampling в основу обучения с подкреплением позволяет существенно уточнить обновления политики и ускорить процесс обучения. Суть подхода заключается в взвешивании траекторий, собранных при текущей политике, с учетом вероятности их получения при оптимальной политике. Это позволяет снизить дисперсию оценок градиента, что приводит к более стабильным и эффективным обновлениям политики. Использование Importance Sampling особенно эффективно в ситуациях, когда сбор данных об оптимальной политике затруднен или невозможен, позволяя эффективно использовать данные, собранные при исследуемой политике для улучшения её производительности. Вес, присваиваемый каждой траектории, рассчитывается как отношение вероятности получения этой траектории при оптимальной политике к вероятности её получения при текущей политике, что позволяет корректировать оценки градиента и направлять обучение в более перспективные области пространства состояний.

Самодистиллированный Градиент Политики: Усиление Обучения с Передачей Знаний

Метод Self-Distilled Policy Gradient (SDPG) развивает подход RLVR путем интеграции On-Policy Distillation (OPD). В SDPG, текущая версия модели выступает в роли “учителя”, генерируя целевые значения для обучения предыдущей версии этой же модели. Этот процесс самодистилляции позволяет использовать информацию, полученную в ходе текущего эпизода, для улучшения политики в предыдущих шагах, что повышает эффективность обучения и стабилизирует процесс. По сути, OPD позволяет модели учиться на собственных, недавних результатах, тем самым используя внутренний “сигнал учителя” для улучшения производительности.

Регуляризация Kullback-Leibler (KL) в Self-Distilled Policy Gradient (SDPG) используется для стабилизации процесса обучения и предотвращения катастрофического забывания. KL-дивергенция измеряет разницу между распределением вероятностей политики студента и учителя, и добавляется к функции потерь в качестве штрафа. Это побуждает политику студента оставаться близкой к политике учителя, что помогает сохранить ранее полученные знания и предотвратить резкие изменения в поведении агента. В SDPG, KL-регуляризация позволяет эффективно передавать знания от учителя к студенту, обеспечивая более устойчивое и надежное обучение, особенно в сложных средах и задачах с разреженными наградами.

Положительная фильтрация преимуществ (Positive Advantage Gating) в Self-Distilled Policy Gradient (SDPG) направляет процесс дистилляции знаний, фокусируясь исключительно на тех предсказаниях, которые уже являются верными. Это достигается путем оценки преимущества (advantage) действий, предсказанных моделью, и использования только тех, у которых преимущество положительное. Такая стратегия позволяет более эффективно использовать ресурсы обучения, поскольку модель концентрируется на укреплении уже усвоенных знаний, а не на исправлении ошибок. В результате, SDPG демонстрирует повышенную устойчивость к переобучению и более быструю сходимость, что особенно важно в задачах с высокой размерностью пространства состояний и действий.

Исследование абляции модели Qwen3-4B показывает, что регуляризация KL (α) и полнословный член OPD (β) существенно влияют на точность (pass@1 mean@32) на наборах данных AIME24, AIME25 и AMC23, а также на вознаграждение, энтропию и длину ответа.

Эмпирическая Проверка и Производительность в Задачах Математического Рассуждения

Экспериментальные исследования с использованием моделей Qwen-3-1.7B и Qwen-3-4B продемонстрировали стабильное превосходство предложенного подхода SDPG над базовыми методами при решении задач математического рассуждения на стандартных наборах данных, таких как AIME24, AIME25 и AMC23. В частности, на наборе AIME24 SDPG достиг показателя Pass@1 в 32.8%, что на 5.8% превышает результат, продемонстрированный моделью GRPO. Данный результат свидетельствует о значительном прогрессе в автоматизации решения сложных математических задач и открывает перспективы для создания более эффективных систем поддержки обучения и научных исследований.

В ходе экспериментов с наборами данных AIME25 и AMC23, модель SDPG продемонстрировала значительное превосходство над базовым алгоритмом GRPO. На AIME25 SDPG достигла показателя Pass@1 в 35.2%, что на 5.0% выше результата GRPO. Аналогично, на AMC23 модель обеспечила 24.5% успешных решений, опередив GRPO на 3.2%. Эти результаты подтверждают эффективность подхода SDPG в решении сложных математических задач и указывают на её потенциал для дальнейшего улучшения производительности в данной области.

В процессе обучения модель SDPG демонстрирует стабильно высокую энтропию, поддерживая её в диапазоне 0.4-0.5. Это свидетельствует о способности модели генерировать разнообразные и непредсказуемые ответы, избегая застревания в локальных оптимумах. В отличие от этого, метод RLSD столкнулся с коллапсом энтропии, опустившейся ниже 0.1, что привело к снижению вариативности и потенциально ограничило способность к решению сложных задач. Помимо сохранения высокой энтропии, SDPG характеризуется генерацией связных и логичных ответов, достигающих в среднем длины около 2000 токенов, что обеспечивает достаточное пространство для детализированного обоснования решений в математических задачах.

Представленная работа демонстрирует стремление к элегантности в решении сложных задач обучения с подкреплением. Авторы предлагают подход, основанный на самодистилляции, что позволяет модели учиться на собственном опыте, избегая избыточности и повышая стабильность. Это согласуется с принципом, что истинное понимание достигается не добавлением сложности, а её сокращением. Как заметил Г.Х. Харди: «Математика — это наука о том, что можно доказать, а не о том, что можно вычислить». Данный подход, фокусируясь на эффективном использовании имеющихся данных и регуляризации политики, стремится к созданию более ясных и понятных моделей, способных к надежному решению задач рассуждения.

Что дальше?

Представленная работа, стремясь к укрощению больших языковых моделей в области обучения с подкреплением, не решает проблему сложности, а лишь переносит её в другое измерение. Самодистилляция, как и любое изящное решение, неизбежно порождает новые вопросы. Упор на регуляризацию и формирование вознаграждений, несомненно, стабилизирует процесс обучения, но не отменяет фундаментальной неопределенности в оценке «правильности» рассуждений, особенно в задачах, требующих творческого подхода. Успех метода, вероятно, зависит от тщательно подобранных гиперпараметров, а это — признак искусственности, а не фундаментального прорыва.

Будущие исследования, возможно, должны сосредоточиться не на усложнении архитектуры или алгоритмов, а на поиске более лаконичных способов представления знаний и вознаграждений. Отказ от стремления к «полному» словарю в пользу более компактных представлений может стать следующим шагом. Или, возможно, необходимо пересмотреть саму парадигму обучения с подкреплением, признав её несоответствие природе языка, который по своей сути является системой ограничений, а не бесконечных возможностей.

Совершенство, как известно, проявляется не в добавлении новых слоев, а в удалении лишних. Истинный прогресс в этой области, вероятно, будет заключаться в поиске минимально достаточной модели, способной к разумным рассуждениям, а не в создании все более сложных и непостижимых систем.

Оригинал статьи: https://arxiv.org/pdf/2606.04036.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-04 22:38

🚀 Квантовые новости