Редкие, но решающие: как ‘обучение с подкреплением’ меняет языковые модели

Автор: Денис Аветисян


Новое исследование показывает, что тонкая настройка больших языковых моделей с помощью обучения с подкреплением происходит за счет точечных изменений распределения вероятностей токенов, а не глобальной перестройки.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Обучение с подкреплением (RL) в RLVR проявляется как точечная, но значимая корректировка на уровне отдельных токенов, при этом изменения в распределении токенов, вызванные тонкой настройкой RL, остаются незначительными в большинстве позиций, затрагивая лишь небольшой подмножество токенов.
Обучение с подкреплением (RL) в RLVR проявляется как точечная, но значимая корректировка на уровне отдельных токенов, при этом изменения в распределении токенов, вызванные тонкой настройкой RL, остаются незначительными в большинстве позиций, затрагивая лишь небольшой подмножество токенов.

Анализ на уровне токенов выявил, что обучение с проверяемыми наградами фокусируется на небольшом подмножестве ключевых решений, оказывающих наибольшее влияние на результат.

Несмотря на значительные успехи обучения с подкреплением с проверяемыми наградами (RLVR) в улучшении рассуждений больших языковых моделей (LLM), механизмы, лежащие в основе этих улучшений на уровне отдельных токенов, остаются неясными. В своей работе ‘Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs’ авторы проводят систематическое эмпирическое исследование, показывающее, что RLVR вносит в LLM лишь небольшие, но критически важные изменения в распределения токенов. Анализ выявил, что тонкая настройка с помощью RL приводит к разреженным и целенаправленным модификациям, влияющим на небольшое подмножество решений, определяющих общую производительность. Каким образом более глубокое понимание этих токельных сдвигов позволит оптимизировать процесс тонкой настройки и повысить эффективность RLVR в будущем?


Поток Времени: Выявление Сдвигов в Распределении Токенов

Несмотря на то, что обучение с подкреплением с использованием проверяемых наград (RLVR) значительно улучшает способность больших языковых моделей (LLM) к логическому мышлению, процесс тонкой настройки может приводить к едва заметным, но критически важным сдвигам в вероятностях токенов. Эти изменения, хоть и кажутся незначительными, влияют на способ генерации текста моделью после обучения, потенциально изменяя ее поведение. В ходе тонкой настройки, модель адаптируется к новым данным и задачам, что неизбежно влечет за собой корректировку вероятностного распределения токенов, то есть вероятности выбора каждого следующего слова в последовательности. Понимание этих сдвигов в распределении токенов является ключевым для обеспечения стабильности и предсказуемости LLM, поскольку они могут проявляться в виде нежелательных изменений в стиле, содержании или точности генерируемого текста.

В процессе обучения с подкреплением (RL) языковых моделей, даже при использовании проверяемых наград, возникают тонкие, но существенные изменения в вероятностях токенов. Эти изменения, известные как сдвиги в распределении токенов, представляют собой расхождения между базовой моделью и её версией, прошедшей RL-настройку. В результате этих расхождений, модель может демонстрировать ухудшение производительности, особенно в задачах, требующих обобщения знаний или обработки незнакомых данных. По сути, RL-настройка, стремясь оптимизировать поведение модели в конкретных сценариях, может непреднамеренно изменить её внутреннее представление языка, влияя на способность генерировать связный и логичный текст в более широком контексте. Выявление и количественная оценка этих сдвигов необходимы для обеспечения надежности и стабильности работы языковой модели.

Для количественной оценки изменений в распределении вероятностей токенов, возникающих в процессе обучения с подкреплением, используется метрика, известная как расхождение Дженсена-Шеннона JSD. Данный показатель позволяет точно определить области, в которых поведение модели после обучения с подкреплением значительно отклоняется от исходной модели. Проведенный анализ выявил, что существенное расхождение наблюдается лишь для 5-10% от общего числа токенов, что указывает на то, что процесс обучения с подкреплением, как правило, сохраняет большую часть исходного распределения вероятностей, внося изменения лишь в относительно небольшие области языкового пространства.

Понимание выявленных изменений в распределении токенов является фундаментальным шагом к смягчению нежелательных последствий при обучении с подкреплением больших языковых моделей. Анализ этих сдвигов позволяет выявить потенциальные области, где процесс обучения с подкреплением отклоняется от исходных возможностей модели, что может привести к снижению производительности или непредсказуемому поведению. Идентифицируя и количественно оценивая эти отклонения, исследователи могут разработать стратегии для стабилизации процесса обучения, повышения надежности модели и обеспечения более предсказуемых и контролируемых результатов. В конечном итоге, глубокое понимание этих изменений открывает путь к созданию более устойчивых и надежных языковых моделей, способных эффективно функционировать в различных условиях и задачах.

Результаты анализа расхождений JS между подходами RLVR и контролируемой тонкой настройки на наборе данных AIME 2024 показывают, что RLVR обеспечивает более целенаправленную оптимизацию благодаря более разреженным сдвигам распределения.
Результаты анализа расхождений JS между подходами RLVR и контролируемой тонкой настройки на наборе данных AIME 2024 показывают, что RLVR обеспечивает более целенаправленную оптимизацию благодаря более разреженным сдвигам распределения.

Ключевые Токены: Области Наибольшего Расхождения

В процессе обучения с подкреплением (RL) не все токены в модели претерпевают одинаковые изменения в вероятностных распределениях. Определенные токены демонстрируют значительно более высокую степень расхождения (divergence) между базовой моделью и моделью, прошедшей RL-тонкую настройку. Эти токены, названные “Токенами Высокого Расхождения”, характеризуются существенным изменением вероятности их генерации после обучения с подкреплением. Высокая степень расхождения указывает на то, что эти токены играют ключевую роль в адаптации модели к поставленной задаче и определяют изменения в её поведении.

Высокодивергентные токены представляют собой участки в распределении вероятностей, где наблюдаются существенные изменения после обучения с подкреплением. Это указывает на то, что эти конкретные токены играют непропорционально важную роль в формировании поведения модели в процессе освоения новой задачи. Изменения в вероятностях этих токенов отражают наиболее значимые корректировки, внесенные в модель в результате обучения с подкреплением, и, следовательно, влияют на ее способность генерировать желаемые результаты. Анализ этих токенов позволяет выявить ключевые аспекты, которые модель переучивает или адаптирует для улучшения производительности.

Для оценки функциональной значимости токенов с высокой степенью расхождения применяется метод кросс-сэмплирования (Cross-Sampling). Суть метода заключается в замене токенов в генерируемом тексте базовой модели соответствующими токенами из модели, обученной с помощью обучения с подкреплением (RL), и наоборот. Анализ изменений в производительности модели (например, в точности) после такой замены позволяет определить, насколько критичны конкретные токены для достижения улучшенных результатов. Если замена токенов из RL-модели приводит к снижению производительности, это указывает на их важность для решения поставленной задачи, и наоборот.

Результаты экспериментов показали, что целенаправленное вмешательство в распределения вероятностей токенов с высокой степенью расхождения (High-Divergence Tokens) позволяет эффективно восстанавливать или, наоборот, нивелировать прирост производительности, достигнутый в процессе обучения с подкреплением. В частности, при использовании метода forward cross-sampling на наборе данных AIME 2024 удалось добиться улучшения точности до ~20% за счет замены токенов в сгенерированном тексте на соответствующие токены из базовой модели, что демонстрирует критическую роль этих токенов в процессе адаптации модели к новой задаче.

Анализ показывает, что при сравнении наборов из k наиболее вероятных токенов в базовой и RL-моделях в позициях, где наблюдается расхождение, степень перекрытия превышает 80% (при k ≥ 2). Это указывает на то, что изменения в вероятностях токенов, вызванные RL-обучением, происходят преимущественно внутри общего набора кандидатов, а не за счет появления совершенно новых токенов. Иными словами, модель не столько «учится» новым словам, сколько перераспределяет вероятности между уже известными ей вариантами в критических точках.

Анализ показал, что большинство токенов, выбранных обучением с подкреплением, уже имели высокие ранги в базовой модели, особенно при использовании SimpleRL, что указывает на склонность к выбору вероятных продолжений.
Анализ показал, что большинство токенов, выбранных обучением с подкреплением, уже имели высокие ранги в базовой модели, особенно при использовании SimpleRL, что указывает на склонность к выбору вероятных продолжений.

Контроль над Поведением: Перекрестная Выборка и Восстановление Производительности

Метод обратной перекрестной выборки (Reverse Cross-Sampling) заключается в замене токенов, сгенерированных моделью с обучением с подкреплением (RL), на токены, сгенерированные базовой моделью. Этот процесс позволяет выявить ухудшение производительности, напрямую количественно оценивая вклад токенов, измененных в результате RL-обучения. Сравнивая метрики производительности модели с RL-токенами и с заменой на базовые токены, можно точно определить, насколько RL-обучение улучшает или ухудшает конкретные аспекты генерации. Этот анализ позволяет оценить эффективность RL-обучения и выявить потенциальные проблемы, связанные с использованием измененных токенов.

Метод прямой перекрестной выборки (Forward Cross-Sampling) заключается во внедрении токенов, сгенерированных моделью, обученной с подкреплением (RL), в базовую модель, не подвергавшуюся RL-обучению. Результаты показывают, что данная процедура позволяет восстановить уровень производительности, достигнутый после RL-обучения. Это подтверждает наше понимание влияния RL-токенов на поведение модели и демонстрирует, что RL-обучение в основном оптимизирует процесс выбора токенов, а не принципиально изменяет возможности базовой модели. Восстановление производительности при прямой перекрестной выборке служит валидацией предложенного подхода к анализу и контролю поведения модели.

Стратегическая замена токенов позволяет получить детальный контроль над поведением модели, что обеспечивает возможность изолировать и устранять конкретные проблемы с производительностью. Методика, основанная на последовательной замене токенов, полученных с помощью обучения с подкреплением (RL), на базовые токены, и наоборот, позволяет количественно оценить вклад каждого токена в общую производительность модели. Этот подход дает возможность выявить токены, которые негативно влияют на производительность, а также те, которые способствуют улучшению, что необходимо для оптимизации и повышения надежности модели в различных сценариях применения.

Анализ показывает, что RLVR (Reinforcement Learning from Visual Representations) редко существенно повышает вероятность токенов, которые изначально были крайне маловероятны для базовой модели. Около 5% токенов, занимающих первое место в рейтинге предсказаний модели, обученной с помощью RL, имели вероятность ниже 0.01 в исходной, необученной модели. Данный факт указывает на то, что RLVR в основном усиливает уже существующие тенденции в базовой модели, а не генерирует принципиально новые, ранее невозможные предсказания.

Эксперименты с кросс-сэмплированием (DAPO на AIME 2025) показали, что постепенное добавление RL-токенов в базовую генерацию восстанавливает точность обучения с подкреплением, в то время как замена RL-токенов базовыми приводит к устойчивому снижению производительности до уровня базовой модели.
Эксперименты с кросс-сэмплированием (DAPO на AIME 2025) показали, что постепенное добавление RL-токенов в базовую генерацию восстанавливает точность обучения с подкреплением, в то время как замена RL-токенов базовыми приводит к устойчивому снижению производительности до уровня базовой модели.

Оптимизация Тонкой Настройки: Взвешенное Преимущество Расхождения

Предложена методика взвешивания преимуществ по степени расхождения (Divergence-Weighted Advantage), которая масштабирует преимущества на уровне отдельных токенов, основываясь на величине расхождения между предсказаниями модели и эталонными данными. Этот подход позволяет сосредоточить процесс обучения на наиболее критичных участках входной последовательности, где модель проявляет наибольшую неуверенность или допускает значительные ошибки. Вместо равномерного обновления весов, обучение акцентируется на токенах, демонстрирующих наибольшее расхождение, что способствует более эффективному использованию вычислительных ресурсов и ускоряет сходимость модели. Данная стратегия позволяет модели более эффективно усваивать сложные закономерности и улучшать общую производительность, поскольку обучение ориентировано на области, требующие наибольшей корректировки.

Для повышения эффективности обучения больших языковых моделей используется нелинейное преобразование расхождений между предсказаниями и истинными значениями посредством сигмоидной функции. Этот подход позволяет взвешивать вклад каждого токена, избегая доминирования токенов с экстремальными расхождениями. σ(x) = \frac{1}{1 + e^{-x}} — такая функция обеспечивает плавный переход от низких к высоким значениям, гарантируя, что обучение сосредоточено на наиболее информативных токенах, но при этом избегает чрезмерной чувствительности к отдельным, выбросам. Благодаря этому, процесс обучения становится более стабильным и эффективным, что приводит к улучшению общей производительности модели и повышению её устойчивости к различным входным данным.

В процессе тонкой настройки больших языковых моделей (LLM) особое внимание уделяется эффективности обучения и достижению оптимальной производительности. Исследования показывают, что концентрация усилий на токенах, демонстрирующих наибольшее расхождение между предсказаниями модели и фактическими данными, позволяет значительно улучшить результаты. Приоритезация обучения на этих «проблемных» токенах позволяет модели быстрее адаптироваться и осваивать сложные закономерности в данных. Такой подход не только повышает общую точность, но и способствует более эффективному использованию вычислительных ресурсов, сокращая время, необходимое для достижения желаемого уровня производительности. Оптимизация обучения путем фокусировки на токенах с высоким расхождением является перспективным направлением в развитии LLM, позволяющим создавать более надежные и эффективные модели.

Экспериментальные исследования показали, что применение метода Divergence-Weighted Advantage позволяет добиться повышения точности моделей до 2-3%. Этот прирост достигается за счет фокусировки процесса обучения на наиболее критичных токенах, где наблюдается наибольшее расхождение между предсказаниями модели и эталонными данными. В ходе тестирования, предложенный подход продемонстрировал стабильное улучшение метрик качества на различных задачах, подтверждая его эффективность в оптимизации процесса тонкой настройки больших языковых моделей и способствуя созданию более надежных и точных систем обработки естественного языка.

Анализ данных AIME 2024 показывает, что у моделей, обученных с использованием RLVR, доля расходящихся токенов, выбранных RL с низкой базовой вероятностью, значительно меньше, чем у моделей, обученных только SFT.
Анализ данных AIME 2024 показывает, что у моделей, обученных с использованием RLVR, доля расходящихся токенов, выбранных RL с низкой базовой вероятностью, значительно меньше, чем у моделей, обученных только SFT.

Будущие Направления: Надежные LLM для Сложных Задач

Анализ, проведенный на наборах данных AIME 2024 и AIME 2025, подтвердил критическую важность понимания и контроля изменений в распределении токенов при работе с большими языковыми моделями. Нестабильность на уровне отдельных токенов может приводить к непредсказуемым результатам и снижению надежности моделей, особенно при решении сложных задач. Исследование выявило, что незначительные сдвиги в вероятностях появления токенов способны значительно повлиять на качество генерируемого текста и точность ответов. Контроль над этими изменениями позволяет повысить устойчивость моделей к различным входным данным и обеспечить более предсказуемое поведение, что является ключевым фактором для их применения в реальных условиях и задачах, требующих высокой степени надежности.

Предстоящие исследования направлены на расширение применимости разработанного подхода к более сложным задачам и масштабным языковым моделям. В частности, планируется оценить эффективность предложенного фреймворка в сценариях, требующих глубокого понимания контекста и генерации развернутых, логически связных ответов, таких как автоматическое создание научных статей или разработка сложных диалоговых систем. По мере увеличения размеров моделей и сложности решаемых задач, контроль над распределением токенов приобретает критическое значение для обеспечения стабильности и предсказуемости их поведения. Ожидается, что дальнейшее развитие этого направления позволит значительно расширить границы возможностей больших языковых моделей и откроет новые перспективы для их применения в различных областях науки и техники.

Предвидится будущее, в котором большие языковые модели (LLM) будут не только обладать впечатляющей мощностью, но и демонстрировать предсказуемость и надёжность в решении сложных задач реального мира. Это предполагает переход от простого увеличения масштаба моделей к разработке механизмов, обеспечивающих стабильную и понятную работу даже в условиях неполных или противоречивых данных. Разработка таких LLM позволит использовать их в критически важных областях, таких как медицина, финансы и автономное управление, где необходима уверенность в правильности и последовательности принимаемых решений. Подобные системы, способные действовать с уверенностью и предоставлять объяснимые результаты, откроют новые возможности для применения искусственного интеллекта и укрепят доверие к нему со стороны общества.

Приоритетное внимание к надёжности и управляемости больших языковых моделей (LLM) открывает путь к реализации их полного потенциала и построению будущего, основанного на интеллектуальном и заслуживающем доверие искусственном интеллекте. Усилия, направленные на повышение устойчивости LLM к изменениям в данных и обеспечение предсказуемости их поведения, позволят создавать системы, способные решать сложные задачи в реальном мире с высокой степенью уверенности. Такой подход не только расширит спектр применимости LLM, но и укрепит доверие к ним как к надёжным инструментам для принятия решений в критически важных областях, формируя будущее, в котором искусственный интеллект является неотъемлемой частью повседневной жизни и способствует прогрессу во всех сферах деятельности.

Эксперименты с кросс-сэмплированием (DAPO на AIME 2025) показали, что постепенное добавление RL-токенов в базовую генерацию восстанавливает точность обучения с подкреплением, в то время как замена RL-токенов базовыми приводит к устойчивому снижению производительности до уровня базовой модели.
Эксперименты с кросс-сэмплированием (DAPO на AIME 2025) показали, что постепенное добавление RL-токенов в базовую генерацию восстанавливает точность обучения с подкреплением, в то время как замена RL-токенов базовыми приводит к устойчивому снижению производительности до уровня базовой модели.

Исследование показывает, что процесс обучения больших языковых моделей с подкреплением, как правило, фокусируется на точечных изменениях в распределении токенов, а не на масштабных преобразованиях. Этот подход напоминает мудрую систему, которая не пытается бороться с энтропией, а адаптируется к ней. Как отмечал Пол Эрдёш: «В математике нет трава, только бесконечные болота.». Эта фраза, хотя и относится к математике, отражает суть работы: даже в кажущемся хаосе (распределении токенов) можно найти ключевые, критически важные элементы, которые и определяют траекторию развития системы. Подобно тому, как математик исследует бесконечное пространство, данная работа сосредотачивается на выявлении наиболее значимых токенов, определяющих функциональную важность модели.

Что дальше?

Исследование демонстрирует, что обучение с подкреплением больших языковых моделей — это не всеобщее перекраивание вероятностных ландшафтов, а скорее точечные вмешательства в критические узлы принятия решений. Это напоминает работу опытного часовщика: не переплавлять механизм целиком, а аккуратно подгонять отдельные шестерёнки. Вопрос в том, насколько эта «разреженность» является фундаментальным свойством обучения, а не артефактом текущих методов и архитектур. Необходимо глубже исследовать, какие именно «шестерёнки» оказываются наиболее значимыми и как предсказывать их функциональную важность априори.

Представленные результаты, безусловно, указывают на необходимость пересмотра метрик оценки. Если изменения концентрируются в узком подмножестве токенов, то традиционные показатели, усредняющие производительность по всему корпусу, могут маскировать существенные улучшения в ключевых областях. Необходимо разрабатывать инструменты, способные выявлять и измерять эти точечные улучшения, подобно тому, как геолог ищет признаки редких минералов в горной породе.

В конечном счете, задача состоит не в том, чтобы научить модель выдавать статистически правдоподобные ответы, а в том, чтобы обеспечить её устойчивость к изменениям в окружающей среде. Система, подобно любому сложному организму, стареет и изнашивается. Вопрос лишь в том, сможет ли она адаптироваться к новым условиям, сохраняя функциональность, или же будет обречена на постепенный упадок. Разреженность, возможно, является не недостатком, а признаком эффективной адаптации — способом минимизировать затраты энергии и ресурсов на поддержание работоспособности.


Оригинал статьи: https://arxiv.org/pdf/2603.22446.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-25 09:42