Обучение с множественными наградами: как избежать коллапса и согласовать языковые модели

Автор: Денис Аветисян

Новый подход GDPO решает проблему нестабильности обучения в задачах с множественными наградами, обеспечивая лучшее согласование языковых моделей с разнообразными предпочтениями пользователей.

Групповая нормализация на основе вознаграждения с последующей пакетной нормализацией преимуществ (GDPO) обеспечивает стабильный численный диапазон и улучшенную стабильность обновления в процессе обучения с подкреплением, что, как демонстрируют результаты экспериментов с моделью Qwen2.5-Instruct-1.5B, приводит к более высокой точности и соответствию формату вознаграждения по сравнению с GRPO, о чем свидетельствует медиана и межквартильный размах кривых вознаграждения, полученных в пяти запусках.

Предлагается метод групповой нормализации вознаграждений для оптимизации политики, позволяющий стабилизировать обучение и повысить производительность в задачах обучения с подкреплением с множественными наградами.

В условиях растущих требований к соответствию языковых моделей разнообразным предпочтениям пользователей, методы обучения с подкреплением (RL) все чаще используют множественные сигналы вознаграждения. В данной работе, посвященной проблеме ‘GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization’, показано, что прямое применение алгоритма GRPO в условиях множественного вознаграждения приводит к коллапсу сигналов и снижению эффективности обучения. Предлагаемый метод GDPO решает эту проблему путем раздельной нормализации вознаграждений, обеспечивая более стабильное и точное обучение, направленное на соответствие разнообразным предпочтениям. Способен ли GDPO стать ключевым компонентом в создании действительно адаптивных и ориентированных на пользователя языковых моделей?

Проблема Многогранного Вознаграждения

Современные алгоритмы обучения с подкреплением зачастую полагаются на единственные сигналы вознаграждения, что значительно ограничивает их способность адекватно отражать сложность человеческих предпочтений. Такой подход, хотя и упрощает процесс обучения, игнорирует многогранность реальных задач, где оценка действий редко сводится к одному критерию. В результате, системы, обученные на одиночных вознаграждениях, могут демонстрировать неожиданное или нежелательное поведение в ситуациях, требующих учета различных аспектов и компромиссов. Например, робот, обученный только на скорость выполнения задачи, может игнорировать безопасность или энергоэффективность. Таким образом, ограниченность одиночными сигналами вознаграждения представляет собой существенное препятствие на пути к созданию интеллектуальных систем, способных эффективно взаимодействовать с человеком и адаптироваться к сложным условиям.

Упрощенные системы обучения с подкреплением, полагающиеся на единый сигнал вознаграждения, часто сталкиваются с феноменом, получившим название “коллапс вознаграждения”. Суть явления заключается в том, что при стремлении к максимизации общего вознаграждения, система перестает различать тонкие нюансы и различия между отдельными составляющими этого вознаграждения. В результате, даже незначительные изменения в стратегии поведения, ведущие к небольшому увеличению общего вознаграждения, могут затмить более сложные и ценные, но менее выраженные, сигналы. Это приводит к тому, что модель начинает игнорировать важные аспекты задачи, фокусируясь исключительно на оптимизации одного, доминирующего сигнала, что существенно ограничивает ее способность к эффективному обучению и адаптации к сложным сценариям.

Успешное согласование языковых моделей с человеческими предпочтениями требует умения обрабатывать множество, потенциально противоречивых, сигналов вознаграждения. В отличие от традиционного обучения с подкреплением, ориентированного на единый критерий оценки, современные модели нуждаются в способности различать и приоритизировать различные аспекты желаемого поведения. Это особенно важно, поскольку человеческие ценности и цели часто сложны и многогранны, а стремление к оптимизации по одному параметру может привести к нежелательным последствиям. Способность эффективно интегрировать и разрешать конфликты между различными сигналами вознаграждения позволяет создавать более надежные и адаптивные языковые модели, способные учитывать широкий спектр человеческих потребностей и контекстов.

В ходе пятикратных запусков Qwen2.5-1.5B на задаче использования инструментов, GDPO демонстрирует стабильную сходимость к более высоким показателям корректности и форматирования, в то время как GRPO без стандартного отклонения достигает аналогичного прироста корректности, но не обеспечивает сходимость по формату.

Групповое Относительное Преимущество: Новый Взгляд на Обучение

Алгоритм GRPO решает проблему коллапса наград за счет использования оценки относительного преимущества в группах (Group-Relative Advantage Estimation). Вместо абсолютной оценки награды, GRPO оценивает преимущество действия относительно других действий внутри определенной группы. Это позволяет модели различать сигналы наград, даже если они имеют схожие абсолютные значения, и корректно оценивать ценность каждого действия в контексте конкретной группы задач или условий. По сути, модель обучается сравнивать эффективность действий внутри группы, что стабилизирует процесс обучения и предотвращает ситуацию, когда все действия кажутся равноценными или неэффективными.

Алгоритм GDPO развивает подход GRPO путем отделения групповой нормализации для каждого сигнала вознаграждения. В GRPO нормализация вознаграждений внутри группы проводилась совместно, что могло приводить к нестабильности оптимизации. GDPO, напротив, нормализует каждое вознаграждение независимо внутри группы, что позволяет избежать влияния масштаба вознаграждения на процесс обучения и повышает общую стабильность и производительность алгоритма. Такое разделение позволяет модели более эффективно различать и использовать информацию о вознаграждениях, особенно в сценариях с большим количеством различных целей.

В алгоритме GDPO нормализация преимущества внутри каждой партии (batch) предотвращает увеличение его величины пропорционально количеству полученных наград. Это достигается за счет деления преимущества каждой награды в партии на стандартное отклонение преимуществ внутри этой же партии. Такая нормализация обеспечивает стабильность процесса обучения, поскольку предотвращает доминирование наград с большими значениями и поддерживает сопоставимый масштаб градиентов для всех наград, независимо от их количества в текущей партии данных. Это критически важно для эффективной оптимизации в задачах с большим количеством разнообразных наград.

Алгоритмы GRPO и GDPO демонстрируют эффективность в решении задач обучения с множественным вознаграждением, что подтверждается улучшением точности на бенчмарке AIME. При обучении модели DeepSeek-R1-1.5B наблюдалось повышение точности на 6.3%, а при использовании Qwen3-4B-Instruct — на 2.3%. Эти результаты свидетельствуют о способности данных алгоритмов эффективно обрабатывать сложные сценарии обучения, где модель получает несколько сигналов вознаграждения, и оптимизировать процесс обучения для достижения более высоких показателей производительности.

В примере с двумя бинарными наградами и двумя проходами, GRPO объединяет различные комбинации наград в два различных класса преимуществ, в то время как GDPO нормализует каждую награду независимо, сохраняя три различных группы значений преимущества.

Экспериментальная Верификация: Рассуждения и Использование Инструментов

В ходе оценки GDPO и GRPO использовались задачи, требующие навыков логического мышления в области программирования и математики. Для оптимизации процесса обучения и выравнивания сигналов применялась система вознаграждений, основанная на корректности решения (“Correctness Reward”), а также штраф за превышение допустимой длины ответа (“Length Penalty”). Данный подход позволил улучшить способность моделей к генерации точных и лаконичных решений, что является ключевым фактором для повышения общей производительности в задачах, требующих аналитических способностей.

Эксперименты также включали сценарии использования инструментов («Tool Calling»), направленные на оценку способности моделей эффективно взаимодействовать с внешними сервисами. В ходе этих тестов GDPO последовательно демонстрировала более высокие показатели правильности ответов по сравнению с GRPO, достигая улучшения более чем на 4% в корректности формата вывода. Это указывает на превосходство GDPO в интеграции с инструментами и генерации структурированных, валидных результатов при их использовании.

Для проведения экспериментов использовались языковые модели Qwen2.5-1.5B, DeepSeek-R1-1.5B и Qwen3-4B-Instruct. Реализация и обучение моделей осуществлялись в рамках фреймворка HF-TRL (Hugging Face Transformers Reinforcement Learning). В качестве платформы для проведения экспериментов и сбора данных использовалась среда Verl, обеспечивающая необходимые инструменты для оценки и анализа производительности моделей.

Экспериментальные результаты демонстрируют значительное улучшение производительности и устойчивости GDPO по сравнению с базовыми методами. В частности, метрика “Bug Ratio” (соотношение ошибок) снижается при использовании GDPO, при этом сохраняется сопоставимый уровень успешного прохождения тестов. Аналогично, GDPO демонстрирует снижение соотношения превышения допустимой длины ответа (length-exceeding ratio), также без ухудшения показателя успешности. Данные результаты указывают на способность GDPO генерировать более корректные и лаконичные ответы по сравнению с альтернативными подходами.

Обучение модели Qwen3-4B-Instruct на данных по математическому рассуждению показывает, что GDPO обеспечивает более устойчивое повышение точности и соблюдение ограничений на длину ответа по сравнению с GRPO.

Повышение Эффективности с Динамической Выборкой: Взгляд в Будущее

Исследование демонстрирует, что внедрение метода ‘Динамической выборки’ значительно повышает эффективность алгоритма GDPO, превосходя улучшения, достигаемые лишь оптимизацией самого алгоритма. Данная техника позволяет сократить вычислительные затраты, не снижая при этом скорости обучения или итоговой производительности модели. Основываясь на анализе приоритетности данных, ‘Динамическая выборка’ концентрирует усилия на наиболее информативных точках, что приводит к более быстрому схождению и снижению необходимых ресурсов. В результате, комбинация GDPO и ‘Динамической выборки’ открывает перспективы для масштабирования обучения с подкреплением на еще более крупные и сложные модели, делая его практичным для широкого спектра задач. Системы не строятся, они растут, и динамическая выборка — это удобрение.

Оптимизационная техника, применяемая в данном исследовании, позволяет существенно снизить вычислительные затраты без потери скорости обучения и итоговой производительности модели. Вместо обработки всего набора данных, алгоритм динамически отбирает наиболее информативные примеры для каждой итерации обучения. Такой подход не только экономит ценные вычислительные ресурсы, но и позволяет модели быстрее сходиться к оптимальному решению. В результате, достигается значительное повышение эффективности обучения, особенно при работе с большими и сложными наборами данных, что делает возможным применение сложных алгоритмов машинного обучения в условиях ограниченных ресурсов.

В процессе обучения моделей машинного обучения, особенно в задачах, требующих больших объемов данных, особое внимание уделяется оптимизации использования этих данных. Исследования показали, что не все точки данных вносят одинаковый вклад в процесс обучения. Тщательный отбор и приоритизация наиболее информативных данных позволяет значительно ускорить обучение модели и снизить потребность в вычислительных ресурсах. Такой подход позволяет сосредоточиться на данных, которые наиболее эффективно способствуют улучшению параметров модели, игнорируя избыточные или малоинформативные примеры. В результате, модель достигает необходимой точности быстрее и при меньших затратах, что делает возможным применение сложных алгоритмов машинного обучения.

Сочетание алгоритма GDPO и динамической выборки открывает новые перспективы для масштабирования обучения с подкреплением на моделях ещё большей сложности и размера. Благодаря оптимизации процесса обучения, позволяющей более эффективно использовать вычислительные ресурсы, становится возможным решать задачи, ранее считавшиеся недостижимыми из-за ограничений в производительности. Данный подход позволяет существенно снизить затраты на обучение сложных моделей, сохраняя при этом высокую скорость сходимости и превосходные итоговые результаты. Это, в свою очередь, расширяет область применения обучения с подкреплением, позволяя решать задачи в областях, требующих обработки больших объемов данных и высокой вычислительной мощности, таких как робототехника, автономные системы и сложные игровые сценарии. Каждый архитектурный выбор — это пророчество о будущем сбое, и мы стремимся к тому, чтобы это был сбой роста, а не краха.

Обучение DeepSeek-R1-7B на данных по математическому рассуждению показывает, что GDPO обеспечивает стабильное повышение точности и более эффективное соблюдение ограничений по длине ответа по сравнению с GRPO.

Исследование показывает, что стремление к оптимизации в многонаградном обучении с подкреплением часто наталкивается на проблему коллапса наград. Авторы предлагают решение, декомпозирующее нормализацию наград, чтобы повысить стабильность обучения и согласовать языковые модели с разнообразными предпочтениями человека. В этом есть отголоски глубокой истины, которую сформулировал Карл Фридрих Гаусс: «Если бы природа не была математической, мы бы не смогли ее понять». Подобно тому, как математика выявляет фундаментальные закономерности в природе, так и данная работа стремится выявить и устранить закономерности, приводящие к нестабильности в сложных системах обучения. Архитектура, в данном случае, алгоритм, — это компромисс, застывший во времени, и лишь внимательное наблюдение за ее провалами позволяет строить более устойчивые конструкции.

Что дальше?

Представленная работа выявляет закономерность коллапса вознаграждений в многокритериальном обучении с подкреплением, и предлагает способ смягчить эту проблему посредством раздельной нормализации. Однако, не стоит обольщаться иллюзией полного контроля. Система не исправлена — она лишь приобрела новую форму предсказуемости, новую траекторию неизбежного сбоя. Стабильность, достигнутая сегодня, лишь отсрочила момент, когда разнообразие человеческих предпочтений вновь проявит свою хаотичную природу.

Вопрос не в том, чтобы построить идеальную систему согласования с человеком, а в том, чтобы научиться предвидеть и адаптироваться к ее эволюции. Следующим шагом представляется исследование не статических методов нормализации, а динамических, способных учитывать меняющиеся ландшафты вознаграждений и неявно выраженные предпочтения. Вместо поиска единого «правильного» ответа, необходимо создавать системы, способные учиться на своих ошибках и эволюционировать вместе с человеком.

В конечном счете, успех не будет измеряться аптаймом или производительностью, а способностью системы к самоорганизации и устойчивости в условиях непредсказуемости. И тогда, возможно, долгожданная стабильность окажется не признаком скрытой катастрофы, а отражением зрелой, саморегулирующейся экосистемы.

Оригинал статьи: https://arxiv.org/pdf/2601.05242.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-10 21:12

🚀 Квантовые новости