Обучение языковых моделей по критериям: новый подход к сложным задачам

Автор: Денис Аветисян

Исследователи предлагают инновационный метод для повышения качества генерации текста в областях, где прямая проверка ответов затруднена.

RUBRIC-ARROW: алгоритм, использующий попеременную оптимизацию и парные предпочтения для обучения моделей вознаграждения, предназначенных для дообучения больших языковых моделей в неверифицируемых областях.

Оценка качества генераций больших языковых моделей (LLM) в областях, где отсутствует абсолютная истина, представляет собой сложную задачу. В данной работе представлена новая методика, ‘RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains’, использующая рубрики для декомпозиции оценки и алгоритм, сочетающий в себе попеременную оптимизацию и обучение на основе парных предпочтений. Предложенный подход позволяет добиться повышения точности модели вознаграждения и, как следствие, улучшить результаты последующего обучения LLM. Какие перспективы открывает использование парных предпочтений для обучения моделей вознаграждения в задачах, требующих субъективной оценки?

За гранью простых оценок: Поиск глубины в предпочтениях

Традиционные методы оценки больших языковых моделей (LLM) часто опираются на скалярные вознаграждения, представляющие собой единичные числовые оценки. Такой подход, хотя и прост в реализации, упускает из виду богатый спектр нюансов, определяющих человеческие предпочтения. Вместо того чтобы учитывать сложные критерии, такие как логическая последовательность, креативность или соответствие стилю, система фокусируется исключительно на общей «хорошести» ответа. Это приводит к тому, что модели оптимизируются для достижения высоких баллов, а не для реального улучшения качества и полезности генерируемого текста. В результате, даже при кажущемся прогрессе, модель может упускать важные детали или демонстрировать поверхностное понимание задачи, что существенно ограничивает её способность к решению сложных проблем и адаптации к разнообразным запросам.

Обучение с учителем (Supervised Fine-Tuning, SFT) и обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF) зачастую испытывают трудности при решении сложных задач, требующих детальных критериев оценки. В то время как эти методы способны оптимизировать модели для достижения конкретных целей, им не хватает возможности эффективно учитывать нюансы и сложность задач, где требуется не просто “правильный” ответ, а обоснование и соответствие множеству условий. Это особенно заметно в ситуациях, требующих творческого подхода, анализа сложных данных или выполнения многоступенчатых инструкций, поскольку стандартные метрики вознаграждения не всегда способны адекватно отразить качество и полноту решения. В результате, модели могут демонстрировать поверхностное соответствие требованиям, упуская важные детали или не предоставляя достаточного объяснения принятых решений.

Существующий пробел в понимании причин, лежащих в основе предпочтений, серьезно ограничивает возможности пост-тренировочной адаптации больших языковых моделей. Традиционные методы, фокусирующиеся лишь на конечном результате — например, выборе лучшего ответа — упускают из виду логику, которая привела к этому выбору. Недостаточно просто знать, что один ответ предпочтительнее другого; необходимо понимать, почему он предпочтительнее — какие аспекты ответа соответствуют критериям качества, а какие — нет. Отсутствие этой информации препятствует эффективной корректировке модели, поскольку не позволяет точно определить, какие именно параметры нуждаются в изменении для улучшения результатов. В результате, даже при использовании продвинутых техник, таких как обучение с подкреплением на основе обратной связи от человека, модели могут демонстрировать лишь поверхностное улучшение, не затрагивающее глубинные причины ошибок и не позволяющее раскрыть их полный потенциал.

Ограничения существующих методов оценки больших языковых моделей стимулируют переход к явным, основанным на рубриках системам. Традиционные подходы, фокусирующиеся на скалярных наградах, не позволяют детально проанализировать предпочтения и препятствуют эффективному улучшению моделей. Вместо этого, предлагается оценивать ответы не просто как «хорошие» или «плохие», а по четко определенным критериям, представленным в виде рубрик. Такой подход позволяет зафиксировать причины предпочтения одного ответа другому, что критически важно для дальнейшей оптимизации и выявления слабых мест модели. Внедрение рубрик позволяет не только более точно оценить качество генерации, но и предоставить ценную обратную связь для обучения, способствуя созданию более надежных и полезных языковых моделей.

Rubric-ARROW: Чередующийся механизм для точной оценки

Методика Rubric-ARROW использует чередующуюся процедуру обучения, одновременно оптимизируя как генератор рубрик (критериев оценки), так и обусловленного рубрикой судью (оценщика). В ходе обучения генератор создает критерии оценки, а судья, используя эти критерии, оценивает предоставленные ответы. Этот процесс повторяется итеративно, позволяя обеим компонентам улучшать свою производительность в цикле обратной связи. Оптимизация происходит совместно, что способствует повышению общей эффективности системы оценки.

В рамках Rubric-ARROW генератор рубрик предлагает критерии оценки, которые затем используются судьей для оценки ответов. Этот процесс организован итеративно: оценка ответов судьей на основе предложенных критериев служит основой для дальнейшей корректировки и улучшения критериев генератором рубрик. По сути, система циклически совершенствует как критерии оценки, так и способность оценивать ответы на их основе, обеспечивая взаимное усиление обеих составляющих и повышая точность и последовательность оценки.

Чередующаяся процедура обучения в Rubric-ARROW использует сильные стороны обоих компонентов — генератора рубрик и оценщика, обусловленного этими рубриками — для создания самосовершенствующегося цикла оценки. Генератор рубрик предлагает критерии оценки, а оценщик, основываясь на этих критериях, оценивает ответы. Результаты оценки используются для дальнейшей оптимизации генератора рубрик, что, в свою очередь, улучшает точность и релевантность критериев. Этот итеративный процесс позволяет системе непрерывно улучшать качество оценки и обеспечивать более последовательные и объективные результаты, поскольку каждый компонент способствует улучшению другого.

Метод Rubric-ARROW обеспечивает более целенаправленную и эффективную постобучающую настройку за счет явного определения критериев оценки. В отличие от подходов, полагающихся на неявные или субъективные метрики, Rubric-ARROW формирует четкий набор критериев, по которым оцениваются ответы модели. Это позволяет точно определить области, требующие улучшения, и применить целенаправленные стратегии обучения для оптимизации производительности. Явное определение критериев также способствует повышению прозрачности и воспроизводимости процесса оценки, упрощая аудит и анализ результатов.

Инициализация и этапы обучения: От SFT к итеративной доработке

Процесс начинается с контролируемого обучения (Supervised Fine-Tuning, SFT) модулей генератора рубрик и оценщика, используя набор данных OpenRubrics. SFT применяется для инициализации обоих модулей, предоставляя им начальные знания и способности к оценке. Набор данных OpenRubrics содержит примеры задач и соответствующих оценок, что позволяет моделям научиться сопоставлять входные данные с релевантными критериями и выставлять оценки. Использование SFT на начальном этапе обеспечивает стабильную отправную точку для последующей оптимизации и итеративного улучшения производительности обоих модулей.

В рамках начальной фазы обучения с учителем (SFT) для разогрева модели, используется GPT-5-mini для генерации первичных меток. Этот подход позволяет создать надежную отправную точку для последующей оптимизации рубрикатора и оценщика. Использование GPT-5-mini на данном этапе обеспечивает наличие размеченных данных, необходимых для инициализации процесса обучения и повышения эффективности всей системы. Сгенерированные метки служат основой для обучения моделей, что позволяет избежать проблем, связанных с отсутствием или неполнотой начальных данных.

В качестве основы для обоих модулей — генератора рубрик и оценщика — используется начальная модель Qwen-3-8B. Этот выбор обусловлен стремлением к обеспечению согласованности и эффективности процесса обучения. Использование единой базовой модели позволяет избежать расхождений в представлениях и упрощает интеграцию между компонентами системы. Qwen-3-8B предоставляет предварительно обученные веса, которые служат отправной точкой для дальнейшей тонкой настройки каждого модуля под конкретные задачи генерации и оценки, снижая потребность в ресурсах и времени на обучение с нуля.

Для оптимизации генератора рубрик и оценщика используется алгоритм GRPO (Gradient-based Reward Policy Optimization), применяемый попеременно к обоим модулям. В процессе обучения применяются фазо-специфичные вознаграждения, направленные на улучшение производительности на каждом этапе. В результате, средний онлайн-результат GRPO составляет 65.4, что демонстрирует превосходство над сильными базовыми моделями и подтверждает эффективность предложенного подхода к итеративному улучшению.

Повышение надежности и эффективности: Снижение дисперсии и масштабируемость

В основе Rubric-ARROW лежит принцип согласованности предпочтений, гарантирующий, что оценка, выдаваемая моделью-судьей, соответствует ожиданиям человека. Данный подход обеспечивает высокую степень соответствия между автоматизированной оценкой и субъективным восприятием качества, что критически важно для эффективного обучения моделей генерации текста. Достигается это за счет тщательной калибровки модели, направленной на выявление и устранение расхождений между ее внутренними критериями оценки и человеческими предпочтениями. Такое соответствие не только повышает надежность системы, но и позволяет использовать ее для более точной и релевантной оценки генерируемого контента, приближая его к стандартам, устанавливаемым людьми.

Для повышения достоверности оценок, в рамках данной системы внедрены методы снижения дисперсии. Эти методы направлены на минимизацию случайных колебаний в суждениях модели-оценщика, обеспечивая более стабильные и воспроизводимые результаты. В частности, реализованные техники позволяют уменьшить влияние случайных факторов, приводящих к разбросу оценок при повторных прогонах одного и того же запроса. Это особенно важно при оценке субъективных характеристик, таких как креативность или соответствие предпочтениям, где небольшие различия в интерпретации могут приводить к значительным расхождениям в оценках. В результате, система демонстрирует повышенную надежность и позволяет получать более объективные и репрезентативные результаты, что критически важно для эффективной оптимизации моделей и улучшения качества генерируемого контента.

Внедрение вероятностной системы оценки позволило значительно усовершенствовать процесс анализа, минимизируя вероятность возникновения ничейных ситуаций и обеспечивая более детализированную обратную связь. Вместо простого ранжирования, система оценивает вероятность соответствия ответа заданным критериям, что позволяет выявлять даже незначительные различия в качестве. Такой подход не только повышает надежность оценки, но и предоставляет более точную информацию о сильных и слабых сторонах каждого ответа, способствуя более эффективному обучению и совершенствованию моделей. Благодаря этому, оценка становится более объективной и информативной, что критически важно для разработки высококачественного искусственного интеллекта.

В основе данной системы лежит использование vLLM, обеспечивающее высокую скорость обработки данных — всего 28.35 секунды для оценки 100 примеров. Это значительно превосходит показатели традиционных моделей, основанных на рассуждениях (более 170 секунд), и Rubric-RM-8B (105.12 секунд). Такая эффективность позволила достичь передовых результатов на различных эталонных тестах: при использовании DPO система демонстрирует IFEval Score в 80.7 и IFBench Score в 37.4, превосходя Rubric-RM. В тестах Arena-Hard и Creative Writing, при использовании IterDPO, получены результаты в 53.0 и 40.5 соответственно, а в WildBench Macro — 55.2, что на 2.2% выше, чем при использовании IterDPO с Rubric-RM.

Предложенная методика Rubric-ARROW демонстрирует интересную стратегию обучения моделей вознаграждения, основанную на чередующейся оптимизации и парных предпочтениях. Этот подход, направленный на повышение точности оценки в областях, где прямая верификация затруднена, перекликается с идеями о необходимости глубокого понимания системы для её эффективного улучшения. Как однажды заметил Эдсгер Дейкстра: «Программирование — это не столько о том, чтобы делать вещи правильно, сколько о том, чтобы делать их понятными». В контексте обучения LLM, Rubric-ARROW стремится к созданию чёткой и понятной системы оценки, что, в свою очередь, способствует более эффективному обучению и повышению производительности модели в сложных, не поддающихся прямой верификации областях.

Куда же дальше?

Представленный подход, Rubric-ARROW, безусловно, демонстрирует возможность обучения моделей вознаграждения в областях, где абсолютная истина недостижима. Однако, это лишь частичный взлом системы. Сама концепция “вознаграждения”, как внешнего стимула, остается под вопросом. Не является ли стремление к оптимизации по заданной рубрике лишь перекладыванием ответственности за принятие решений на алгоритм, а истинная сложность — в самой постановке задачи?

Будущие исследования, вероятно, столкнутся с необходимостью преодоления ограниченности парных предпочтений. Вместо фокусировки на выборе “лучшего” из двух вариантов, возможно, стоит исследовать методы оценки абсолютной ценности ответа, пусть и субъективной. Или же, попытаться создать системы, способные к самооценке, к рекурсивному анализу собственной логики — настоящий “exploit of insight”, когда модель осознает не только что она делает, но и почему.

Очевидно, что поле экспериментов не ограничено рамками текущих рубрик. Истинное развитие этой области потребует отхода от жестких правил и допущения некоторой степени хаоса, позволяющей моделям исследовать пространство решений за пределами предопределенных границ. В конечном счете, задача не в создании идеального алгоритма, а в понимании принципов, лежащих в основе самого процесса познания.

Оригинал статьи: https://arxiv.org/pdf/2605.29156.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-30 10:18

🚀 Квантовые новости