Обучение языковых моделей: новый подход к повышению логического мышления

Автор: Денис Аветисян

Представлен инновационный метод адаптивной дистилляции, позволяющий улучшить способность больших языковых моделей к рассуждениям и повысить эффективность обучения.

Разработанный подход, в отличие от стандартного унифицированного контроля над всеми данными Ω, разделяет траектории обучения на корректные <span class="katex-eq" data-katex-display="false">\Omega_{C}</span> и некорректные <span class="katex-eq" data-katex-display="false">\Omega_{W}</span> множества, применяет взвешивание на основе перплексии по двум направлениям и оптимизирует полученные ветви с помощью единой целевой функции, что позволяет более эффективно уточнять процесс обучения. — Разработанный подход, в отличие от стандартного унифицированного контроля над всеми данными Ω, разделяет траектории обучения на корректные $\Omega_{C}$ и некорректные $\Omega_{W}$ множества, применяет взвешивание на основе перплексии по двум направлениям и оптимизирует полученные ветви с помощью единой целевой функции, что позволяет более эффективно уточнять процесс обучения.

Разработан фреймворк SCOPE, использующий адаптивное взвешивание траекторий обучения на основе показателей качества сигнала от студенческой и преподавательской моделей.

Несмотря на успехи обучения с подкреплением в согласовании больших языковых моделей, точное распределение вознаграждения на уровне токенов остается сложной задачей. В данной работе представлен новый фреймворк ‘SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting’, который адаптирует процесс дистилляции, используя два пути обучения, взвешиваемых с учетом перплексии как учителя, так и ученика. Такой подход позволяет более эффективно использовать сигналы обучения и повысить качество рассуждений модели. Возможно ли дальнейшее повышение эффективности обучения больших языковых моделей за счет более тонкой калибровки сигналов и адаптации к сложности решаемых задач?

Неизбежные Ошибки Последовательных Моделей

Несмотря на значительные достижения в области обработки последовательностей, современные модели часто демонстрируют непоследовательность в рассуждениях, особенно при решении сложных задач. Эта проблема проявляется в неспособности поддерживать логическую связь между элементами последовательности на протяжении длительного контекста, что приводит к ошибкам в прогнозировании и генерации текста. Сложные задачи, требующие многошаговых рассуждений или понимания контекстуальных нюансов, представляют особую трудность для этих моделей, поскольку даже незначительные отклонения в начале последовательности могут накапливаться и приводить к непредсказуемым результатам. Исследователи активно работают над методами повышения надежности и согласованности рассуждений в последовательных моделях, чтобы расширить их применимость в реальных сценариях, таких как машинный перевод, генерация диалогов и анализ сложных текстов.

Существенная проблема в работе последовательных моделей заключается в так называемом «смещении экспозиции«. В процессе обучения модель получает на вход корректные, заранее известные данные — «истинный» вариант последовательности. Однако, при генерации новой последовательности, модель использует собственные предыдущие предсказания в качестве входных данных для следующих шагов. Это несоответствие между обучением и применением приводит к накоплению ошибок: даже небольшие неточности на ранних этапах генерации могут значительно усиливаться с каждым последующим шагом, что снижает надежность и предсказуемость получаемых результатов. Данное смещение ограничивает возможности применения последовательных моделей в задачах, требующих высокой точности и последовательности, таких как машинный перевод или генерация текста.

Несоответствие между данными, используемыми при обучении, и условиями генерации в реальном времени приводит к кумулятивному накоплению ошибок в последовательных моделях. Эта тенденция, проявляющаяся в виде постепенного ухудшения качества выходных данных, существенно ограничивает практическое применение таких моделей в задачах, требующих высокой надежности и точности. В частности, в ситуациях, где даже незначительные погрешности могут привести к серьезным последствиям, например, в медицинских диагнозах или автономном вождении, неспособность последовательных моделей поддерживать стабильную логику рассуждений представляет собой серьезную проблему. В результате, несмотря на впечатляющие успехи в обработке естественного языка и генерации текста, необходимы дальнейшие исследования для разработки методов, позволяющих минимизировать кумулятивные ошибки и повысить надежность последовательных моделей в реальных сценариях.

Обучение на эталонном наборе AIME24 демонстрирует, что повышение точности (PSR) и глубины рассуждений (OPD) достигается за счет снижения разнообразия решений, а способность учителя к восстановлению после ошибок студента зависит от степени усечения траекторий.

Адаптивное Обучение: Метод SCOPE

Метод SCOPE использует адаптивное взвешивание по двум путям (Dual-Path Adaptive Weighting) для динамической регулировки влияния различных траекторий обучения. В процессе обучения, алгоритм оценивает каждую траекторию и присваивает ей вес, определяющий ее вклад в итоговый результат. Этот вес рассчитывается индивидуально для каждой траектории и может изменяться в ходе обучения, позволяя системе автоматически фокусироваться на наиболее перспективных путях решения задачи и уменьшать влияние менее эффективных или ошибочных траекторий. Такой подход обеспечивает гибкость и адаптивность обучения, позволяя модели эффективно осваивать сложные задачи даже в условиях неполной или зашумленной информации.

Веса траекторий в SCOPE формируются на основе двух ключевых факторов: точности самой траектории и надёжности сигнала обучения. Оценка точности определяет, насколько успешно траектория достигает поставленной цели, в то время как оценка надёжности сигнала обучения учитывает степень уверенности в корректности предоставленных меток или обратной связи. Комбинирование этих двух показателей позволяет системе динамически адаптировать вклад каждой траектории в процесс обучения, отдавая предпочтение траекториям, которые демонстрируют высокую точность и основаны на надёжном сигнале обучения. Это позволяет снизить влияние зашумленных или неверных данных, повышая общую стабильность и эффективность обучения.

Механизм SCOPE снижает влияние зашумленных или неверных сигналов обучения за счет приоритизации высококачественных данных. Это достигается путем динамической оценки надежности каждого сигнала и соответствующего взвешивания его в процессе обновления весов модели. В случае обнаружения сигнала с низкой достоверностью, его вклад в обучение уменьшается, что позволяет избежать искажения модели и повышения ее устойчивости к ошибкам в обучающих данных. Таким образом, система адаптируется к качеству входных данных, фокусируясь на наиболее точной информации и игнорируя или минимизируя влияние некачественных данных.

Обучение GRPO, OPD и нашей модели SCOPE демонстрирует, что SCOPE обеспечивает стабильное снижение энтропии потерь и достигает наилучшей производительности (Avg@32%) на задачах AIME24 и AIME25.

Калибровка Сигналов: Учимся на Ошибках

Метод SCOPE использует “Корректные Траектории” — последовательности шагов решения, которые приводят к верному ответу — для усиления и направления процесса обучения. Анализируя успешные цепочки рассуждений, система выделяет ключевые элементы и закономерности, которые затем используются для формирования сигналов, направляющих дальнейшее обучение модели. Эти сигналы служат своего рода “подсказками”, акцентирующими внимание на наиболее эффективных подходах к решению задач и способствующими более быстрому освоению новых навыков. Использование “Корректных Траекторий” позволяет модели не только достигать правильных ответов, но и учиться на примере успешных стратегий, повышая свою общую эффективность и надежность.

Анализ «неправильных траекторий» (incorrect trajectories) является ключевым компонентом механизма обучения SCOPE. В процессе работы, система идентифицирует этапы рассуждений, приведшие к ошибочным результатам. Этот анализ позволяет выявить конкретные шаги, в которых были допущены ошибки, и использовать эту информацию для корректировки процесса обучения. Выявленные недостатки в логике рассуждений используются для предотвращения повторения подобных ошибок в будущем, что способствует повышению точности и надежности системы в целом. Такой подход позволяет не только исправлять отдельные ошибки, но и улучшать общую стратегию решения задач.

Надёжность предоставляемых сигналов (руководства) оценивается с использованием метрики «Perplexity учителя» (Teacher Perplexity). Данная метрика позволяет определить степень уверенности модели-учителя в предлагаемом решении. Сигналы, полученные от модели с высокой perplexity, считаются менее надежными и не усиливаются, что предотвращает распространение неточных или неуверенных рекомендаций. Усиление происходит только для сигналов, демонстрирующих низкую perplexity, гарантируя, что студент получает руководство, основанное на уверенных и обоснованных рассуждениях модели-учителя.

Показатель «Неопределенность ученика» (Student Perplexity) предоставляет информацию о процессе исследования и уровне уверенности модели при решении задачи. Высокая неопределенность указывает на то, что модель испытывает затруднения и активно исследует различные варианты, в то время как низкая неопределенность свидетельствует о более уверенном и целенаправленном подходе. Анализ этого показателя позволяет оценить, насколько эффективно модель использует предоставленные сигналы и насколько хорошо она понимает логику рассуждений, что, в свою очередь, может быть использовано для улучшения процесса обучения и адаптации стратегии предоставления помощи.

В ходе экспериментов, система SCOPE продемонстрировала среднее относительное улучшение в 11.42% по метрике Avg@32 и 7.30% по метрике Pass@32 на шести различных бенчмарках, предназначенных для оценки навыков рассуждения. Метрика Avg@32 оценивает среднее количество правильных ответов в списке из 32 предложенных вариантов, а Pass@32 — процент задач, решенных с первой попытки из 32 предложенных. Полученные результаты свидетельствуют о значимом повышении эффективности системы в задачах, требующих логического мышления и решения проблем.

На бенчмарках AIME24, AIME25 и AMC23 модель DeepSeek-R1-Distill-Qwen-1.5B демонстрирует превосходство алгоритма GRPO, OPD и SCOPE (нашего подхода) по метрике Pass@kk(%).

Повышение Эффективности Дистилляции с Обучением на Практике

Метод SCOPE расширяет возможности обучения с учителем, известного как “On-Policy Distillation”, применяя контроль на уровне отдельных токенов, генерируемых учителем. Вместо традиционного подхода, где студент обучается на основе полных последовательностей, SCOPE анализирует и направляет процесс обучения студента, сравнивая вероятности каждого токена, предсказанного студентом и учителем. Это позволяет студенту более точно имитировать рассуждения учителя, особенно в сложных задачах, требующих детального анализа. Вместо простого следования общему направлению, студент получает индивидуальные указания для каждого шага, что значительно повышает эффективность обучения и способствует созданию более надежных и адаптивных моделей.

Для согласования выходных данных студенческой и учительской моделей используется дивергенция Кулбака-Лейблера (KL-дивергенция), направляемая максимизацией правдоподобия. Этот метод позволяет оценить разницу между распределениями вероятностей, предсказываемыми обеими моделями, и минимизировать её, тем самым заставляя студенческую модель подражать учительской. $KL(P||Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)}$ — эта формула отражает суть KL-дивергенции, где P — распределение вероятностей учительской модели, а Q — студенческой. Максимизация правдоподобия, в свою очередь, обеспечивает, что студенческая модель генерирует наиболее вероятные последовательности токенов, соответствующие данным, на которых обучалась учительская модель, что способствует повышению точности и надежности обучения.

Особое внимание в данном подходе уделяется активному противодействию проблеме несоответствия распределений — $Distribution Mismatch$ . Традиционные методы обучения часто страдают от расхождений между распределением данных, используемых для обучения, и распределением данных, с которыми модель сталкивается в реальных условиях. Это несоответствие может приводить к снижению обобщающей способности и ухудшению производительности модели на незнакомых данных. Предлагаемый метод, используя точное выравнивание выхода студенческой модели с учительской, позволяет значительно снизить влияние этого явления, обеспечивая создание моделей, способных эффективно работать в широком спектре ситуаций и демонстрировать повышенную устойчивость к изменениям в данных. Таким образом, достигается не просто улучшение текущей производительности, но и создание фундамента для более надежных и универсальных систем искусственного интеллекта.

Методика SCOPE успешно преодолевает проблему “предвзятости экспозиции”, которая традиционно ограничивает возможности обучения моделей последовательного принятия решений. В отличие от стандартных подходов, где студент обучается на данных, сгенерированных самим же студентом, SCOPE использует знания, полученные от более опытной модели-учителя. Это позволяет избежать ситуации, когда студент застревает в локальных оптимумах, формируя неверные представления о пространстве решений. В результате, системы, обученные с использованием SCOPE, демонстрируют повышенную надежность и устойчивость к новым, ранее не встречавшимся данным, что делает их более эффективными в задачах, требующих сложного логического мышления и обоснованных выводов. Особенно это важно для создания интеллектуальных систем, способных к самообучению и адаптации к меняющимся условиям.

Наблюдая за стремлением к усовершенствованию алгоритмов обучения, особенно в контексте больших языковых моделей, становится очевидным, что каждая новая методика, как и SCOPE с её адаптивным взвешиванием траекторий, лишь незначительно отодвигает проблему, но не решает её радикально. Подобно тому, как всегда находился способ обойти ограничения прежних систем, и SCOPE, вероятно, потребует дальнейших доработок. Как однажды заметил Пол Эрдёш: «Не существует красивой теоремы, которой нельзя было бы упростить». В данном случае, стремление к повышению эффективности обучения посредством адаптивного взвешивания, хоть и логично, всё же напоминает попытку залатать дыры в старом коде новой обёрткой. Вероятно, истинный прогресс заключается не в усложнении моделей, а в фундаментальном переосмыслении подходов к обучению.

Что дальше?

Представленный фреймворк SCOPE, безусловно, демонстрирует потенциал адаптивного взвешивания траекторий для улучшения дистилляции в больших языковых моделях. Однако, стоит помнить: каждая «оптимизация» — это лишь отложенный технический долг. Повышение производительности и согласованности рассуждений — это хорошо, но пока неясно, насколько стабильны эти улучшения в условиях реальных, неконтролируемых данных. Неизбежно возникнет вопрос о переобучении и необходимости более строгих метрик для оценки обобщающей способности.

Очевидным направлением для дальнейших исследований является исследование различных функций взвешивания, отличных от предложенных, и их влияния на процесс обучения. Также, необходимо учитывать, что «сигнал качества», определяемый перплексией, может быть недостаточно информативным для задач, требующих более глубокого понимания контекста. Вероятно, потребуются более сложные метрики, учитывающие семантические и логические связи в тексте. Если код выглядит идеально — значит, его никто не деплоил.

В конечном счете, ключевым вызовом остаётся поиск баланса между сложностью модели, вычислительными затратами и достижением действительно надёжных результатов. Новые архитектуры и алгоритмы будут появляться постоянно, но фундаментальная проблема останется прежней: производство всегда найдёт способ сломать элегантную теорию.

Оригинал статьи: https://arxiv.org/pdf/2604.10688.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-14 22:43

🚀 Квантовые новости