Обучение с контрастом: новый подход к усилению логических способностей языковых моделей

Автор: Денис Аветисян

Исследователи предлагают метод CLIPO, использующий контрастное обучение для выравнивания успешных траекторий рассуждений, что значительно повышает обобщающую способность и надежность систем искусственного интеллекта.

В рамках предложенной схемы CLIPO, для каждого входного запроса <span class="katex-eq" data-katex-display="false">{\bm{x}}</span> методы оптимизации политики генерируют набор траекторий <span class="katex-eq" data-katex-display="false">{\{{\bm{y}}\_{1},{\bm{y}}\_{2},\dots,{\bm{y}}\_{G}\}}</span>, для которых рассчитываются соответствующие награды обучения с подкреплением <span class="katex-eq" data-katex-display="false">{\{r\_{1},r\_{2},\dots,r\_{G}\}}</span>, после чего, на основе последних скрытых состояний <span class="katex-eq" data-katex-display="false">{\{{\bm{h}}\_{1},{\bm{h}}\_{2},\dots,{\bm{h}}\_{G}\}}</span> этих траекторий, вычисляются семантические вложения на уровне траекторий <span class="katex-eq" data-katex-display="false">{\{{\bm{e}}\_{1},{\bm{e}}\_{2},\dots,{\bm{e}}\_{G}\}}</span> с помощью контрастивного механизма, позволяющего оценить сходство успешных и неудачных траекторий посредством контрастивных наград <span class="katex-eq" data-katex-display="false">{\{r\_{1}^{\text{CL}},r\_{2}^{\text{CL}},\dots,r\_{G}^{\text{CL}}\}}</span> и, в конечном итоге, сформировать итоговую награду <span class="katex-eq" data-katex-display="false">{r^{\prime}\_{i}=r\_{i}+r^{\text{CL}}\_{i}}</span> для каждой траектории. — В рамках предложенной схемы CLIPO, для каждого входного запроса ${\bm{x}}$ методы оптимизации политики генерируют набор траекторий ${\{{\bm{y}}\_{1},{\bm{y}}\_{2},\dots,{\bm{y}}\_{G}\}}$ , для которых рассчитываются соответствующие награды обучения с подкреплением ${\{r\_{1},r\_{2},\dots,r\_{G}\}}$ , после чего, на основе последних скрытых состояний ${\{{\bm{h}}\_{1},{\bm{h}}\_{2},\dots,{\bm{h}}\_{G}\}}$ этих траекторий, вычисляются семантические вложения на уровне траекторий ${\{{\bm{e}}\_{1},{\bm{e}}\_{2},\dots,{\bm{e}}\_{G}\}}$ с помощью контрастивного механизма, позволяющего оценить сходство успешных и неудачных траекторий посредством контрастивных наград ${\{r\_{1}^{\text{CL}},r\_{2}^{\text{CL}},\dots,r\_{G}^{\text{CL}}\}}$ и, в конечном итоге, сформировать итоговую награду ${r^{\prime}\_{i}=r\_{i}+r^{\text{CL}}\_{i}}$ для каждой траектории.

CLIPO — фреймворк, улучшающий обучение с подкреплением для больших языковых моделей посредством выравнивания траекторий и формирования вознаграждений.

Несмотря на значительный прогресс в обучении больших языковых моделей (LLM) с помощью обучения с подкреплением и проверяемыми наградами (RLVR), сохраняется проблема галлюцинаций и копирования ответов, снижающих обобщающую способность. В данной работе представлена методика ‘CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR’, использующая контрастное обучение для выравнивания успешных траекторий рассуждений. Предложенный подход позволяет LLM улавливать инвариантную структуру правильных цепочек рассуждений, обеспечивая более надежную регуляризацию и снижая расхождения на уровне отдельных шагов. Способствует ли CLIPO созданию более устойчивых и обобщающих LLM, способных к сложному логическому мышлению?

Пределы Масштаба: Когда Большие Языковые Модели Заблуждаются

Несмотря на впечатляющие способности в генерации текста и понимании языка, большие языковые модели (БЯМ) демонстрируют существенные трудности при решении сложных задач, требующих последовательного логического мышления. Часто БЯМ выдают правдоподобные, но ошибочные ответы, имитируя рассуждения без фактического понимания причинно-следственных связей. Эта проблема особенно заметна в задачах, требующих нескольких шагов для достижения решения, где модель может успешно выполнить первые этапы, но затем отклониться от правильного пути. Поверхностное освоение шаблонов языка позволяет генерировать убедительные ответы, даже если они лишены логической основы, что подчеркивает необходимость разработки методов оценки и улучшения способности БЯМ к глубокому и надежному рассуждению.

Традиционные методы обучения с подкреплением, применяемые для тонкой настройки больших языковых моделей, зачастую ориентированы исключительно на конечный результат, игнорируя процесс рассуждений, приведший к нему. Это означает, что модель получает вознаграждение или штраф лишь за правильность ответа, без анализа шагов, которые она предприняла для его получения. Такой подход, хотя и позволяет добиться определённых успехов, препятствует развитию действительно надёжных и последовательных способностей к рассуждению, поскольку модель может научиться находить правильные ответы, используя неоптимальные или даже случайные стратегии, не понимая сути решаемой задачи. Отсутствие детальной обратной связи по ходу рассуждений ограничивает возможность исправить ошибки в логике и улучшить способность модели к обобщению на новые, более сложные задачи.

Отсутствие детализированной обратной связи существенно замедляет прогресс в создании надежных и эффективных систем рассуждений на базе больших языковых моделей. Традиционные методы обучения, оценивающие лишь конечный результат, не позволяют выявить слабые места в логической цепочке и исправить ошибки в процессе вывода. Поэтому всё больше внимания уделяется разработке методов, способных оценивать не только правильность ответа, но и качество самого процесса рассуждения — последовательность шагов, логическую связность аргументов и обоснованность выводов. Такая оценка позволяет выявлять и устранять недостатки в алгоритмах принятия решений, приближая искусственный интеллект к способности к действительно осмысленному и надежному мышлению.

В отличие от стандартного RLVR, который ориентируется исключительно на конечные результаты, CLIPO улучшает процесс обучения, максимизируя сходство между успешными траекториями рассуждений и выявляя инвариантную структуру успешных путей, что позволяет эффективно исключить ошибочные или галлюцинаторные шаги.

RLVR: Направляя Рассуждения Верифицируемой Обратной Связью

Парадигма RLVR решает проблему ограничений, присущих системам вознаграждения, основанным на конечном результате, путем создания сред, предоставляющих верифицируемые награды за каждый шаг процесса рассуждений. Традиционные системы часто оценивают только правильность итогового ответа, игнорируя логику, приведшую к нему. RLVR, напротив, позволяет оценивать и вознаграждать каждый этап логической цепочки, что способствует более эффективному обучению и позволяет модели демонстрировать не только правильные ответы, но и корректные методы их получения. Это особенно важно для сложных задач, требующих многошагового рассуждения, где промежуточные шаги могут быть столь же важны, как и конечный результат.

Парадигма RLVR использует алгоритм Group Relative Policy Optimization (GRPO) для эффективной навигации в сложных пространствах действий. GRPO оценивает относительные преимущества различных ответов, отобранных из группы, позволяя агенту определять, какие действия приводят к улучшению в контексте текущего решения. Вместо абсолютной оценки каждого действия, GRPO фокусируется на сравнении их эффективности относительно других вариантов, что особенно полезно в задачах с большим количеством возможных шагов и нечеткими критериями оценки. Этот подход позволяет агенту быстро адаптироваться и находить оптимальные стратегии, даже при отсутствии явных сигналов вознаграждения за каждый отдельный шаг.

Подход RLVR позволяет целенаправленно улучшать навыки рассуждений, отходя от простой максимизации вознаграждения. Вместо оценки конечного результата, RLVR фокусируется на промежуточных этапах логической цепочки, оценивая каждый шаг решения. Это достигается за счет предоставления верифицируемых вознаграждений за каждый корректный шаг, что позволяет агенту обучаться не просто достигать цели, а демонстрировать правильный путь к решению. Такой подход позволяет агенту развить более надежные и интерпретируемые навыки рассуждений, что особенно важно в задачах, где важна не только правильность ответа, но и обоснованность процесса его получения.

CLIPO: Контрастивное Обучение для Устойчивых Траекторий Рассуждений

CLIPO является развитием подхода RLVR и включает в себя механизм контрастивного обучения для повышения устойчивости и обобщающей способности навыков рассуждений. В отличие от RLVR, CLIPO использует контрастивное обучение для создания более надежных представлений последовательности шагов рассуждений, что позволяет модели лучше справляться с вариациями в данных и улучшать производительность на сложных задачах. Интеграция контрастивного обучения способствует формированию более устойчивых и обобщающих представлений, позволяя модели эффективно различать корректные и некорректные траектории рассуждений, что особенно важно при решении задач, требующих многошагового логического вывода.

CLIPO использует Contrastive Head для извлечения семантических эмбеддингов из скрытых состояний (Hidden States) модели. Этот механизм позволяет представить каждый шаг рассуждений в виде вектора в многомерном Embedding Space. Полученные эмбеддинги служат для кодирования семантического значения каждого шага, что обеспечивает возможность сравнения различных этапов рассуждений и выявления их взаимосвязей. Такое представление позволяет модели оценивать близость и различия между последовательностями рассуждений, что является ключевым для улучшения обобщающей способности и устойчивости к ошибкам.

Метод InfoNCE, используемый в сочетании с контрастным обучением, максимизирует согласованность между корректными траекториями рассуждений. Это достигается путем минимизации расстояния между представлениями последовательных шагов в правильном решении, и увеличения расстояния между представлениями шагов в неверных решениях. В процессе обучения модель стремится формировать семантически близкие векторы для последовательных этапов правильного решения, что позволяет ей различать корректные и некорректные пути рассуждений. Такой подход способствует изучению значимых представлений шагов рассуждений и повышает устойчивость модели к вариациям входных данных и шуму.

Оценка CLIPO проводилась на сложных наборах данных, включающих GSM8K и MATH Dataset, и показала значительное улучшение производительности в решении сложных математических задач. При использовании конфигурации GRPO+CLIPO на GSM8K достигнут показатель Pass@1 в 63.26%, а с DAPO+CLIPO на MATH500 — 44.05%. Данные результаты демонстрируют способность CLIPO к обобщению и эффективному решению задач, требующих многоступенчатого логического вывода.

Визуализация t-SNE семантических вложений после обучения показывает, что корректные траектории (<span class="katex-eq" data-katex-display="false">зелёные</span> точки) формируют чёткие кластеры, отличающиеся от вложений некорректных траекторий (<span class="katex-eq" data-katex-display="false">красные</span> точки), демонстрируя способность модели к различению правильных и ошибочных действий. — Визуализация t-SNE семантических вложений после обучения показывает, что корректные траектории ( $зелёные$ точки) формируют чёткие кластеры, отличающиеся от вложений некорректных траекторий ( $красные$ точки), демонстрируя способность модели к различению правильных и ошибочных действий.

За Пределами Точности: К Интерпретируемым и Обобщаемым Рассуждениям

В основе подхода CLIPO лежит метод контрастивного обучения, направленный на формирование представлений, улавливающих глубинную логику рассуждений, а не просто запоминающих поверхностные закономерности. Вместо того чтобы выучивать конкретные решения для конкретных задач, модель обучается различать правильные и ошибочные шаги в процессе рассуждения. Такой подход позволяет ей выделять ключевые принципы, лежащие в основе решения задач, и применять их к новым, ранее не встречавшимся сценариям. Это способствует развитию более обобщенных и устойчивых навыков рассуждения, что особенно важно для сложных задач, требующих логического мышления и анализа.

Обучение модели различать корректные и некорректные шаги рассуждений позволяет значительно повысить её способность к обобщению и применению знаний в новых, ранее не встречавшихся ситуациях. Вместо простого запоминания шаблонов и поверхностных связей, модель начинает формировать более глубокое понимание логики решения задач. Такой подход позволяет ей не просто воспроизводить ответы на знакомых примерах, а адаптироваться к различным условиям и успешно решать задачи, требующие применения принципов рассуждения в неизвестном контексте. В результате, модель демонстрирует повышенную устойчивость к изменениям в постановке задачи и способна эффективно оперировать знаниями в широком спектре сценариев, что является ключевым фактором для создания действительно интеллектуальных систем.

Интеграция моделей вознаграждения, основанных на промежуточных шагах рассуждений, позволяет добиться более точного контроля и выявления конкретных ошибок в логической цепочке. Вместо оценки только конечного результата, система оценивает каждый этап решения задачи, что дает возможность идентифицировать, на каком именно шаге возникла проблема. Такой подход позволяет не просто исправить ошибку, но и понять ее природу, что способствует более эффективному обучению и обобщению знаний. Это особенно важно при решении сложных задач, где последовательность логических шагов критически важна для достижения правильного ответа, и где выявление даже незначительной ошибки на раннем этапе может предотвратить дальнейшие неточности.

Исследования демонстрируют значительное повышение эффективности решения математических задач при использовании подхода GRPO+CLIPO. В частности, на датасете GSM8K-P1 наблюдается прирост в 1.48 пункта, а на GSM8K-P2 — впечатляющие 3.36 пункта по сравнению с базовыми моделями. Кроме того, сочетание CLIPO с моделью Llama-8B позволило добиться среднего улучшения показателя Pass@1 на 1.31% при решении задач из датасета MATH, что свидетельствует о повышенной способности к обобщению и решению более сложных математических проблем. Эти результаты подчеркивают потенциал данного подхода для создания более надежных и эффективных систем искусственного интеллекта, способных к глубокому пониманию и решению математических задач.

Исследование, представленное в данной работе, демонстрирует стремление понять и оптимизировать процессы обучения моделей, подобно тому, как инженер разбирает сложный механизм. CLIPO, предлагаемый фреймворк, нацелен на выявление и усиление успешных траекторий рассуждений, что перекликается с идеей поиска наиболее эффективного алгоритма решения задачи. Г.Х. Харди однажды заметил: «Математика — это наука о том, что можно логически доказать, а не о том, что просто вероятно». Данный подход к обучению с подкреплением, основанный на контрастивном обучении и выравнивании траекторий, стремится к доказательству эффективности, а не к простой вероятности успеха, тем самым приближаясь к идеалу логически обоснованного решения, которое, в свою очередь, обеспечивает обобщение и устойчивость модели.

Что Дальше?

Представленный подход, безусловно, открывает новые пути для обучения языковых моделей, но не стоит обольщаться. Простое выравнивание «успешных» траекторий — это лишь частичное решение. Реальный интеллект, если он вообще существует, не ограничивается повторением шаблонов. Поиск инвариантных представлений, не зависящих от конкретной формулировки задачи — вот где кроется истинный вызов. Очевидно, что текущая метрика «успешности» — весьма уязвима; достаточно небольшого отклонения в начальных условиях, и вся тщательно выстроенная траектория может рухнуть.

Будущие исследования неизбежно столкнутся с необходимостью разработки более надежных и обобщающих критериев оценки. Отказ от «чистых» наград, в пользу методов, учитывающих не только конечный результат, но и процесс рассуждений — выглядит логичным шагом. Или, возможно, стоит пересмотреть саму концепцию «обучения с подкреплением», в пользу более гибких и самоорганизующихся систем, способных к эволюции и адаптации. И, конечно, нельзя забывать о неизбежном: любая модель — это лишь упрощение реальности, и попытки «взломать» эту реальность обречены на неизбежные ошибки и неточности.

В конечном счете, вопрос не в том, сможем ли мы создать «искусственный интеллект», а в том, что мы подразумеваем под этим термином. Если это просто набор алгоритмов, способных решать узкий круг задач, то успех уже достигнут. Если же речь идет о создании настоящего разума — то предстоит ещё долгий и непредсказуемый путь, усеянный иллюзиями и парадоксами.

Оригинал статьи: https://arxiv.org/pdf/2603.10101.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-12 08:16

🚀 Квантовые новости