Автор: Денис Аветисян
Новое исследование выявило нестабильность в обучении языковых моделей с подкреплением при использовании инструментов, приводящую к резкому снижению производительности.

Исследователи идентифицировали и устранили проблему ‘ленивого смещения правдоподобия’ (Lazy Likelihood Displacement) в процессе обучения, продемонстрировав эффективность простого метода регуляризации для сохранения правдоподобия и повышения стабильности.
Несмотря на успехи обучения с подкреплением для языковых моделей, использующих внешние инструменты, алгоритм GRPO, демонстрирующий быструю сходимость, часто страдает от нестабильности обучения. В работе ‘On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral’ выявлена ключевая причина этой проблемы — «Lazy Likelihood Displacement» (LLD), систематическое снижение вероятности как правильных, так и ошибочных ответов, приводящее к самоподдерживающейся спирали коллапса обучения. Предложенный механизм регуляризации, сохраняющий вероятность, стабилизирует процесс обучения и значительно улучшает производительность, демонстрируя прирост до +37.8% на Qwen2.5-3B. Возможно ли, что LLD является фундаментальным ограничением для обучения с подкреплением в задачах, требующих взаимодействия с инструментами, и как это открытие повлияет на разработку более надежных и масштабируемых систем?
Проблема Рассуждений с Инструментами: Неизбежность Сбоя?
Несмотря на впечатляющие успехи больших языковых моделей (LLM) в решении разнообразных задач, способность к рассуждениям с использованием инструментов — критически важная для ответов на сложные вопросы — остается серьезным препятствием. В то время как LLM демонстрируют мастерство в генерации текста и понимании языка, интеграция внешних инструментов, таких как калькуляторы, поисковые системы или базы данных, для выполнения логических операций и получения точной информации представляет значительные трудности. Эта проблема не ограничивается просто вызовом нужного инструмента; модели часто испытывают трудности с интерпретацией результатов работы инструмента и их последующим использованием для формирования окончательного ответа. Таким образом, способность к последовательному и надежному рассуждению, подкрепленному инструментами, является ключевым фактором для достижения действительно интеллектуальных возможностей у LLM и раскрытия их потенциала в решении реальных проблем.
Современные подходы к обучению больших языковых моделей (LLM) с использованием инструментов, такие как GRPO (Guided Reinforcement Policy Optimization), часто сталкиваются с проблемами нестабильности и коллапса обучения. Это проявляется в том, что модель, несмотря на правильные ответы, может демонстрировать снижение уверенности в своих предсказаниях, что негативно сказывается на процессе обучения и эффективности использования инструментов. Нестабильность возникает из-за сложности координации между языковой моделью и внешними инструментами, требующими точной калибровки вознаграждений и стратегий исследования, что представляет значительную инженерную и алгоритмическую задачу. Подобные проблемы ограничивают способность LLM эффективно применять инструменты для решения сложных задач и требуют разработки более надежных и устойчивых методов обучения.
Явление, известное как “ленивое смещение правдоподобия” (Lazy Likelihood Displacement, LLD), представляет собой критическую проблему в обучении больших языковых моделей (LLM) с использованием инструментов. В процессе обучения, даже когда модель генерирует правильные ответы, её уверенность в этих ответах может неожиданно снижаться. Этот парадоксальный эффект приводит к тому, что алгоритм обучения ошибочно воспринимает корректные предсказания как неверные, что существенно замедляет процесс обучения и может привести к его полному провалу. Вместо укрепления правильных ответов, модель как бы “ленится” подтверждать их, что снижает её общую эффективность и способность к сложным рассуждениям, требующим использования внешних инструментов и точной оценки вероятностей.

LLDS: Сохранение Правдоподобия для Стабильного Обучения
LLDS представляет собой метод регуляризации, разработанный специально для смягчения проблемы снижения правдоподобия (Likelihood Decay, LLD) и стабилизации процесса обучения GRPO (Gradient-based Policy Optimization) в задачах обучения с подкреплением с использованием инструментов. Данный метод направлен на повышение устойчивости обучения моделей, работающих с внешними инструментами, за счет контроля за изменениями в распределении вероятностей, генерируемом моделью. LLDS обеспечивает более предсказуемую траекторию обучения и предотвращает отклонения, которые могут возникнуть при использовании GRPO в контексте tool-integrated RL.
Метод LLDS использует регуляризацию на основе правдоподобия, но в отличие от традиционных подходов, применяет штрафы только к тем токенам, которые приводят к уменьшению вероятности выходной последовательности. Это достигается путем вычисления изменения в логарифме правдоподобия для каждого токена и применения регуляризации только к тем токенам, для которых это изменение отрицательно. Такой подход позволяет избежать излишней регуляризации, сохраняя уверенность модели в корректных ответах и предотвращая подавление полезных токенов, что особенно важно для стабильности обучения в задачах обучения с подкреплением с использованием инструментов.
Метод LLDS позволяет избежать чрезмерной регуляризации за счет фокусировки на токенах, действительно снижающих вероятность правильного ответа. Это позволяет модели сохранять уверенность в корректных ответах, что приводит к более стабильным траекториям обучения и, как следствие, к улучшению производительности. Эксперименты на открытых вопросно-ответных задачах (open-domain QA) с использованием модели Qwen-2.5-3B показали прирост производительности до +37.8% по сравнению с другими методами регуляризации.

Механизм: Селективная Регуляризация для Стабилизации Траекторий
Метод LLDS использует механизм Response-Level Gating, который активирует регуляризацию только при снижении общей правдоподобности всей траектории генерации, оцениваемой с помощью метрики Trajectory-level Likelihood. Данный подход предполагает, что регуляризация применяется не к каждому отдельному токену или шагу, а только когда наблюдается ухудшение вероятности полной последовательности ответа. Это позволяет избежать штрафования незначительных колебаний в процессе обучения и фокусироваться на ситуациях, когда модель существенно отклоняется от оптимального поведения, обеспечивая стабильность обучения и предотвращая потерю уверенности в генерации.
Метод LLDS избегает штрафования незначительных колебаний вероятности при обучении, концентрируясь исключительно на существенных снижениях траекторной вероятности. Такой подход позволяет сохранить ценные сигналы обучения, которые могли бы быть подавлены при использовании стандартных методов регуляризации, реагирующих на любые изменения. Игнорирование незначительных флуктуаций позволяет модели более эффективно адаптироваться к данным и избегать переобучения на случайном шуме, что способствует стабилизации процесса обучения и повышению качества генерируемых ответов.
Применяемый селективный подход напрямую решает проблему потери уверенности в процессе обучения (LLD), стабилизируя тренировочный процесс. Результаты тестирования на модели Qwen-2.5-3B показали достижение показателя EM Score в 0.430, что на 37.8% выше, чем у базового алгоритма GRPO. Данное улучшение свидетельствует об эффективности метода в предотвращении деградации производительности модели и поддержании стабильности обучения за счет фокусировки регуляризации только на значимых снижениях вероятности траектории.

Влияние и Применение в Системах Вопросно-Ответного Типа
Экспериментальные исследования показали, что LLDS значительно повышает стабильность и эффективность систем, основанных на GRPO, таких как Search-R1. Данная система использует плотный извлекатель (E5) для доступа к инструментам, и LLDS позволяет ей функционировать более надежно в сложных сценариях. Улучшение стабильности достигается за счет более эффективного управления процессом взаимодействия с внешними инструментами, что позволяет избежать ошибок и повысить точность ответов. В результате, LLDS способствует более плавной и предсказуемой работе всей системы, делая ее более пригодной для решения реальных задач, требующих доступа к внешним ресурсам и сложной обработки информации.
Стабилизация, достигнутая благодаря предложенному подходу, непосредственно отразилась на улучшении результатов в сложных задачах вопросно-ответных систем, включая многошаговые и открытые вопросы. В ходе экспериментов с моделью Qwen-2.5-7B был достигнут показатель EM Score в 0.462, что демонстрирует прирост в 32.0% по сравнению с предыдущими результатами. Такое значительное повышение точности указывает на то, что предложенная методика позволяет моделям более эффективно извлекать и синтезировать информацию, необходимую для предоставления корректных ответов даже на самые сложные запросы, что открывает новые возможности для применения в интеллектуальных системах поддержки принятия решений и автоматизированных консультантах.
Интеграция инструментов становится надёжнее благодаря LLDS, что открывает большие возможности для языковых моделей в решении сложных задач, требующих логических выводов. Данная система позволяет LLM успешно справляться с многоступенчатым рассуждением, что подтверждается показателем Valid Search Frequency, превышающим 2.0 при использовании LLDS-MA. Это означает, что модель способна последовательно выполнять несколько поисковых запросов и использовать полученные результаты для формирования обоснованного ответа, преодолевая ограничения, которые ранее не позволяли ей эффективно решать сложные вопросы, требующие анализа и синтеза информации из различных источников. Таким образом, LLDS значительно расширяет границы возможностей LLM в области интеллектуального анализа и принятия решений.

В изучении нестабильности систем обучения с подкреплением, как демонстрируется в данной работе, прослеживается закономерность, знакомая любому, кто наблюдал за эволюцией сложных конструкций. Ошибки и отклонения — не провалы, а скорее этапы взросления. Клод Шеннон однажды заметил: «Теория коммуникации — это, по сути, изучение ограничений». Это наблюдение удивительно точно отражает суть проблемы “Lazy Likelihood Displacement”, описанной в статье. Ведь именно игнорирование ограничений вероятностного пространства приводит к деградации модели. Регуляризация, направленная на сохранение правдоподобия, предложенная авторами, — это не столько исправление ошибок, сколько признание границ, в которых система способна функционировать. Каждый рефакторинг начинается как молитва и заканчивается покаянием, ведь любое изменение в архитектуре — это пророчество о будущем сбое, и лишь понимание ограничений позволяет смягчить его последствия.
Что дальше?
Настоящая работа выявила зыбкость, скрытую в стремлении усилить языковые модели инструментами. Проблема “ленивого смещения правдоподобия” — это не ошибка реализации, а закономерность. Каждая новая архитектура обещает свободу от ограничений, пока не потребует DevOps-жертвоприношений. Устойчивость обучения — иллюзия, порядок — просто временный кэш между сбоями. Регуляризация, сохраняющая правдоподобие, — это не панацея, а лишь отсрочка неизбежного.
Будущие исследования, вероятно, сосредоточатся на более глубоком понимании динамики обучения с подкреплением в контексте сложных, инструментально расширенных моделей. Системы — это не инструменты, а экосистемы. Их нельзя построить, только вырастить. Важно не столько найти идеальный алгоритм, сколько разработать методы наблюдения и адаптации к возникающему хаосу. Умение предсказывать точки бифуркации, когда незначительные изменения приводят к катастрофическим последствиям, станет ключевым навыком.
В конечном счете, истинный прогресс будет заключаться не в создании более мощных моделей, а в разработке принципов проектирования, позволяющих им эволюционировать и адаптироваться к непредсказуемости реального мира. Каждый архитектурный выбор — это пророчество о будущем сбое, и мудрость заключается в том, чтобы научиться читать эти знаки.
Оригинал статьи: https://arxiv.org/pdf/2512.04220.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- LLM: математика — предел возможностей.
- Модель Motif 2 12.7B: Новый взгляд на эффективные языковые модели
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Взгляд в будущее видео: ускорение генерации с помощью LiteAttention
- Квантовый шум: новые горизонты квантовых алгоритмов
- Уменьшение глубины квантовых схем: новый путь к устойчивым алгоритмам
- Квантовые проблемы и их решения: взгляд на ICQE 2025 и далее
- Разумный диагноз: Как искусственный интеллект помогает выявить болезнь Альцгеймера
- Видео-R4: Размышляя над видео, чтобы лучше понимать текст
- Квантовый прыжок в будущее: юмористический взгляд на недавние квантовые приключения!
2025-12-05 06:32