Умнее и лаконичнее: сжатие рассуждений в больших языковых моделях

Автор: Денис Аветисян


Новый метод позволяет значительно сократить объем информации, необходимой для принятия решений моделями искусственного интеллекта, не теряя при этом их способности к сложным задачам.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Самообучение с дистилляцией позволяет модели сохранять стабильную энтропию в процессе обучения, в отличие от обучения с подкреплением, использующего штрафы за длину, которое приводит к её коллапсу; представленный метод OPSDC обеспечивает обучение лаконичности без потери способности к исследованию, что подтверждается стабильностью энтропии моделей Qwen3-8B и Qwen3-14B.
Самообучение с дистилляцией позволяет модели сохранять стабильную энтропию в процессе обучения, в отличие от обучения с подкреплением, использующего штрафы за длину, которое приводит к её коллапсу; представленный метод OPSDC обеспечивает обучение лаконичности без потери способности к исследованию, что подтверждается стабильностью энтропии моделей Qwen3-8B и Qwen3-14B.

Предложена методика самообучения с использованием инструкции на краткость (On-Policy Self-Distillation) для эффективного сжатия цепочек рассуждений в больших языковых моделях.

Несмотря на впечатляющую способность больших языковых моделей к рассуждениям, значительная часть генерируемых ими текстов оказывается избыточной и даже вредной для конечного результата. В данной работе, ‘On-Policy Self-Distillation for Reasoning Compression’, представлен метод OPSDC — новый подход к самодистилляции, позволяющий эффективно сжимать цепочки рассуждений, обучая модель генерировать более лаконичные ответы. Суть метода заключается в использовании инструкции на «краткость» для получения целевых распределений и минимизации расхождения КЛ (Kullback-Leibler) между ними и распределениями, генерируемыми самой моделью. Возможно ли дальнейшее повышение эффективности и обобщающей способности моделей за счет более тонкой настройки процесса самодистилляции и разработки адаптивных стратегий сжатия?


Глубина Разума: Вызов для Больших Моделей

Несмотря на впечатляющие результаты в различных областях, большие языковые модели часто демонстрируют трудности при решении сложных задач, требующих многоступенчатого рассуждения — так называемая “проблема глубины”. В отличие от способности генерировать связный текст или переводить языки, модели испытывают затруднения, когда требуется последовательно применять логические правила и выводы для достижения конечной цели. Это проявляется в неспособности правильно решать математические задачи, требующие нескольких шагов, или в сложностях при анализе длинных и сложных текстов, где необходимо извлекать и объединять информацию из разных частей. Суть проблемы заключается в том, что модели, обученные на огромных объемах данных, часто запоминают корреляции, а не учатся действительно понимать причинно-следственные связи, что ограничивает их способность к глубокому и надежному рассуждению.

Несмотря на впечатляющие успехи в обработке языка, простое увеличение размера языковых моделей не гарантирует существенного улучшения их способности к сложному рассуждению. Исследования показывают, что наращивание количества параметров, хотя и может повысить производительность на некоторых задачах, часто сталкивается с законом убывающей доходности. Более того, экспоненциальный рост размера модели влечет за собой значительные вычислительные затраты, требуя всё больше энергии и ресурсов для обучения и функционирования. Это создает серьезные ограничения для широкого применения таких моделей, особенно в условиях ограниченных ресурсов или необходимости оперативной обработки информации. Таким образом, эффективное решение проблемы глубины рассуждений требует не только увеличения масштаба, но и разработки новых архитектур и алгоритмов, способных более эффективно использовать имеющиеся ресурсы.

Существующие подходы к улучшению логического мышления больших языковых моделей часто сталкиваются с проблемой баланса между точностью решения и эффективностью самого процесса рассуждения. Многие методы, стремясь к более высокой точности, генерируют избыточно длинные и сложные цепочки умозаключений, что значительно увеличивает вычислительные затраты и замедляет работу модели. В то же время, попытки упростить процесс рассуждения часто приводят к снижению точности и возникновению ошибок в конечном ответе. Таким образом, актуальной задачей является разработка алгоритмов, способных находить оптимальное соотношение между длиной рассуждений и их достоверностью, обеспечивая как высокую точность решения, так и приемлемую вычислительную эффективность.

Обучение моделей Qwen3-8B и Qwen3-14B с использованием качественных кратких инструкций и периодическим обновлением учителя демонстрирует устойчивое повышение точности на наборе данных MATH-500 (с ∼78% до ∼87% для 8B и ∼70% до ∼87% для 14B), в то время как результаты на AIME 2024 и AIME 2025, обусловленные малым объемом выборки (по 30 задач), показывают более значительные колебания, но в целом остаются стабильными или слегка улучшаются.
Обучение моделей Qwen3-8B и Qwen3-14B с использованием качественных кратких инструкций и периодическим обновлением учителя демонстрирует устойчивое повышение точности на наборе данных MATH-500 (с ∼78% до ∼87% для 8B и ∼70% до ∼87% для 14B), в то время как результаты на AIME 2024 и AIME 2025, обусловленные малым объемом выборки (по 30 задач), показывают более значительные колебания, но в целом остаются стабильными или слегка улучшаются.

OPSDC: Сжатие Рассуждений через Самодистилляцию

Метод OPSDC (On-Policy Self-Distillation for Reasoning Compression) использует собственные выходные данные модели в качестве обучающего сигнала, что позволяет повысить внутреннюю согласованность процесса рассуждений. В отличие от традиционных методов дистилляции, где учитель — это отдельная, более крупная модель или экспертные данные, OPSDC использует текущую версию модели для генерации «учительских» ответов, которые затем используются для обучения той же модели как «студента». Этот подход позволяет модели самостоятельно улучшать качество рассуждений, опираясь на собственные предсказания и последовательно оптимизируя внутренние представления. Такая самодистилляция способствует повышению надежности и предсказуемости модели, а также позволяет ей эффективно использовать имеющиеся ресурсы для генерации более лаконичных и точных ответов.

Метод OPSDC использует уникальную инструкцию, направленную на лаконичность (“conciseness instruction”), которая побуждает модель к приоритезации сжатых и прямых шагов рассуждений. Эта инструкция задается в процессе обучения с учителем, где модель выступает и в роли ученика, и в роли учителя. В отличие от стандартных методов дистилляции, которые могут поощрять избыточность в процессе рассуждений, данная инструкция стимулирует генерацию наиболее релевантной и краткой последовательности логических шагов, необходимых для решения задачи. Это приводит к повышению эффективности модели и снижению вычислительных затрат, особенно в задачах, требующих сложных цепочек рассуждений.

Ключевым элементом OPSDC является использование обратной дивергенции Кулбака-Лейблера (Reverse Kullback-Leibler Divergence), которая в процессе обучения взвешивает обновления на основе распределения вероятностей, выдаваемого студенческой моделью. В отличие от стандартной дивергенции КЛ, которая заставляет студента имитировать учителя, обратная дивергенция КЛ фокусируется на максимизации вероятности, которую студент присваивает тем же токенам, что и в распределении учителя, тем самым стимулируя самосовершенствование и избегая простого копирования. Математически, это выражается как D_{KL}(p_{teacher} || p_{student}), где p_{teacher} и p_{student} представляют собой распределения вероятностей учителя и студента соответственно. Такой подход позволяет студенту улучшать собственные прогнозы, даже если они отличаются от учителя, что способствует более эффективной компрессии модели и повышению её способности к обобщению.

Периодическое обновление «учителя» в процессе дистилляции знаний является важным механизмом для обеспечения стабильности обучения и предотвращения катастрофического забывания. В рамках OPSDC, модель, выступающая в роли учителя, обновляется через определенные интервалы, используя свои собственные, уже улучшенные, выходы. Это позволяет избежать ситуации, когда студент слишком сильно полагается на устаревшие или неоптимальные знания учителя. Регулярное обновление учителя способствует более плавному процессу обучения, сохраняя важные знания, приобретенные на предыдущих этапах, и предотвращая потерю информации, которая может возникнуть при длительном использовании фиксированного «учителя». Это особенно важно для сложных задач, требующих сохранения контекста и последовательности рассуждений.

Самообучение с использованием лаконичного учителя позволило повысить точность моделей Qwen3-8B (с ∼52% до ∼66%) и Qwen3-14B (с ∼46% до ∼72%) на обучающих данных, перераспределив вероятность в пользу прямых и корректных путей рассуждений, даже без использования явных сигналов вознаграждения за правильность.
Самообучение с использованием лаконичного учителя позволило повысить точность моделей Qwen3-8B (с ∼52% до ∼66%) и Qwen3-14B (с ∼46% до ∼72%) на обучающих данных, перераспределив вероятность в пользу прямых и корректных путей рассуждений, даже без использования явных сигналов вознаграждения за правильность.

Проверка Эффективности: Результаты на Строгих Бенчмарках

Метод OPSDC демонстрирует значительное сокращение количества токенов — от 57% до 59% на бенчмарке MATH-500 — без снижения точности, а зачастую и с её улучшением, на наборах данных MATH-500 и DAPO-Math-17k. Данное сокращение достигается за счёт оптимизации представления данных, позволяя обрабатывать больше информации при тех же вычислительных ресурсах. Результаты показывают, что уменьшение количества токенов не приводит к ухудшению производительности, а в некоторых случаях даже способствует повышению точности решения математических задач.

Метод OPSDC продемонстрировал высокую производительность на соревновании AIME (American Invitational Mathematics Examination), достигнув точности 76.3% на наборе данных AIME 2024 при одновременном сжатии на 41%. На более сложном наборе данных AIME 2025 точность составила 63-67% при сжатии 35%. Эти результаты подтверждают способность метода обобщать знания и эффективно решать задачи, характерные для соревнований высокого уровня.

Метод OPSDC демонстрирует адаптивную компрессию, основанную на сложности задачи. Это означает, что степень сжатия токенов варьируется в зависимости от уровня сложности решаемой математической проблемы. На более простых задачах применяется более агрессивное сжатие, что позволяет существенно уменьшить объем данных, необходимых для обработки, в то время как на сложных задачах степень сжатия снижается, чтобы обеспечить сохранение высокой точности решения. Такой подход позволяет оптимизировать производительность и эффективность метода, сочетая значительное уменьшение размера входных данных с поддержанием или даже улучшением результатов на различных математических бенчмарках.

Средняя длина сгенерированных ответов уменьшается при использовании forward KL, при этом резкие падения коррелируют с границами обновления учителя.
Средняя длина сгенерированных ответов уменьшается при использовании forward KL, при этом резкие падения коррелируют с границами обновления учителя.

Влияние и Перспективы Эффективного Рассуждения

Метод OPSDC представляет собой эффективный и практичный подход к развертыванию больших языковых моделей в условиях ограниченных вычислительных ресурсов. Исследования показали, что данный метод позволяет значительно уменьшить размер модели и снизить требования к памяти, не жертвуя при этом качеством ее работы. В отличие от традиционных методов сжатия, OPSDC фокусируется на оптимизации процесса самодистилляции, что позволяет модели сохранять ключевые знания и навыки рассуждения даже после уменьшения ее размера. Это открывает возможности для использования передовых языковых моделей на устройствах с ограниченной мощностью, таких как мобильные телефоны или встраиваемые системы, расширяя доступ к технологиям искусственного интеллекта и делая их более универсальными.

Успешное применение самодистилляции с запросом на краткость указывает на многообещающий путь к повышению интерпретируемости и надежности рассуждений искусственного интеллекта. Данный подход позволяет модели не только генерировать ответы, но и самостоятельно оценивать их лаконичность, тем самым формируя более четкие и понятные объяснения. Исследования показали, что побуждение модели к более сжатому изложению аргументов способствует выявлению наиболее существенных факторов, лежащих в основе ее решений. Это, в свою очередь, облегчает процесс проверки и отладки, а также повышает доверие к результатам, предоставляемым искусственным интеллектом. В перспективе, подобные методы могут стать ключевым элементом в создании прозрачных и объяснимых систем ИИ, способных обосновывать свои выводы понятным для человека языком.

Дальнейшие исследования направлены на расширение области применения OPSDC за пределы текущих задач, с акцентом на адаптацию метода к различным предметным областям и типам данных. Особое внимание уделяется возможности комбинирования OPSDC с другими техниками сжатия моделей, такими как квантизация и прунинг, для достижения еще более высокой эффективности и снижения вычислительных затрат. Предполагается, что синергия между OPSDC и альтернативными подходами позволит создавать компактные и производительные модели, пригодные для развертывания на широком спектре устройств, включая мобильные телефоны и встроенные системы, что откроет новые возможности для применения искусственного интеллекта в различных областях науки и техники.

Исследование демонстрирует, что сжатие логических цепочек в больших языковых моделях возможно не только без потери качества, но и с его улучшением. Авторы предлагают метод OPSDC, основанный на самодистилляции и простой инструкции к краткости. Это напоминает о важности поиска скрытых закономерностей в, казалось бы, очевидных системах. Брайан Керниган однажды заметил: «Простота — это высшая степень совершенства». Этот принцип находит отражение в OPSDC, где стремление к лаконичности приводит к повышению эффективности и точности модели, подтверждая, что истинная сила заключается не в объеме, а в умении передать суть.

Куда Далее?

Представленная работа демонстрирует, что сжатие процесса рассуждений в больших языковых моделях — задача не только возможная, но и, возможно, недооцененная. Метод OPSDC, побуждая модель к лаконичности, открывает двери к более эффективным системам, но за кажущейся простотой кроется вопрос: насколько глубоко мы понимаем, что именно «сжимается»? Не является ли эта лаконичность лишь маскировкой, упрощением истинной сложности процесса мышления?

Очевидным направлением дальнейших исследований представляется изучение границ применимости данного подхода. В каких задачах сжатие рассуждений наиболее эффективно? Где оно, напротив, приводит к неприемлемым потерям качества? И, что более важно, как можно контролировать этот процесс, чтобы избежать нежелательных «побочных эффектов» — искажения фактов, упрощения логики, или даже появления новых видов «галлюцинаций»?

В конечном итоге, успешное сжатие рассуждений — это не просто оптимизация токенов, но и шаг к более глубокому пониманию природы интеллекта, искусственного или иного. Если система не может быть «взломана» путем сжатия, значит, мы её ещё не поняли до конца. И это, пожалуй, самое интересное.


Оригинал статьи: https://arxiv.org/pdf/2603.05433.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-07 00:16