Почему самообучение больших языковых моделей может ослабить их способность к рассуждениям?

Автор: Денис Аветисян

Новое исследование показывает, что стремление к более точным ответам может, парадоксальным образом, снизить обобщающую способность нейросетей.

Исследование абляции показало, что применение методов <span class="katex-eq" data-katex-display="false">top-k</span>-дистилляции и снижение скорости обучения не предотвращают деградацию рассуждений, а лишь замедляют неизбежный процесс сведения к неоптимальному поведению. — Исследование абляции показало, что применение методов $top-k$ -дистилляции и снижение скорости обучения не предотвращают деградацию рассуждений, а лишь замедляют неизбежный процесс сведения к неоптимальному поведению.

Самообучение, подавляя выражение неуверенности в ответах, ухудшает способность модели к адаптации к новым задачам, особенно при высокой степени их разнообразия.

Парадоксально, но методы самодистилляции, обычно повышающие производительность больших языковых моделей (LLM), в некоторых случаях могут приводить к ухудшению их способности к логическим рассуждениям. В работе ‘Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?’ показано, что это связано с подавлением так называемой эпистемической вербализации — проявления неуверенности моделью в процессе рассуждений. Авторы обнаружили, что ограничение выражений неопределенности снижает обобщающую способность LLM, особенно при решении разнообразных задач. Не приведет ли более тонкая настройка механизмов выражения неопределенности к созданию более надежных и универсальных моделей логического мышления?

Парадоксы Самодистилляции: Когда Оптимизация Вредит

Самодистилляция, перспективный метод постобработки для больших языковых моделей, демонстрирует неожиданный парадокс при применении к сложным задачам, таким как математическое рассуждение. Несмотря на свою эффективность в упрощении моделей и повышении скорости работы, при использовании в задачах, требующих глубокого логического анализа и точных вычислений, самодистилляция зачастую приводит к снижению производительности. Это связано с тем, что процесс “обучения учителя” может приводить к упрощению сложных рассуждений и потере важных деталей, необходимых для решения математических задач. Вместо улучшения способности модели к обобщению, самодистилляция может усилить существующие ошибки или привести к неверным выводам, особенно в случаях, когда исходная модель уже имеет ограниченные возможности в области математики. Таким образом, хотя самодистилляция и является ценным инструментом в определенных контекстах, её применение к сложным задачам требует тщательной оценки и адаптации.

Первоначальные исследования в области химических задач выявили, что самодистилляция — метод, обещающий улучшение производительности больших языковых моделей — не всегда приводит к желаемому результату и требует тщательного анализа. Вместо универсального повышения эффективности, применение самодистилляции в контексте сложных химических рассуждений показало, что в некоторых случаях точность решений может даже снижаться. Это указывает на необходимость осторожного подхода к применению данной техники, поскольку её эффективность сильно зависит от специфики задачи и требует индивидуальной настройки параметров для достижения оптимальных результатов. Попытки слепого применения самодистилляции без учёта особенностей предметной области могут привести к контрпродуктивным последствиям, подчеркивая важность детального изучения и адаптации метода к конкретным задачам.

Стандартные методы самодистилляции, такие как алгоритм GRPO, демонстрируют парадоксальное поведение при применении к сложным задачам рассуждения. Вместо ожидаемого улучшения производительности, эти алгоритмы зачастую приводят к ее снижению. Исследования показывают, что попытки усовершенствовать большие языковые модели путем многократного обучения на собственных предсказаниях могут, напротив, ухудшить способность к решению задач, требующих логического мышления и анализа. Этот неожиданный результат требует тщательного изучения механизмов, лежащих в основе самодистилляции, и пересмотра существующих подходов к ее реализации, чтобы понять, почему попытки оптимизации приводят к деградации результатов в определенных областях.

Эксперименты с обучением с подкреплением показали, что GRPO незначительно улучшает обобщающую способность модели DeepSeek-R1-Distill-Qwen-7B и умеренно увеличивает использование токенов, отражающих неуверенность, в то время как SDPO ухудшает как производительность, так и использование этих токенов, особенно при <span class="katex-eq" data-katex-display="false">c=sc=s</span>. — Эксперименты с обучением с подкреплением показали, что GRPO незначительно улучшает обобщающую способность модели DeepSeek-R1-Distill-Qwen-7B и умеренно увеличивает использование токенов, отражающих неуверенность, в то время как SDPO ухудшает как производительность, так и использование этих токенов, особенно при $c=sc=s$ .

Неуверенность как Индикатор: Когда Молчание — Знак Слабости

Снижение производительности языковых моделей при решении задач логического вывода часто связано с подавлением “эпистемической вербализации” — явного выражения неуверенности или сомнения в процессе рассуждений. К таким выражениям относятся, например, фразы вроде “подождите”, “возможно”, “вероятно” или другие подобные конструкции, сигнализирующие о необходимости дополнительного обдумывания или проверки. Подавление этих маркеров неуверенности приводит к ситуации, когда модель выдает ответы с избыточной уверенностью, даже если они неверны, поскольку отсутствует явное указание на потенциальные неточности или пробелы в рассуждениях. Это явление демонстрирует, что способность модели выражать неуверенность не является дефектом, а напротив, может быть важным компонентом надежного логического вывода.

Алгоритмы, такие как SDPO, в процессе самодистилляции, как правило, минимизируют проявление неуверенности в рассуждениях, выражаемое в виде, например, вводных фраз или слов-маркеров неопределенности. Это приводит к тому, что модель демонстрирует чрезмерную уверенность в своих ответах, даже если они неверны. Уменьшение количества этих “эпистемических вербализаций” приводит к снижению фактической точности, поскольку алгоритм стремится к уверенному, но ошибочному результату, вместо признания возможности ошибки или необходимости дополнительного анализа.

Исследования показывают, что языковые модели, такие как DeepSeek-R1, демонстрируют прямую корреляцию между частотой использования “эпистемической вербализации” — выражения неуверенности в рассуждениях, например, с помощью фраз “подождите” или “возможно” — и улучшением качества логических выводов. Это указывает на то, что признание неопределенности не является дефектом модели, а, напротив, функциональной особенностью, способствующей более точным результатам. В отличие от алгоритмов, стремящихся к минимизации подобных выражений, DeepSeek-R1 показывает, что явное указание на потенциальную неточность является признаком более надежного процесса рассуждения.

Традиционные метрики уверенности в ответах больших языковых моделей (LLM) не всегда коррелируют с фактической точностью решения математических задач. Эксперименты на бенчмарке AIME24 показали, что модель SDPO, минимизирующая проявление неуверенности в рассуждениях (например, использование слов “подождите” или “возможно”), продемонстрировала снижение производительности с 0.25 до 0.23. Это указывает на то, что снижение количества “эпистемических токенов” — лексических единиц, выражающих неуверенность — приводит к увеличению числа ошибочных, но уверенно сформулированных ответов, а не к повышению точности.

В процессе обучения с подкреплением Qwen3-8B (в режиме рассуждения) методы GRPO и SDPO снижают использование эпистемических токенов, однако более агрессивное подавление в SDPO приводит к заметному ухудшению производительности на задачах, выходящих за рамки тренировочного набора, особенно на AIME24.

Режим “Рассуждения”: Возвращение к Честности и Прозрачности

Активация режима “Рассуждения” (Thinking Mode) в больших языковых моделях (LLM), таких как Qwen3, позволяет значительно расширить и детализировать процесс логического вывода, эффективно усиливая явное выражение эпистемической вербализации. Этот режим стимулирует модель к более подробному описанию своих рассуждений, включая промежуточные шаги и оценки неопределенности, что приводит к более прозрачному и контролируемому процессу принятия решений. В отличие от стандартной работы, где модель выдает конечный ответ, “Рассуждения” делает явным ход мысли, позволяя лучше понять логику, лежащую в основе ответа, и выявить потенциальные ошибки.

Стандартные методы самодистилляции (self-distillation) часто приводят к снижению производительности больших языковых моделей, поскольку они стремятся к уверенным, но потенциально неверным ответам. Активация режима «думающего» (Thinking Mode) позволяет модели явно выражать ход своих рассуждений, включая указание на неопределенности и сомнения. Это способствует более тщательному анализу задачи и снижает вероятность принятия ошибочных решений, вызванных чрезмерной уверенностью. Таким образом, явное представление неопределенностей в процессе самодистилляции позволяет смягчить негативные эффекты и повысить общую надежность и точность модели.

Оценка на сложных математических бенчмарках — DAPO-Math-17k, AIME24 и AMC23 — продемонстрировала значительное улучшение производительности при комбинировании режима “Thinking Mode” с самодистилляцией. В частности, в то время как SDPO снизил точность на AIME24 до 0.23, он повысил точность на AMC23 с 0.67 до 0.73, при этом сократив длину ответов. Полученные результаты указывают на то, что ключевым фактором успешной самодистилляции является не устранение неопределенности, а её адекватное захватывание и использование в процессе обучения.

Результаты исследований показывают, что эффективность самодистилляции (self-distillation) напрямую зависит от способности модели корректно обрабатывать и использовать неопределенность в процессе обучения. Традиционные подходы, направленные на полное устранение неопределенности, могут приводить к снижению производительности, особенно в сложных задачах, таких как решение математических задач. Вместо этого, акцент должен быть сделан на фиксации и использовании информации о степени уверенности модели в своих ответах, что позволяет улучшить обобщающую способность и повысить точность решения сложных задач, как продемонстрировано на бенчмарках DAPO-Math-17k, AIME24 и AMC23.

Эксперименты с Qwen3-8B показали, что увеличение длины генерируемого текста приводит к снижению оценки обучения, но улучшает результаты на задачах AMC23 и AIME24, одновременно изменяя использование эпистемических токенов.

Исследование демонстрирует, что самообучение, призванное улучшить производительность больших языковых моделей, зачастую приводит к подавлению ‘эпистемической вербализации’ — способности выражать неуверенность. Этот парадоксальный эффект, как ни странно, снижает способность к обобщению, особенно при высокой вариативности задач. Кажется, системы учатся не столько решать проблемы, сколько убедительно имитировать решение. Как точно подметил Марвин Минский: «Наиболее мощные сущности часто оказываются наиболее хрупкими». И в данном случае, стремление к безупречному ответу оборачивается потерей гибкости и способности адаптироваться к новым условиям. Похоже, legacy-код в ИИ — это не только ошибка, но и неотъемлемая часть его эволюции.

Куда же это всё ведёт?

Наблюдаемый парадокс — усиление производительности за счёт подавления признаков неуверенности — предсказуем. Каждая «оптимизация», стремящаяся к безупречности ответа, неизбежно упрощает модель мира, отбрасывая нюансы. Архитектура, в конечном счёте, это не схема, а компромисс, выживший после деплоя. Работа демонстрирует, что способность модели выражать сомнения — своего рода регуляризатор, необходимый для обобщения в условиях высокой вариативности задач. Иначе говоря, всё, что оптимизировано, рано или поздно оптимизируют обратно.

Будущие исследования, вероятно, сосредоточатся на механизмах явного моделирования неопределённости. Необходимо понять, как контролировать «эпистемическую вербализацию» без ущерба для точности. Вместо стремления к полному устранению ошибок, возможно, стоит научиться «управляемым галлюцинациям» — создавать модели, способные признавать границы своей компетенции и предлагать альтернативные интерпретации.

В конечном счёте, задача не в создании идеального ИИ, а в создании ИИ, который честно признаёт свою неидеальность. Мы не рефакторим код — мы реанимируем надежду на то, что даже в сложных системах можно найти баланс между производительностью и осознанием собственных ограничений.

Оригинал статьи: https://arxiv.org/pdf/2603.24472.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-26 17:17

🚀 Квантовые новости

Парадоксы Самодистилляции: Когда Оптимизация Вредит

Неуверенность как Индикатор: Когда Молчание — Знак Слабости

Режим “Рассуждения”: Возвращение к Честности и Прозрачности

Куда же это всё ведёт?

Смотрите также: