Точность против разнообразия: как обучить языковую модель думать?

Автор: Денис Аветисян


Новое исследование показывает, что контроль над энтропией токенов во время предварительного обучения языковых моделей позволяет повысить их способность к рассуждениям и улучшить результаты обучения с подкреплением.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В ходе предварительного обучения плотных моделей объемом 1B и 4B наблюдается динамика изменения перплексии и энтропии, демонстрирующая влияние различных конфигураций на сходимость и качество языковой модели <span class="katex-eq" data-katex-display="false"> P(x) </span>.
В ходе предварительного обучения плотных моделей объемом 1B и 4B наблюдается динамика изменения перплексии и энтропии, демонстрирующая влияние различных конфигураций на сходимость и качество языковой модели P(x) .

Стратегическая регуляция энтропии токенов при предварительном обучении значительно улучшает производительность и возможности языковых моделей в задачах обучения с подкреплением.

Не всегда очевидно, как наилучшим образом настроить процесс обучения больших языковых моделей для достижения оптимальных результатов в задачах, требующих рассуждений. В работе ‘Diversity or Precision? A Deep Dive into Next Token Prediction’ исследуется влияние стратегий предобучения на эффективность обучения с подкреплением и, как следствие, на общую способность модели к логическим выводам. Авторы показывают, что приоритет точности предсказания следующего токена над разнообразием выходных распределений создает более благоприятное пространство для последующего обучения с подкреплением. Может ли подобный подход к формированию предобучающих целей стать ключевым фактором в создании действительно «рассуждающих» языковых моделей?


Элегантность Рассуждений: Преодолевая Ограничения Масштаба

Несмотря на впечатляющие возможности, демонстрируемые большими языковыми моделями, достижение надёжного рассуждения остаётся значительной проблемой. Эти модели, обученные на огромных массивах текстовых данных, превосходно справляются с задачами, требующими запоминания и воспроизведения информации, однако часто терпят неудачу в ситуациях, требующих логического вывода, анализа и применения знаний к новым, не встречавшимся ранее контекстам. Наблюдаемые ошибки не связаны с недостатком информации, а скорее с неспособностью модели эффективно использовать имеющиеся знания для построения последовательных и обоснованных рассуждений, что указывает на необходимость разработки новых подходов к обучению и архитектуре, направленных на улучшение способности к логическому мышлению и решению сложных задач.

Несмотря на впечатляющий прогресс в области больших языковых моделей, простое увеличение их размера перестаёт приносить соразмерный прирост в способностях к рассуждению. Исследования показывают, что после определённой точки увеличение количества параметров приводит к уменьшению эффективности и требует экспоненциального роста вычислительных ресурсов. Это указывает на необходимость поиска новых архитектурных решений и инновационных методов обучения, которые позволят моделям не просто запоминать информацию, но и действительно понимать её, устанавливать причинно-следственные связи и делать логически обоснованные выводы. Вместо слепого масштабирования, фокус смещается на разработку более эффективных алгоритмов и структур, способных обеспечить качественное улучшение способностей к рассуждению даже при ограниченных ресурсах.

Современные подходы к созданию больших языковых моделей зачастую сталкиваются с трудностями при решении сложных, многошаговых задач, что приводит к неточным или логически несостоятельным результатам. Несмотря на впечатляющие возможности в генерации текста и понимании языка, модели демонстрируют ограниченность в ситуациях, требующих последовательного применения логических правил и построения цепочки умозаключений. В частности, при решении задач, где необходимо учитывать множество взаимосвязанных факторов или проводить анализ на основе неявных предположений, модели склонны к ошибкам и противоречиям. Это связано с тем, что существующие архитектуры и методы обучения недостаточно эффективны для моделирования сложных процессов рассуждения, требующих не только запоминания информации, но и способности к ее анализу и синтезу, а также к выявлению причинно-следственных связей.

Обучение с подкреплением различных моделей акторов, построенных на плотной 4B архитектуре, демонстрирует зависимость производительности от выбранной конфигурации.
Обучение с подкреплением различных моделей акторов, построенных на плотной 4B архитектуре, демонстрирует зависимость производительности от выбранной конфигурации.

Обучение с Подкреплением: Направляя Модели к Логическим Выводам

Вместо традиционного подхода, основанного на предсказании следующего токена в последовательности, мы используем обучение с подкреплением для тренировки моделей, способных к рассуждениям, направленным на получение проверяемых решений. Это достигается путем представления задачи не как простого прогнозирования, а как процесса логического вывода, где модель активно ищет последовательность действий (токенов), приводящих к обоснованному и верифицируемому ответу. Фактически, модель обучается не просто «угадывать» следующее слово, а строить цепочку рассуждений, поддающихся проверке на корректность и логическую согласованность.

Вместо традиционного предсказания следующего токена, мы рассматриваем процесс как задачу логического вывода, что позволяет использовать сигналы вознаграждения для обучения модели последовательности действий, ведущих к логически непротиворечивым результатам. Это достигается путем определения функции вознаграждения, которая оценивает соответствие каждого сгенерированного токена и всей последовательности заданным критериям логической корректности. В процессе обучения модель получает положительное вознаграждение за шаги, приближающие ее к логически верному решению, и отрицательное — за ошибки или противоречия, что способствует оптимизации стратегии генерации текста в направлении большей логической согласованности. Такой подход позволяет обучать модели не просто имитировать паттерны в данных, но и активно стремиться к выводу логически обоснованных заключений.

В рамках предложенного подхода, модель не ограничивается поиском единственного наиболее вероятного ответа, а активно исследует различные цепочки рассуждений для решения задачи. Процесс обучения включает анализ как успешных, так и неудачных попыток, позволяя модели извлекать уроки из ошибок и корректировать свою стратегию. Каждая предпринятая попытка рассматривается как эксперимент, результаты которого используются для обновления политики модели и повышения вероятности выбора оптимального пути рассуждений в будущем. Это обеспечивает более надежное и гибкое решение задач, требующих логического вывода и планирования.

В основе нашего подхода лежит оптимизация политики модели посредством максимизации вознаграждения. Это достигается путем определения функции вознаграждения, которая оценивает качество каждого шага рассуждений, предпринятого моделью. Алгоритмы обучения с подкреплением, такие как Policy Gradient или Q-learning, используются для итеративного улучшения политики модели, направляя ее к действиям, которые максимизируют ожидаемое суммарное вознаграждение. Процесс оптимизации включает в себя как исследование различных вариантов рассуждений, так и использование полученного опыта для корректировки вероятностей выбора действий, что позволяет модели эффективно обучаться решению задач, требующих логического мышления и проверки решений.

Уточнение Вознаграждения: Формируя Логическую Целостность

Для повышения качества обучения модели используются методы формирования вознаграждения (Reward Shaping), включающие в себя масштабирование положительного вознаграждения (Positive Reward Scaling) и подавление отрицательного вознаграждения с учетом ранга (Rank-Aware Negative Suppression). Масштабирование положительного вознаграждения усиливает сигнал для шагов рассуждений, приближающихся к правильному ответу, тем самым стимулируя их повторение. Подавление отрицательного вознаграждения, в свою очередь, снижает влияние шагов, отклоняющихся от желаемой траектории, но делает это пропорционально их «отдаленности» от истины, избегая чрезмерного наказания за незначительные отклонения. В совокупности, эти техники направлены на концентрацию вероятности на наиболее качественных шагах рассуждений и эффективное обучение модели.

Методы формирования вознаграждения, такие как масштабирование положительного вознаграждения и подавление отрицательного вознаграждения с учетом ранга, направлены на концентрацию вероятностной массы на корректных токенах (ground-truth tokens). Это достигается путем увеличения вероятности выбора правильных ответов моделью и снижения вероятности выбора неверных. В результате, модель более эффективно обучается правильным цепочкам рассуждений, поскольку вероятность генерации последовательностей, соответствующих правильному ответу, становится значительно выше, чем вероятность генерации ошибочных последовательностей. Такая концентрация вероятности способствует более быстрому обучению и повышению точности модели.

Регуляризация Kullback-Leibler (KL), интегрированная с алгоритмом GRPO (Generalized Reward-augmented Policy Optimization), обеспечивает стабильность обучаемой политики и предотвращает катастрофические отклонения от оптимального поведения. KL-дивергенция измеряет разницу между новой и предыдущей политиками, штрафуя значительные изменения, что особенно важно в процессе обучения с подкреплением. Алгоритм GRPO использует эту информацию для ограничения обновления политики, гарантируя, что каждое новое обновление не приведет к резкому ухудшению производительности. Это достигается путем добавления к функции потерь члена, пропорционального KL-дивергенции, с коэффициентом, который динамически регулируется для поддержания баланса между изучением новых стратегий и сохранением стабильности. В результате, модель обучается более надежно и предсказуемо, избегая нежелательных скачков в поведении и обеспечивая устойчивое улучшение производительности.

Распределение вероятностей выходных токенов и его энтропия являются ключевыми показателями оценки уверенности модели и степени исследования различных вариантов решения. Высокая энтропия указывает на неопределенность и широкое распределение вероятностей между токенами, в то время как низкая энтропия свидетельствует о концентрации вероятности на небольшом числе наиболее вероятных токенов. Приоритизация точности, достигаемая снижением энтропии выходного распределения \text{H}(p) = -\sum_{i} p(x_i) \log p(x_i), приводит к улучшению масштабируемости и общей производительности модели, поскольку позволяет более эффективно использовать доступные вычислительные ресурсы и фокусироваться на наиболее вероятных и корректных решениях.

Сравнение кривых Pass@k для базовых моделей, обученных на задачах математического рассуждения и генерации кода на основе плотных 4B и разреженных 10B-A0.5B моделей, демонстрирует влияние различных конфигураций на точность решения задач.
Сравнение кривых Pass@k для базовых моделей, обученных на задачах математического рассуждения и генерации кода на основе плотных 4B и разреженных 10B-A0.5B моделей, демонстрирует влияние различных конфигураций на точность решения задач.

Архитектурные Основы и Детали Обучения

Эксперименты проводились на базе архитектуры Qwen3, дополненной архитектурой Mixture-of-Experts (MoE). Использование MoE позволило значительно увеличить емкость модели без пропорционального увеличения вычислительных затрат. В MoE несколько «экспертов» обрабатывают различные части входных данных, что повышает эффективность обучения и позволяет модели усваивать больше информации при заданном бюджете ресурсов. Данный подход способствует улучшению производительности модели в задачах, требующих обработки больших объемов данных и сложного анализа.

Для обеспечения эффективной обработки длинных последовательностей и поддержки сложных задач рассуждения, в архитектуре модели реализованы вращающиеся позиционные вложения (RoPE). RoPE кодируют информацию о позиции токена, используя вращения в многомерном пространстве, что позволяет модели эффективно моделировать зависимости между удаленными токенами. В отличие от абсолютных позиционных кодировок, RoPE демонстрируют лучшую обобщающую способность при работе с последовательностями различной длины и улучшают производительность в задачах, требующих понимания контекста большой длины.

Обучение моделей проводилось с использованием алгоритма оптимизации AdamW, который является стандартным подходом для обеспечения стабильного и эффективного процесса обучения. AdamW сочетает в себе адаптивную оценку скорости обучения для каждого параметра с коррекцией весов, что позволяет предотвратить переобучение и ускорить сходимость. Данный алгоритм использует экспоненциальное скользящее среднее градиентов и их квадратов для адаптации скорости обучения, а также добавляет L2-регуляризацию к весам модели для улучшения обобщающей способности. Применение AdamW позволило достичь оптимальных результатов при обучении моделей на большом объеме данных и снизить вычислительные затраты.

Предварительное обучение модели является критически важным этапом, закладывающим основу для последующего обучения, включающего контент, направленный на развитие навыков рассуждения. В процессе этого обучения последовательность обрабатываемых данных была увеличена с 4096 до 16384 токенов. Данное увеличение необходимо для поддержки моделирования длинного контекста, что является ключевым фактором для решения сложных задач, требующих анализа больших объемов информации и установления взаимосвязей между удаленными элементами.

Обучение с подкреплением различных моделей акторов, построенных на базе архитектуры MoE 10B-A0.5B, демонстрирует изменения в производительности в зависимости от конфигурации.
Обучение с подкреплением различных моделей акторов, построенных на базе архитектуры MoE 10B-A0.5B, демонстрирует изменения в производительности в зависимости от конфигурации.

К Более Надёжным и Интерпретируемым Рассуждениям

Исследование демонстрирует значительный потенциал обучения с подкреплением для существенного улучшения способности к рассуждению у больших языковых моделей. В отличие от традиционных подходов, основанных на простом сопоставлении шаблонов, обучение с подкреплением позволяет моделям развивать более глубокое понимание и логическую последовательность. Этот метод позволяет обучать модели не просто генерировать текст, соответствующий статистическим закономерностям, но и решать задачи, требующие логического вывода и обоснования. Полученные результаты свидетельствуют о том, что обучение с подкреплением открывает новые перспективы для создания искусственного интеллекта, способного к более сложному и надежному рассуждению, что особенно важно для решения задач в области математики, программирования и других областях, требующих высокой точности и логической непротиворечивости.

Исследование демонстрирует, что явное поощрение логической последовательности в процессе обучения больших языковых моделей позволяет выйти за рамки простого сопоставления шаблонов. Вместо того, чтобы лишь воспроизводить статистические закономерности, модель начинает оперировать с принципами логики, что приближает ее к подлинному пониманию. Такой подход стимулирует не просто генерацию правдоподобных ответов, но и способность к построению аргументированных и обоснованных выводов. Это существенно повышает надежность и предсказуемость работы модели, позволяя ей эффективно решать задачи, требующие логического мышления и анализа информации, а не просто запоминания и воспроизведения.

Исследования показали, что повышение точности и разнообразия результатов, генерируемых большими языковыми моделями, свидетельствует о более надежном и устойчивом процессе рассуждений. Конфигурации, ориентированные на приоритет точности, демонстрируют превосходные результаты в задачах математического рассуждения и генерации кода, что подтверждается метрикой Pass@64. Этот показатель оценивает вероятность успешного выполнения задачи при 64 попытках, и более высокие значения указывают на улучшенную способность модели к логическому выводу и решению проблем. Полученные данные позволяют предположить, что акцент на точности способствует формированию более глубокого понимания и уменьшает вероятность генерации ошибочных или нелогичных ответов.

Дальнейшие исследования направлены на повышение прозрачности и интерпретируемости процессов логического вывода, осуществляемых моделями. Ученые стремятся не только к повышению точности ответов, но и к тому, чтобы понять, каким образом модель пришла к тому или иному заключению. Параллельно ведутся работы по масштабированию разработанных методов на более сложные задачи, требующие многоступенчатого рассуждения и анализа больших объемов информации. Особое внимание уделяется адаптации алгоритмов для решения проблем, требующих не только логической последовательности, но и креативного подхода, что позволит создавать системы искусственного интеллекта, способные не просто выполнять инструкции, но и самостоятельно генерировать новые идеи и решения.

В процессе обучения с подкреплением наблюдается изменение энтропии и длины ответа в моделях-акторах, основанных на плотных архитектурах 4B и разрешенных MoE 10B-A0.5B, что отражает их адаптацию к различным конфигурациям.
В процессе обучения с подкреплением наблюдается изменение энтропии и длины ответа в моделях-акторах, основанных на плотных архитектурах 4B и разрешенных MoE 10B-A0.5B, что отражает их адаптацию к различным конфигурациям.

Исследование, представленное в статье, подчеркивает важность точности в процессе предварительного обучения больших языковых моделей. Авторы демонстрируют, что контроль над энтропией токенов, направленный на повышение предсказуемости, значительно улучшает последующую производительность в обучении с подкреплением и, как следствие, способность к логическому мышлению. Этот подход согласуется с принципом элегантности, где простота и ясность структуры определяют надежность системы. Как заметил Брайан Керниган: «Отладка — это удаление ошибок; программирование — внесение их». В данном случае, целенаправленное снижение энтропии можно рассматривать как форму «отладки» процесса обучения, направленную на устранение избыточной вариативности и повышение устойчивости модели.

Куда двигаться дальше?

Представленная работа, концентрируясь на регуляции энтропии токенов в процессе предварительного обучения больших языковых моделей, выявляет любопытную закономерность: стремление к точности зачастую превосходит слепое стремление к разнообразию. Однако, не стоит воспринимать это как окончательное решение. Оптимизация энтропии — лишь один параметр, а система, как известно, сложнее суммы её частей. Попытки «подкрутить» один аспект обучения, игнорируя целостную архитектуру, рискуют привести к локальным улучшениям, скрывающим фундаментальные недостатки.

Более глубокое исследование должно быть направлено на понимание взаимодействия между энтропией, архитектурой модели и структурой данных. Заманчиво предположить, что существует оптимальный баланс между точностью и разнообразием, зависящий от конкретной задачи и домена. Но поиск этого баланса требует не просто эмпирических экспериментов, а разработки теоретической базы, позволяющей предсказывать поведение сложных систем.

В конечном счёте, хорошая архитектура незаметна, пока не ломается. Текущие исследования, фокусируясь на тонкой настройке параметров, часто упускают из виду более важный вопрос: достаточно ли мы понимаем принципы, лежащие в основе интеллекта, чтобы создавать действительно разумные машины? Зависимости — настоящая цена свободы, и каждая абстракция несет в себе потенциальную уязвимость. Следующим шагом должно стать создание более прозрачных и интерпретируемых моделей, позволяющих увидеть, что скрывается за внешней точностью.


Оригинал статьи: https://arxiv.org/pdf/2512.22955.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-06 00:59