Разумные машины: Как обучить большие языковые модели мыслить?

Автор: Денис Аветисян


Новая методика KnowRL позволяет значительно улучшить способность больших языковых моделей к рассуждениям, используя обучение с подкреплением и тщательно отобранные знания.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В обучении с подкреплением, основанном на подсказках, возникают три ключевые проблемы: резкое улучшение производительности при появлении даже короткого сегмента полезной подсказки, возрастающая неоднозначность и расширение пространства поиска при использовании более длинных или абстрактных подсказок, а также компромисс между эффективностью подсказки и возрастающими вычислительными затратами, связанными с использованием моделей-учителей или многоступенчатой курацией.
В обучении с подкреплением, основанном на подсказках, возникают три ключевые проблемы: резкое улучшение производительности при появлении даже короткого сегмента полезной подсказки, возрастающая неоднозначность и расширение пространства поиска при использовании более длинных или абстрактных подсказок, а также компромисс между эффективностью подсказки и возрастающими вычислительными затратами, связанными с использованием моделей-учителей или многоступенчатой курацией.

KnowRL — это фреймворк, использующий обучение с подкреплением с минимальным, но достаточным, объемом направляющей информации для повышения способности языковых моделей к логическому мышлению.

Обучение больших языковых моделей с подкреплением часто сталкивается с проблемой разреженности вознаграждения, особенно при решении сложных задач. В данной работе, представленной под названием ‘KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance’, предлагается новый подход к обучению, основанный на минимально достаточном наборе знаний, позволяющем эффективно направлять процесс обучения с подкреплением. KnowRL декомпозирует знания на атомарные точки и использует алгоритм поиска подмножеств для создания компактных и контекстно-зависимых наборов подсказок. Может ли подобный подход к выбору подсказок обеспечить более надежное и эффективное обучение языковых моделей, превосходящее существующие методы и открывающее новые горизонты в области искусственного интеллекта?


Раскрытие Уязвимости: Логическое Мышление в Больших Языковых Моделях

Несмотря на впечатляющий масштаб и способность генерировать связные тексты, большие языковые модели (LLM) часто демонстрируют слабость в решении сложных задач, требующих логического мышления. Эта хрупкость проявляется в склонности к ошибкам, основанным на поверхностных корреляциях в данных, а не на глубоком понимании принципов. Модели могут успешно справляться с задачами в привычном контексте, но легко терпят неудачу при незначительных изменениях или в ситуациях, требующих экстраполяции знаний. Такая восприимчивость к «ложным» закономерностям указывает на то, что LLM, в большей степени, имитируют разумное поведение, чем действительно обладают способностью к абстрактному мышлению и решению проблем, требующих анализа и синтеза информации.

Несмотря на впечатляющий рост масштаба языковых моделей, попытки улучшить их способность к рассуждениям путём простого увеличения числа параметров демонстрируют закономерное снижение эффективности. Увеличение размера модели требует экспоненциального роста вычислительных ресурсов и энергопотребления, что наталкивается на практические и экономические ограничения. Дальнейшее масштабирование перестаёт приносить соизмеримые улучшения в решении сложных задач, требующих логического вывода и абстрактного мышления, и всё чаще приводит к переобучению и уязвимости к незначительным изменениям во входных данных. Таким образом, становится очевидной необходимость в принципиально новых подходах, направленных на оптимизацию самой эффективности процесса рассуждения, а не на слепое наращивание вычислительной мощности.

В связи с ограничениями в масштабировании языковых моделей, все большее внимание уделяется разработке инновационных подходов, направленных на повышение эффективности рассуждений, а не просто на увеличение вычислительных мощностей. Исследования показывают, что дальнейшее увеличение размера модели дает все меньше ощутимых результатов в решении сложных логических задач. Вместо этого, перспективным направлением является оптимизация алгоритмов и архитектур, позволяющих модели более эффективно использовать доступные ресурсы для анализа информации и вывода обоснованных заключений. Такие методы включают в себя, например, разработку специализированных модулей для выполнения конкретных типов рассуждений или использование более компактных представлений знаний, что позволит значительно снизить вычислительные затраты и повысить производительность моделей в задачах, требующих глубокого логического анализа.

Применение отжига энтропии обеспечивает более быстрое снижение энтропии и стабильно улучшенные результаты на валидационных выборках в процессе обучения <span class="katex-eq" data-katex-display="false">	ext{(24k setting)}</span>.
Применение отжига энтропии обеспечивает более быстрое снижение энтропии и стабильно улучшенные результаты на валидационных выборках в процессе обучения ext{(24k setting)}.

KnowRL: Направляя LLM к Логике с Минимальным Объемом Знаний

KnowRL представляет собой структуру обучения с подкреплением, разработанную для улучшения логического мышления больших языковых моделей (LLM) посредством инъекции минимально-достаточного объема знаний в качестве направляющих сигналов. В отличие от традиционных методов, требующих обширных наборов данных или сложных правил, KnowRL использует принцип предоставления только той информации, которая необходима для преодоления разреженности вознаграждения и эффективного направления поиска модели к верным решениям. Этот подход позволяет LLM обучаться на основе проверяемой обратной связи, оптимизируя процесс рассуждений и повышая точность ответов на сложные вопросы.

В основе KnowRL лежит использование “Знаний в атомарной форме” (Knowledge Points, КП) — дискретных единиц информации, служащих подсказками для направления языковой модели (LLM) к правильным решениям. Эти КП представляют собой базовые факты, определения или правила, необходимые для решения конкретной задачи. В процессе обучения с подкреплением, LLM получает эти КП как частичные наблюдения, которые помогают преодолеть проблему разреженности вознаграждения и эффективно исследовать пространство решений. Использование атомарных знаний позволяет KnowRL предоставлять только релевантную информацию, избегая перегрузки модели избыточными данными и способствуя более быстрой и точной сходимости к оптимальному решению.

Принцип минимально достаточного руководства (Minimal Sufficient Guidance) в KnowRL заключается в предоставлении языковой модели только той информации, которая необходима для преодоления проблемы разреженности вознаграждения и эффективной навигации в пространстве поиска решений. Вместо предоставления обширного контекста, система фокусируется на предоставлении ключевых фактов, достаточных для корректного выполнения задачи. Это позволяет снизить вычислительные затраты и ускорить процесс обучения, поскольку модель не отвлекается на обработку избыточной информации, а концентрируется на решении конкретной проблемы с использованием предоставленных подсказок.

В основе KnowRL лежит представление процесса рассуждений как задачи оптимизации вознаграждения, что позволяет эффективно обучаться на основе верифицируемой обратной связи. Данный подход позволяет преодолеть проблему разреженности вознаграждения, типичную для обучения с подкреплением, и направлять поиск модели к правильным решениям. В результате, KnowRL демонстрирует передовые показатели точности, достигая в среднем 73.47% на стандартных бенчмарках, предназначенных для оценки математического мышления.

Обучение с подсказками ключевых пунктов (KP) значительно улучшает точность модели OpenMath-Nemotron-1.5B и KnowRL-Nemotron-1.5B при решении задач на обучающем наборе данных.
Обучение с подсказками ключевых пунктов (KP) значительно улучшает точность модели OpenMath-Nemotron-1.5B и KnowRL-Nemotron-1.5B при решении задач на обучающем наборе данных.

Разнообразие Подсказок для Надежного Мышления

KnowRL поддерживает различные типы подсказок, включая “Подсказки-Префиксы Решения”, генерируемые, например, с помощью метода QuestA. Данные подсказки представляют собой частичные эталонные решения, предоставляемые языковой модели на различных этапах генерации ответа. Их основная функция — направлять процесс рассуждений, предлагая начальные фрагменты правильного ответа, что позволяет модели самостоятельно завершить решение задачи, опираясь на предоставленный префикс. Использование префиксов решения позволяет снизить вероятность генерации неверных или нерелевантных ответов, особенно в сложных задачах, требующих многоступенчатого рассуждения.

Абстрактные подсказки (Abstraction-Based Hints) используют структурированные шаблоны рассуждений, полученные из фреймворка TAPO (Template-based Abstraction for Planning and Optimization), для обеспечения концептуальной поддержки при решении задач. Эти шаблоны представляют собой заранее определенные последовательности логических шагов и промежуточных выводов, которые направляют языковую модель (LLM) к правильному решению, не предоставляя готовый ответ. TAPO позволяет создавать и применять различные шаблоны, адаптированные к специфике конкретной задачи, что обеспечивает более эффективное и целенаправленное обучение LLM в процессе обучения с подкреплением.

Адаптивные подсказки, основанные на решениях, динамически регулируют соотношение подсказок к самостоятельному решению, используя UFT (Uncertainty-aware Fine-Tuning) для оценки сложности конкретного примера. Этот механизм позволяет оптимизировать силу направляющей поддержки, предоставляя больше подсказок для трудных экземпляров и уменьшая их количество для более простых. Принцип работы заключается в том, что UFT оценивает неопределенность модели при решении задачи, и на основе этой оценки корректируется доля предоставляемых подсказок, обеспечивая баланс между направляющей поддержкой и самостоятельностью модели в процессе генерации ответа.

Стратегия обучения с подкреплением на основе подсказок (Hint-Based RL) представляет собой основной подход к управлению процессом генерации языковой моделью (LLM). Она заключается в использовании различных типов подсказок — таких как частичные решения, абстрактные шаблоны рассуждений и адаптивные подсказки, интенсивность которых регулируется в зависимости от сложности задачи — для направления LLM к правильному ответу. Данная стратегия позволяет не просто предоставлять LLM информацию, но и формировать процесс рассуждений, что повышает надежность и обоснованность генерируемых решений. Использование различных типов подсказок в рамках Hint-Based RL позволяет оптимизировать баланс между предоставлением помощи и стимулированием самостоятельного решения задачи.

Оптимизация Доставки Подсказок и Стабильность Обучения

Эксперименты выявили так называемый “эффект критического сегмента”, демонстрирующий резкое повышение эффективности решения задач после предоставления короткого, ключевого фрагмента подсказки. Данное явление указывает на то, что значительное улучшение производительности достигается именно на начальном этапе помощи, когда предоставлена самая необходимая информация. Дальнейшее расширение подсказки или предоставление избыточных деталей приводит к закономерному снижению прироста эффективности, что подчеркивает важность лаконичности и точности в формулировках. Исследование показало, что после достижения определенной длины подсказки, дополнительные усилия по её расширению приносят все меньше пользы, подтверждая концепцию оптимальной информационной поддержки.

Исследования выявили проблему, известную как “несогласованность подсказок”, которая возникает при использовании более длинных префиксов или абстрактных формулировок в процессе обучения. Длинные последовательности подсказок, вместо того чтобы направлять систему к решению, могут существенно расширить пространство поиска возможных рассуждений. Это, в свою очередь, приводит к затруднению сходимости алгоритма — процесс обучения становится нестабильным и требует больше времени для достижения оптимального результата. Суть проблемы заключается в том, что увеличение объема информации в подсказке не всегда ведет к улучшению производительности, а может, напротив, усложнить задачу для системы, запутав её в избыточных деталях и альтернативных путях решения. Таким образом, важно соблюдать баланс между информативностью подсказок и их лаконичностью, чтобы обеспечить эффективное обучение и стабильную работу системы.

В рамках системы KnowRL для ускорения обучения и повышения стабильности процесса обучения с подкреплением применяется техника, известная как “Аннелирование Энтропии”. Суть метода заключается в постепенном снижении коэффициента энтропии в функции потерь на протяжении всего обучения. Это позволяет модели изначально исследовать более широкий спектр возможных действий, способствуя обнаружению перспективных стратегий, а затем, по мере обучения, сужать фокус на наиболее эффективных решениях. Такой подход позволяет избежать преждевременной сходимости к локальным оптимумам и способствует более надежной и быстрой адаптации системы к решению сложных задач, обеспечивая стабильность обучения даже в условиях высокой сложности пространства поиска.

Исследование демонстрирует высокую эффективность стратегии выбора подсказок на основе ограниченного подмножества (CSS) в системе KnowRL. Применяя данный подход, KnowRL в среднем получает 2.57 единиц знаний (Knowledge Points) на каждую решаемую задачу. Это свидетельствует о том, что CSS позволяет системе целенаправленно выбирать наиболее релевантные подсказки, избегая избыточной информации и значительно ускоряя процесс обучения. Эффективность данной стратегии заключается в оптимизации поиска полезных подсказок в пространстве всех возможных вариантов, что обеспечивает более стабильное и быстрое освоение новых знаний.

Анализ на 50 обучающих примерах демонстрирует, что критический сегмент оказывает влияние на соотношение префиксов.
Анализ на 50 обучающих примерах демонстрирует, что критический сегмент оказывает влияние на соотношение префиксов.

К Верифицируемым Рассуждениям с KnowRL

Система KnowRL представляет собой расширение возможностей обучения с подкреплением, внедряющее парадигму обучения с подкреплением с верифицируемыми наградами (RLVR). В её основе лежит принцип обеспечения корректности генерируемых решений посредством количественно определяемой обратной связи. Вместо традиционного подхода, где модель обучается на основе общих оценок, KnowRL использует механизм верификации каждого шага рассуждений, преобразуя процесс обучения в строго контролируемую систему, где награда напрямую связана с доказанной правильностью ответа. Это позволяет модели не просто генерировать правдоподобный текст, а создавать демонстративно корректные цепочки рассуждений, что существенно повышает надёжность и точность результатов.

В основе системы KnowRL лежит компонент CompassVerifier-3B, выполняющий критически важную функцию верификации корректности генерируемых решений. Этот модуль не просто оценивает правдоподобность ответа, а осуществляет строгую проверку логической последовательности и математической точности, предоставляя чёткий и измеримый сигнал вознаграждения для процесса обучения. Именно этот сигнал позволяет системе Reinforcement Learning (RL) корректировать свою стратегию и стремиться к генерации не просто убедительных, а доказуемо верных рассуждений. Таким образом, CompassVerifier-3B выступает в роли объективного арбитра, обеспечивающего надёжность и достоверность получаемых результатов, что является ключевым отличием KnowRL от традиционных подходов к генерации текста.

В отличие от традиционных моделей генерации текста, которые часто сосредотачиваются на правдоподобности, система KnowRL стремится к созданию доказательно верных рассуждений. Этот подход позволил достичь средней точности в 73.47%, что на 9.63 процентных пункта превосходит показатели модели Nemotron-1.5B, работающей без подсказок ключевых моментов (KP hints). Такой значительный прирост демонстрирует способность KnowRL не просто формулировать убедительные ответы, но и подтверждать их корректность, открывая новые возможности для надежных и проверяемых систем искусственного интеллекта.

Исследования показали, что KnowRL демонстрирует значительные улучшения в решении математических задач на различных эталонных наборах данных. В частности, на наборе AIME25 система достигла повышения точности на 15.11%, а на HMMT25 — на 12.98%. Эти результаты подтверждают эффективность предложенного подхода к обучению с подкреплением, интегрирующего верифицируемые награды, и свидетельствуют о способности KnowRL не просто генерировать правдоподобные решения, но и обеспечивать их математическую корректность. Успешное применение KnowRL на разнообразных бенчмарках подчеркивает его потенциал для развития систем, способных к надежному и проверяемому логическому мышлению.

Представленная работа демонстрирует изысканный подход к обучению больших языковых моделей, фокусируясь на принципах минимальной достаточности и структурной целостности. Авторы, подобно архитекторам, стремящимся к элегантности, предлагают систему KnowRL, где каждый подобранный фрагмент знания играет ключевую роль в формировании логической цепочки рассуждений. Этот подход особенно важен, учитывая проблему разреженных вознаграждений в обучении с подкреплением. Как однажды заметил Карл Фридрих Гаусс: «Я не знаю, как мир устроен, но я знаю, что он прекрасно устроен». Подобно этой фразе, KnowRL стремится выявить и использовать только необходимые знания, создавая систему, где структура определяет поведение, а простота ведет к ясности и эффективности.

Куда Далее?

Представленная работа, стремясь к элегантности в обучении больших языковых моделей, неизбежно наталкивается на фундаментальную сложность: выбор. KnowRL, фокусируясь на минимально достаточном наборе знаний, демонстрирует, что упрощение не всегда ведет к обеднению, но требует вдумчивой архитектуры. Однако, само понятие “минимально достаточное” остается зависимым от контекста и, что важнее, от метрики “достаточности”. Как определить, что именно является существенным знанием, а что — избыточным шумом, в условиях постоянно меняющихся требований к рассуждениям?

Очевидно, что будущее исследований лежит в области адаптивных систем выбора знаний. Необходимо разработать механизмы, способные динамически оценивать релевантность знаний в зависимости от конкретной задачи и текущего состояния модели. Если система кажется сложной, она, вероятно, хрупка, и, следовательно, дальнейшие усилия должны быть направлены на создание более устойчивых и гибких алгоритмов.

Более того, стоит задуматься о природе вознаграждения. Разреженные сигналы вознаграждения — это не просто техническая проблема, а отражение глубинной трудности определения “правильного” ответа в сложных задачах рассуждения. Возможно, истинный прогресс потребует отказа от поиска “истины” в пользу создания систем, способных эффективно оперировать неопределенностью и противоречиями.


Оригинал статьи: https://arxiv.org/pdf/2604.12627.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-16 01:27