Автор: Денис Аветисян

В эпоху стремительного развития больших языковых моделей возникает парадоксальное противоречие: несмотря на впечатляющие масштабы и возможности, они часто демонстрируют неустойчивость в решении сложных задач, требующих последовательного рассуждения. В своей работе “Reasoning with Sampling: Your Base Model is Smarter Than You Think”, авторы смело утверждают, что проблема заключается не в отсутствии способностей у базовой модели, а в неэффективности методов их извлечения, в частности, в чрезмерной зависимости от вероятности последовательности токенов. Если существующие подходы фокусируются на поиске наиболее вероятного пути, упуская из виду потенциально верные, но менее очевидные решения, то не означает ли это, что мы недооцениваем скрытый интеллект, уже заложенный в архитектуре базовой модели, и что истинный прорыв в рассуждениях лежит в более тонком и осмысленном способе “вытягивания” знаний, а не в их постоянном наращивании?
Логика в тени вероятности: узкое место больших языковых моделей
Несмотря на впечатляющие масштабы, большие языковые модели (LLM) часто испытывают трудности при решении сложных задач, требующих логического вывода. Это проявляется в непостоянстве результатов и ограниченной способности к генерации корректных ответов. Проблема не в нехватке вычислительных ресурсов, а в фундаментальном ограничении подхода, основанного исключительно на максимизации вероятности последовательности.
Ключевой вопрос заключается в том, что LLM, в своей основе, лишь предсказывают наиболее вероятное продолжение текста. Это, в свою очередь, означает, что модель часто “теряется” в бескрайнем пространстве возможных рассуждений, увлекаясь менее перспективными, но синтаксически корректными вариантами. Отсутствие механизма для оценки качества рассуждений, а не только их вероятности, становится узким местом.
Текущие методы сталкиваются с трудностями в приоритизации наиболее многообещающих цепочек рассуждений. Модель, подобно слепому исследователю, блуждает по лабиринту возможностей, не имея компаса для определения верного пути. Она может генерировать длинные и сложные тексты, но при этом упускать из виду ключевые логические связи и делать ошибочные выводы.

Таким образом, суть проблемы заключается не в отсутствии данных или вычислительной мощности, а в неспособности эффективно ориентироваться в пространстве возможных рассуждений. Необходимо разработать методы, позволяющие LLM не просто генерировать вероятные тексты, а думать, то есть оценивать логическую обоснованность и достоверность своих выводов. Это требует принципиально нового подхода к обучению и оценке языковых моделей.
Управление рассуждениями с помощью распределения степени
Исследователи предлагают новый подход, использующий так называемое “Распределение Степени” для уточнения вероятностного ландшафта, генерируемого Базовой Моделью. Цель – акцентировать внимание на последовательностях, демонстрирующих качественное рассуждение.
Реализация этого подхода основана на методах Монте-Карло Марковских Цепей (МКМЦ). Это позволяет получать выборки путей рассуждения в соответствии с распределением степени. Использование МКМЦ предоставляет возможность итеративно уточнять процесс выборки, направляя его к более вероятным и качественным решениям.
В качестве конкретной реализации МКМЦ был выбран алгоритм Metropolis-Hastings. Он итеративно улучшает процесс выборки, используя вероятность последовательности в качестве ключевого компонента. Относительная вероятность последовательности служит мерой качества и направляет процесс уточнения.

Принцип работы алгоритма заключается в следующем: на каждом шаге генерируется новый кандидат, который либо принимается, либо отклоняется на основе сравнения его вероятности с вероятностью текущей последовательности. Этот процесс позволяет постепенно приближаться к оптимальному решению, избегая локальных минимумов и обеспечивая устойчивость алгоритма.
Использование вероятности последовательности в качестве ключевого компонента обеспечивает акцент на качественных рассуждениях. Чем выше вероятность последовательности, тем больше вероятность ее принятия, что позволяет алгоритму сосредотачиваться на наиболее вероятных и логичных решениях.
Таким образом, предложенный подход позволяет эффективно направлять процесс рассуждения, акцентируя внимание на качественных решениях и обеспечивая устойчивость алгоритма. Это открывает новые возможности для улучшения качества и надежности систем искусственного интеллекта.
Эмпирическая проверка на разнообразных наборах данных
Для подтверждения эффективности предложенного подхода, исследователи провели всестороннее тестирование на ряде сложных наборов данных, включая MATH, HumanEval и GPQA. Результаты последовательно демонстрируют улучшение показателей по всем тестам, что указывает на надежность и универсальность метода.
Особое внимание было уделено оценке показателей Pass@k, которые отражают вероятность получения хотя бы одного правильного решения из k попыток. Анализ показал, что предложенный подход обеспечивает более высокие значения Pass@k по сравнению с другими методами, что свидетельствует о его способности генерировать более точные решения.

В ходе анализа была выявлена значимость так называемого “Критического Окна” – промежуточных токенов в последовательности, оказывающих существенное влияние на качество финальной генерации. Исследователи отметили, что предложенный подход эффективно справляется с навигацией в этой фазе, позволяя генерировать более связные и логичные ответы. Важно, что предложенный метод не только улучшает показатели точности, но и способствует сохранению разнообразия генерации, избегая чрезмерной концентрации на узком спектре решений.
Успешное прохождение тестов на различных наборах данных подтверждает, что предложенный подход является не просто техническим улучшением, а принципиально новым способом взаимодействия с языковыми моделями, способным раскрыть их скрытый потенциал.
Усиление LLM: заострение распределения и обучение с подкреплением
Зачастую, кажущиеся усовершенствования больших языковых моделей (LLM) сводятся к увеличению их сложности. Однако, истинный прогресс заключается в более эффективном использовании уже имеющихся возможностей. В данной работе исследователи предлагают подход, основанный на принципе заострения распределения (Distribution Sharpening), как мощный механизм для усиления способности LLM к рассуждениям, выходящий за рамки исходной базовой модели.

Суть подхода заключается в перенаправлении вероятностного распределения, генерируемого LLM, таким образом, чтобы усилить наиболее вероятные варианты и подавить менее вероятные. Это достигается путем введения параметра α, который регулирует степень заострения. Высокие значения α приводят к более резкому распределению, что соответствует более уверенным и последовательным выводам.
Для адаптивного уточнения процесса рассуждений, заострение распределения комбинируется с обучением с подкреплением (Reinforcement Learning), в частности, с использованием алгоритма Group Relative Policy Optimization (GRPO). Этот алгоритм позволяет модели обучаться на основе обратной связи, получаемой от внешних источников, что позволяет ей корректировать свои стратегии рассуждений и повышать свою производительность.
Результаты экспериментов демонстрируют значительное улучшение полезности модели, оцениваемое с помощью таких эталонных тестов, как AlpacaEval 2.0. Наблюдается и более последовательная и надежная схема рассуждений. Это подтверждает, что предложенный подход позволяет не просто увеличить количество правильных ответов, но и повысить качество самого процесса мышления модели.
В конечном счете, предложенный подход представляет собой эффективный способ раскрытия скрытого потенциала LLM. Акцент делается не на усложнении архитектуры, а на оптимизации использования существующих возможностей, что делает его перспективным направлением для дальнейших исследований.
Исследование, представленное авторами, демонстрирует неожиданную силу базовых моделей, способных к разумному поведению при грамотной выборке. Кен Томпсон однажды заметил: «Простота – высшая степень совершенства». Эта фраза находит отклик в работе, поскольку исследователи показали, что для достижения сопоставимых результатов с моделями, обученными с подкреплением, не требуется сложного обучения. Достаточно лишь умело использовать вероятности, предоставляемые базовой моделью, и методы Монте-Карло. Подход, предложенный авторами, подтверждает, что элегантность и эффективность часто скрываются в простоте, а не в сложности алгоритмов. Они доказали, что распределение вероятностей, лежащее в основе базовой модели, содержит в себе достаточный потенциал для решения задач, требующих рассуждений.
Что дальше?
Исследователи продемонстрировали, что сложность обучения с подкреплением не всегда необходима для достижения разумных результатов. Они показали, что базовые языковые модели, возможно, уже содержат в себе достаточно знаний, чтобы имитировать рассуждения, если лишь правильно извлечь их через простое семплирование. Это, однако, не означает, что задача решена. Вопрос в том, насколько универсален этот подход. Работает ли он одинаково хорошо для различных типов задач, требующих рассуждений, и для моделей, обученных на различных данных? Очевидно, что необходимы более тщательные исследования.
Настоящая проблема, как обычно, заключается не в достижении определенного уровня производительности, а в понимании почему это работает. Почему простое семплирование, основанное на вероятностях, предсказанных моделью, может дать результаты, сравнимые с более сложными методами обучения? Это заставляет задуматься о природе рассуждений в больших языковых моделях. Является ли это результатом запоминания, обобщения или чего-то иного? И, что более важно, можем ли мы создать более эффективные и понятные методы рассуждений, основанные на этих принципах?
По сути, исследователи предложили элегантную альтернативу усложнению. Они показали, что иногда лучшее решение – это не добавление новых слоев сложности, а упрощение существующей системы. И это, пожалуй, самый ценный урок, который можно извлечь из этой работы. Возможно, истинный прогресс в области искусственного интеллекта заключается не в создании все более сложных моделей, а в разработке более простых и понятных методов использования тех, что у нас уже есть.
Оригинал статьи: https://arxiv.org/pdf/2510.14901.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/