Глубокое мышление: Новый алгоритм PRISM для повышения точности языковых моделей

Автор: Денис Аветисян

Исследователи представили PRISM — инновационный метод, позволяющий значительно улучшить качество рассуждений больших языковых моделей за счет использования промежуточных сигналов корректности.

Система DeepThink структурируется вокруг создания, улучшения и агрегации популяции решений, в то время как механизм PRISM, лежащий в ее основе, направляет процесс уточнения посредством оценки, основанной на модели вознаграждения за процесс, осуществляя пересемплирование и стохастическое улучшение в рамках энергетической модели популяции.

PRISM использует моделирование вознаграждения за каждый шаг рассуждения для повышения эффективности и точности вывода.

Несмотря на успехи методов глубокого рассуждения (DeepThink) в решении сложных задач, существующие алгоритмы часто сталкиваются с проблемой усиления ошибок на этапе уточнения решений из-за отсутствия надежных сигналов о корректности. В данной работе, посвященной ‘PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference’, предложен новый алгоритм PRISM, использующий оценку корректности на каждом шаге для эффективного управления популяцией кандидатов и агрегации решений. PRISM, моделируя процесс рассуждения как энергетический ландшафт, позволяет концентрировать вероятностную массу на более качественных решениях, сохраняя при этом их разнообразие. Способен ли PRISM открыть путь к созданию более надежных и эффективных систем искусственного интеллекта, способных решать сложные научные и математические задачи?

За пределами масштабирования: границы традиционного мышления

Несмотря на впечатляющие возможности, современные большие языковые модели (БЯМ) зачастую испытывают трудности при решении сложных, многоступенчатых задач, требующих логических выводов. Это проявляется в их хрупкости — незначительные изменения в формулировке вопроса или в исходных данных могут приводить к кардинальному изменению ответа или полной неспособности к решению. Такое поведение демонстрирует, что БЯМ, в основном, полагаются на распознавание паттернов и статистические прогнозы, а не на истинное понимание и способность к дедуктивному мышлению, что ограничивает их надежность в ситуациях, требующих гибкости и адаптации к новым условиям.

Несмотря на впечатляющий прогресс в области больших языковых моделей, простое увеличение их размера демонстрирует всё меньшую эффективность в решении задач, требующих сложного логического мышления. Исследования показывают, что наращивание вычислительных мощностей и объёма данных приводит к закономерному снижению отдачи, ведь модели всё чаще сталкиваются с трудностями при решении многоступенчатых проблем и выполнении логических умозаключений. Это указывает на необходимость принципиально новых подходов к разработке искусственного интеллекта, выходящих за рамки простого распознавания закономерностей и статистического прогнозирования. Вместо дальнейшего масштабирования, усилия должны быть направлены на создание архитектур и алгоритмов, способных к настоящему рассуждению и решению проблем, а не только к имитации интеллектуального поведения.

Ограничения современных больших языковых моделей особенно заметны при решении задач, требующих надежного логического мышления, таких как построение математических доказательств или ответы на сложные научные вопросы. В этих областях модели часто демонстрируют неустойчивость, неспособность к последовательному применению правил и недостаток понимания глубинных взаимосвязей. Например, при попытке доказать теорему или объяснить физическое явление, модель может генерировать правдоподобные, но логически несостоятельные аргументы, или же застревать на промежуточных этапах решения. Это связано с тем, что существующие модели в основном полагаются на статистическое сопоставление шаблонов, а не на истинное понимание принципов, лежащих в основе задачи, что критически снижает их эффективность в областях, где требуется строгая логика и доказательность.

Современные языковые модели, несмотря на впечатляющие результаты, зачастую демонстрируют ограниченные возможности в решении сложных задач, требующих многоступенчатого рассуждения. Для преодоления этих ограничений необходим принципиально новый подход, выходящий за рамки простого распознавания закономерностей и статистического предсказания. Существующие методы, основанные на увеличении масштаба моделей, демонстрируют эффект насыщения, указывая на потребность в архитектурах и алгоритмах, способных к настоящему логическому выводу и абстрактному мышлению. Разработка подобных систем предполагает отход от пассивного запоминания данных к активному построению моделей мира и применению правил логики для генерации новых знаний, что позволит решать задачи, требующие глубокого понимания и критического анализа.

Результаты HMMT25 показывают, что PRISM демонстрирует значительно более высокую устойчивость к низкокачественным начальным популяциям, сохраняя высокую точность даже при небольшом количестве верных решений в исходном наборе кандидатов, в отличие от других методов.

Глубокое мышление: парадигма итеративного уточнения рассуждений

Парадигма рассуждений DeepThink отличается от традиционных однопроходных методов вывода, поскольку предполагает распределение вычислительных ресурсов для одновременного исследования и комбинирования множества кандидатов в решения. Вместо генерации единственного ответа, система активно поддерживает и развивает набор потенциальных решений, что позволяет охватить более широкое пространство поиска и повысить вероятность нахождения оптимального результата. Данный подход особенно эффективен в задачах, требующих сложного логического вывода и учета множества факторов, где однократный проход может привести к упущению важных деталей или неверным заключениям.

Процесс начинается с создания популяции, то есть генерации разнообразного набора начальных траекторий рассуждений. Целью данного этапа является расширение пространства поиска потенциальных решений. Вместо однократного прохождения алгоритма, создается множество различных путей логических выводов, каждый из которых представляет собой отдельную гипотезу. Разнообразие этих траекторий достигается за счет использования различных начальных условий, случайных вариаций в процессе рассуждений, или применения различных стратегий поиска. Чем шире представленность различных подходов на этапе создания популяции, тем выше вероятность обнаружения оптимального или наиболее подходящего решения в дальнейшем.

Ключевым аспектом DeepThink является итеративное улучшение популяции решений посредством методов стохастической доработки (Stochastic Refinement) и пересемплирования (Resampling). Стохастическая доработка предполагает внесение небольших, случайных изменений в существующие траектории рассуждений с последующей оценкой их влияния на качество решения. Пересемплирование, в свою очередь, заключается в отборе наиболее перспективных траекторий из текущей популяции и создании новых, основанных на них, что позволяет сосредоточить вычислительные ресурсы на наиболее многообещающих направлениях. Повторение этих процессов — доработки и пересемплирования — позволяет постепенно повышать качество и разнообразие популяции, что приводит к более надежным и точным результатам по сравнению с однопроходным выводом.

В отличие от традиционных систем, стремящихся к получению единого ответа, парадигма DeepThink смещает акцент на активное совершенствование распределения потенциальных решений. Это означает, что вместо поиска единственного «правильного» ответа, система генерирует множество кандидатов и последовательно улучшает их качество посредством итеративных процессов, таких как стохастическое уточнение и пересемплирование. Такой подход позволяет не только повысить надежность и точность конечного результата, но и оценить степень уверенности в различных вариантах решения, а также выявить потенциальные ошибки и неточности в процессе рассуждений. Вместо выдачи одного значения, система предоставляет информацию о вероятностном распределении возможных ответов, что является ключевым отличием от классических методов логического вывода.

В отличие от методов, не основанных на PRM, демонстрирующих колебания или ухудшение качества популяции с увеличением глубины поиска, PRISM обеспечивает стабильный рост и улучшение качества популяции на задаче HMMT25.

PRISM: верификация на уровне шагов и сигналы уточнения

Алгоритм PRISM является расширением алгоритма DeepThink и внедряет явные сигналы корректности на уровне отдельных шагов рассуждений как в процесс уточнения популяции, так и в агрегацию решений. В отличие от предшествующих методов, PRISM оценивает каждый шаг логической цепочки, позволяя более точно определять и корректировать ошибки на ранних стадиях. Это достигается путем интеграции сигналов, указывающих на правильность или ошибочность каждого шага, непосредственно в процесс выбора и улучшения наиболее перспективных траекторий рассуждений, что повышает общую надежность и точность итогового решения.

Верификация на уровне отдельных шагов осуществляется посредством модели вознаграждения за процесс (PRM), которая оценивает корректность каждого этапа рассуждений. PRM анализирует промежуточные результаты, присваивая вознаграждение за шаги, приближающие к правильному ответу, и штрафуя некорректные или нерелевантные шаги. В отличие от традиционных методов, оценивающих только конечный результат, PRM обеспечивает детальную оценку процесса рассуждений, позволяя алгоритму PRISM более точно определять и корректировать ошибки на ранних стадиях. Это достигается путем анализа логической последовательности шагов и соответствия каждого шага заданным правилам и знаниям.

Для оценки качества коррекции хода рассуждений PRISM использует метрику NetFlip, которая измеряет разницу между количеством шагов, улучшающих правильность ответа, и количеством шагов, ухудшающих её. Экспериментальные данные демонстрируют, что PRISM показывает положительное и значительно более высокое значение NetFlip по сравнению с базовыми моделями. Это указывает на то, что PRISM последовательно корректирует ошибки в ходе рассуждений, приводя к более достоверным и точным результатам, в то время как базовые модели демонстрируют менее выраженную или даже отрицательную динамику коррекции.

Алгоритм PRISM позволяет проводить более целенаправленную оптимизацию, приоритизируя траектории рассуждений, демонстрирующие последовательные и корректные шаги. Это достигается за счет использования сигналов, оценивающих правильность каждого отдельного шага, что позволяет системе фокусироваться на наиболее перспективных путях решения. В отличие от подходов, не учитывающих промежуточные результаты, PRISM активно использует информацию о корректности каждого шага для более эффективной фильтрации и улучшения качества генерируемых решений, что приводит к повышению общей надежности и точности вывода.

На основе данных AIME25, PRISM демонстрирует стабильное улучшение качества популяции по мере углубления поиска, в отличие от методов, не основанных на PRM, которые склонны к колебаниям или ухудшению результатов.

Оценка и валидация: надежное рассуждение в различных областях

Система PRISM, интегрированная с платформой DeepThink, подверглась всестороннему тестированию на известных эталонных наборах данных, включающих AIME25, HMMT25 и GPQA Diamond. Данные тесты позволили оценить способность системы решать сложные задачи, требующие глубокого логического мышления и математических навыков. Использование этих наборов данных, представляющих различные области знаний и уровни сложности, гарантирует надежность и универсальность оценки, подтверждая способность PRISM эффективно функционировать в разнообразных сценариях автоматизированного решения задач. Результаты, полученные на этих эталонных данных, служат важным критерием для сравнения с другими системами искусственного интеллекта и демонстрируют потенциал PRISM для значительного улучшения качества автоматизированного рассуждения.

В ходе экспериментов с использованием моделей, таких как `gpt-oss-20b`, `gpt-oss-120b` и `Qwen3`, наблюдалось устойчивое повышение эффективности решения задач. В частности, модель с 20 миллиардами параметров (`gpt-oss-20b`) продемонстрировала впечатляющие результаты, достигнув точности в 90.0% при решении задач из набора `AIME25`, 75.4% для `HMMT25` и 71.4% при работе с набором `GPQA Diamond`. Эти показатели свидетельствуют о значительной оптимизации процесса рассуждений и подтверждают потенциал использования более компактных моделей для достижения сопоставимой, а иногда и превосходящей, производительности по сравнению с более крупными аналогами.

Для обеспечения высокого качества и достоверности получаемых решений, система использует процедуру “Final Answer Check” — финальную проверку ответа. Данный этап подразумевает автоматизированный анализ и оценку конечного результата, полученного после этапов рассуждений. Проверка включает в себя сопоставление ответа с условиями задачи, выявление логических противоречий и, при необходимости, перепроверку промежуточных шагов решения. Такой подход позволяет минимизировать вероятность ошибок и гарантировать, что представленное решение является не только корректным, но и полностью соответствует требованиям поставленной задачи, повышая надежность всей системы автоматизированного рассуждения.

Результаты экспериментов демонстрируют значительный прорыв в области автоматизированного рассуждения благодаря интеграции PRISM. В частности, показано, что модель размером 20 миллиардов параметров, использующая PRISM, способна достигать уровня производительности, сопоставимого или даже превосходящего результаты модели в 120 миллиардов параметров. Это указывает на высокую эффективность PRISM в оптимизации процесса рассуждений и снижении вычислительных затрат. Данное достижение подтверждает потенциал технологий DeepThink и PRISM для существенного прогресса в области искусственного интеллекта и открывает новые возможности для решения сложных задач, требующих логического мышления и анализа.

Модель PRISM демонстрирует конкурентоспособные или превосходящие результаты по сравнению с современными методами DeepThink на задачах AIME25, HMMT25 и GPQA Diamond, позволяя модели gpt-oss-20b достигать или превосходить производительность gpt-oss-120b (подробности в Таблице 5).

К адаптивному рассуждению: будущие направления и потенциал

В будущих исследованиях особое внимание будет уделено разработке адаптивных стратегий уточнения, способных динамически регулировать интенсивность анализа в зависимости от сложности решаемой задачи. Предполагается, что система сможет автоматически оценивать требуемую глубину рассуждений, избегая излишних вычислений для простых вопросов и, напротив, углубляя анализ в ситуациях, требующих более детального рассмотрения. Такой подход позволит оптимизировать вычислительные ресурсы и повысить эффективность решения задач различной сложности, приближая искусственный интеллект к способности к гибкому и контекстуально-зависимому мышлению. Разработка подобных механизмов позволит создавать более интеллектуальные системы, способные эффективно адаптироваться к различным условиям и задачам, что является важным шагом на пути к созданию универсального искусственного интеллекта.

Исследования направлены на расширение возможностей PRISM за счет интеграции с другими системами логического вывода и базами знаний. Предполагается, что объединение PRISM с различными подходами, такими как вероятностное программирование или символьные системы, позволит преодолеть ограничения каждой отдельной технологии. Это позволит системе использовать сильные стороны различных методов, например, точность символического вывода и способность вероятностных моделей справляться с неопределенностью. Интеграция с внешними источниками знаний, включая базы данных и онтологии, обеспечит PRISM более широким контекстом и позволит делать более обоснованные выводы, приближая её к созданию действительно интеллектуальных систем, способных к обобщенному решению проблем.

Принципы, лежащие в основе подходов DeepThink и PRISM, открывают перспективные пути к созданию более надежных и устойчивых систем искусственного интеллекта, способных решать сложные задачи рассуждения. Данные методы, фокусируясь на итеративном уточнении и глубоком анализе информации, позволяют преодолеть ограничения традиционных систем, часто сталкивающихся с трудностями при работе с неоднозначными или неполными данными. Посредством многократного пересмотра и верификации собственных выводов, эти системы демонстрируют повышенную точность и способность адаптироваться к новым, сложным сценариям. В перспективе, интеграция данных принципов в более широкие архитектуры ИИ может привести к созданию систем, способных не только решать конкретные задачи, но и демонстрировать более общее, гибкое и надежное рассуждение, приближая искусственный интеллект к уровню человеческого познания.

В конечном счете, данное исследование направлено на преодоление ограничений узкой специализации искусственного интеллекта и создание систем, способных к универсальному рассуждению и решению проблем. Вместо того чтобы ограничиваться выполнением конкретных задач, как это характерно для большинства современных ИИ, разрабатываемый подход стремится к созданию интеллектуальных систем, обладающих способностью адаптироваться к новым ситуациям, самостоятельно анализировать информацию и находить оптимальные решения в различных областях знаний. Это предполагает отход от жестко запрограммированных алгоритмов в пользу более гибких и самообучающихся моделей, способных к абстрактному мышлению и логическому выводу, что является ключевым шагом на пути к созданию действительно разумных машин.

PRISM демонстрирует значительно более высокую устойчивость к слабым начальным популяциям, сохраняя заметно лучшую точность в условиях ограниченного количества корректных кандидатов в начале работы алгоритма, в отличие от большинства других методов.

Данное исследование, представляющее алгоритм PRISM, демонстрирует стремление не к созданию идеальной системы, а к взращиванию её способности к самокоррекции. Вместо поиска безошибочного решения, PRISM фокусируется на процессе улучшения, используя сигналы корректности на каждом шаге. Это соответствует убеждению, что система, которая никогда не ломается, мертва. Внедрение step-level verification позволяет модели не избегать ошибок, а учиться на них, оптимизируя процесс inference-time reasoning и повышая общую эффективность. Как однажды заметил Марвин Минский: «Лучший способ понять — это построить». И PRISM — это не готовое решение, а инструмент для постоянного роста и самосовершенствования.

Что Дальше?

Представленный подход, безусловно, смещает границу возможного в области логического вывода с использованием больших языковых моделей. Однако, архитектура — это лишь способ откладывать хаос, а не побеждать его. Сигнал корректности на уровне шагов, безусловно, ценен, но он лишь маскирует более глубокую проблему: неспособность этих систем к истинному пониманию. Простое повышение точности — это лишь одна итерация в бесконечном цикле борьбы с энтропией.

Следующим этапом представляется не столько оптимизация существующих алгоритмов, сколько переосмысление самой парадигмы. Поиск «лучших практик» иллюзорен — существуют лишь выжившие, те, кто сумел адаптироваться к неизбежному краху. Более перспективным направлением видится изучение механизмов самокоррекции и адаптации, позволяющих системам учиться не только на успешных, но и на неудачных попытках. Порядок — это лишь кэш между двумя сбоями, и его надежность всегда ограничена.

В конечном итоге, ключевым вызовом остается создание систем, способных не просто генерировать правдоподобные ответы, но и оценивать степень своей уверенности и признавать собственные ошибки. Это потребует не только разработки новых алгоритмов, но и фундаментального переосмысления самой природы интеллекта. Именно здесь, в области метакогнитивных способностей, и кроется истинный потенциал для создания систем, способных к подлинному глубокому мышлению.

Оригинал статьи: https://arxiv.org/pdf/2603.02479.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-04 06:42

🚀 Квантовые новости