Разумный поиск: как научить нейросети проверять свои ответы

Автор: Денис Аветисян

Новая работа предлагает метод повышения надежности и масштабируемости больших языковых моделей за счет интеграции самопроверки и параллельного рассуждения.

В процессе самопроверки, парное подтверждение (<span class="katex-eq" data-katex-display="false">V_{1}-Infer</span>) демонстрирует превосходство над точечным, особенно в задачах, содержащих как верные, так и ошибочные решения в параллельных генерациях (подтверждено на GPT-OSS-20B и LiveCodeBench-V6), однако рекурсивная самоагрегация на эталонных наборах LiveCodeBench выявляет снижение показателя Pass@N (схлопывание разнообразия) для обеих моделей - GPT-OSS-20B и Qwen3-4B-Instruct. — В процессе самопроверки, парное подтверждение ( $V_{1}-Infer$ ) демонстрирует превосходство над точечным, особенно в задачах, содержащих как верные, так и ошибочные решения в параллельных генерациях (подтверждено на GPT-OSS-20B и LiveCodeBench-V6), однако рекурсивная самоагрегация на эталонных наборах LiveCodeBench выявляет снижение показателя Pass@N (схлопывание разнообразия) для обеих моделей — GPT-OSS-20B и Qwen3-4B-Instruct.

Предложен фреймворк V1, объединяющий генерацию и самоверификацию для улучшения масштабируемости параллельного рассуждения в больших языковых моделях с использованием обучения с подкреплением и техник сравнения ответов.

Несмотря на успехи современных больших языковых моделей в сложных задачах рассуждения, эффективная оценка и отбор сгенерированных решений остается узким местом при масштабировании вычислений во время работы. В данной работе, представленной под названием $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners, предложен фреймворк $V_1$, объединяющий генерацию и самоверификацию посредством эффективного попарного ранжирования кандидатов. Достигнуто улучшение точности за счет использования попарных сравнений и обучения с подкреплением, что позволяет динамически распределять вычислительные ресурсы на наиболее неопределенные пары решений. Способен ли предложенный подход значительно повысить эффективность и надежность параллельного рассуждения больших языковых моделей в различных областях, таких как генерация кода и решение математических задач?

Предел Логики: Вызовы и Возможности

Несмотря на впечатляющие возможности больших языковых моделей, таких как Qwen3 и GPTOSS, в области генерации текста, надежное и масштабируемое логическое мышление остается серьезной проблемой. Эти модели демонстрируют способность создавать связные и грамматически правильные тексты, однако их способность к решению задач, требующих глубокого анализа, умозаключений и планирования, часто ограничена. Сложность заключается в том, что эффективное логическое мышление требует не просто запоминания и воспроизведения информации, а способности к обработке сложных взаимосвязей и поиску оптимальных решений в пространстве возможных вариантов, что представляет собой вычислительную задачу, не всегда поддающуюся решению даже для самых мощных современных систем. Разработка алгоритмов и архитектур, способных преодолеть эти ограничения и обеспечить надежное масштабирование логических способностей, является ключевым направлением исследований в области искусственного интеллекта.

Традиционные подходы к решению сложных задач часто сталкиваются с проблемой комбинаторного взрыва, когда количество возможных вариантов быстро растет в геометрической прогрессии. Это существенно ограничивает эффективность алгоритмов, поскольку для анализа каждого варианта требуется время и вычислительные ресурсы. По мере увеличения сложности задачи, количество комбинаций становится астрономическим, делая полный перебор невозможным даже для самых мощных компьютеров. В результате, производительность традиционных методов резко падает, и они оказываются неспособными эффективно решать задачи, требующие рассмотрения большого числа взаимосвязанных факторов и возможных сценариев.

Самопроверка с использованием V1<span class="katex-eq" data-katex-display="false"> \textbf{V}\_{1} </span>-Infer демонстрирует улучшенную производительность по сравнению с поэтапной самопроверкой на различных моделях (GPT-OSS-20B и Qwen3-4B-Instruct-2507) при N=16 базовых генерациях, что подтверждается аналогичными тенденциями, наблюдаемыми для GPT-OSS-120B и Qwen3-4B-Thinking-2507 (см. рис. 12). — Самопроверка с использованием V1 $\textbf{V}\_{1}$ -Infer демонстрирует улучшенную производительность по сравнению с поэтапной самопроверкой на различных моделях (GPT-OSS-20B и Qwen3-4B-Instruct-2507) при N=16 базовых генерациях, что подтверждается аналогичными тенденциями, наблюдаемыми для GPT-OSS-120B и Qwen3-4B-Thinking-2507 (см. рис. 12).

V1_V1: Итеративная Самоверификация как Ключ к Разуму

V1_V1 представляет собой унифицированную структуру, объединяющую этапы генерации решений с надежной самопроверкой. В отличие от традиционных подходов, где генерация и верификация рассматриваются как последовательные, раздельные процессы, V1_V1 интегрирует их в единый цикл. Это позволяет системе не просто создавать варианты решений, но и немедленно оценивать их корректность и надежность, что принципиально меняет процесс поиска оптимальных решений. Вместо слепого перебора, V1_V1 направляет генерацию, используя результаты самопроверки для фокусировки вычислительных ресурсов на наиболее перспективных направлениях и отсева нежизнеспособных вариантов на ранних стадиях.

В основе данной структуры лежит метод PairwiseVerification, который динамически оценивает и уточняет предлагаемые решения. Этот метод предполагает попарное сравнение кандидатов, позволяя выявлять и отсеивать слабые варианты на ранних этапах. Вместо исчерпывающей проверки каждого решения, PairwiseVerification направляет вычислительные ресурсы на наиболее перспективные кандидаты и области, требующие дополнительной проверки. Такой подход значительно повышает эффективность процесса поиска решений, поскольку позволяет сосредоточить усилия на тех аспектах, которые оказывают наибольшее влияние на качество и надежность результата, минимизируя затраты на проверку заведомо неоптимальных вариантов.

В рамках V1_V1, обучение с подкреплением (Reinforcement Learning) используется для направления процесса генерации решений. Алгоритм обучения с подкреплением оптимизирует генерацию кандидатов, ставя во главу угла их производительность при строгой верификации. Это достигается путем назначения вознаграждения (reward) решениям, успешно прошедшим этапы PairwiseVerification, и, соответственно, штрафа за неудачные попытки. В результате, система постепенно учится генерировать решения, которые с большей вероятностью пройдут последующую верификацию, эффективно распределяя вычислительные ресурсы и повышая общую эффективность поиска оптимальных решений.

Алгоритм V1\textbf{V}\_{1}-PairRL объединяет обучение с подкреплением для одновременной эволюции генератора решений и верификатора, где генератор создает <span class="katex-eq" data-katex-display="false">G</span> решений на задачу, а верификатор, обученный на оценке пар решений, максимизирует точность и использует сигналы корректности для оптимизации обеих моделей. — Алгоритм V1\textbf{V}\_{1}-PairRL объединяет обучение с подкреплением для одновременной эволюции генератора решений и верификатора, где генератор создает $G$ решений на задачу, а верификатор, обученный на оценке пар решений, максимизирует точность и использует сигналы корректности для оптимизации обеих моделей.

Масштабирование Верификации: Динамическое Совершенствование

Методы, такие как RecursiveSelfAggregation и TestTimeScaling, повышают эффективность V1_V1 за счет исследования множества решений и их итеративной доработки. RecursiveSelfAggregation предполагает рекурсивное агрегирование частично полученных решений, позволяя системе фокусироваться на наиболее перспективных направлениях поиска. TestTimeScaling динамически адаптирует вычислительные ресурсы, выделяемые для каждого решения, в зависимости от его текущей оценки и потенциала улучшения. Итеративный характер этих методов позволяет постепенно повышать качество решений, отбрасывая менее эффективные варианты и углубляя анализ наиболее многообещающих, что приводит к более эффективному использованию вычислительных ресурсов и повышению общей производительности системы.

Алгоритм SwissTournament оптимизирует распределение вычислительных ресурсов, направляя их на сравнение наиболее неопределенных пар решений. Этот подход максимизирует объем информации, полученной с каждой итерации верификации, поскольку сравнение пар, в отношении которых система испытывает наибольшую неуверенность, позволяет наиболее эффективно сузить область поиска и повысить точность оценки. В отличие от случайного выбора пар для сравнения, SwissTournament динамически адаптируется к текущему состоянию верификации, обеспечивая оптимальное использование доступных вычислительных ресурсов и ускоряя процесс поиска наилучших решений.

Метод CoTraining предполагает одновременное обучение генератора и верификатора, создавая положительную обратную связь для улучшения качества решений. В процессе обучения генератор создает новые решения, а верификатор оценивает их корректность. Результаты оценки используются для корректировки генератора, что позволяет ему создавать более точные решения в последующих итерациях. На определенных эталонных задачах, CoTraining демонстрирует точность парной верификации до 0.946, что подтверждает эффективность данного подхода к совместному обучению.

Увеличение количества парных проверок позволяет языковым моделям более эффективно самопроверять и выбирать оптимальный ответ из нескольких сгенерированных вариантов (см. раздел 4).

Влияние на Практику: От Соревнований к Реальным Задачам

Фреймворк V1_V1 продемонстрировал впечатляющие результаты на широком спектре соревновательных и практических тестов по программированию. Его эффективность была подтверждена на таких платформах, как CodeContests, где оцениваются решения сложных алгоритмических задач, а также на AIME и HMMT — престижных математических олимпиадах, требующих глубокого логического мышления. Кроме того, фреймворк успешно прошел тестирование на LiveCodeBench, представляющем собой сборник задач, приближенных к реальным сценариям разработки программного обеспечения. Данные результаты свидетельствуют о высокой адаптивности и универсальности V1_V1, подтверждая его способность решать разнообразные задачи, требующие как математической точности, так и навыков программирования.

Разработанная система DeepCoder представляет собой ценный инструмент для автоматизированного синтеза программ, позволяющий генерировать код на основе заданных спецификаций. В отличие от традиционных подходов, данная методика выходит за рамки простого поиска готовых решений, активно применяя методы логического вывода и математического анализа для конструирования программного обеспечения. Это позволяет решать задачи, требующие не только знания синтаксиса языка программирования, но и глубокого понимания математических принципов, что существенно расширяет возможности автоматизированной разработки и открывает новые горизонты в области искусственного интеллекта, способного к решению сложных вычислительных задач, требующих нетривиального логического мышления.

Представленная система демонстрирует значительный прогресс в области автоматического синтеза программ, достигая улучшения точности Pass@1 до 10% по сравнению с существующими базовыми методами. Это означает, что предложенный подход способен успешно решать больше задач с первой попытки. Более того, отмечается существенное повышение масштабируемости при проверке, что позволяет системе эффективно обрабатывать более сложные и объемные задачи за разумное время. Улучшенная производительность не только расширяет возможности автоматизированного решения математических задач, но и открывает перспективы для применения в областях, требующих высокой скорости и надежности программного обеспечения.

Совместное обучение с попарной верификацией <span class="katex-eq" data-katex-display="false">V1\textbf{V}\_{1}-PairRL</span> последовательно повышает точность Pass@1 на всех представленных бенчмарках (LiveCodeBench-v5, LiveCodeBench-v6 и CodeContests) по сравнению с базовым алгоритмом RL. — Совместное обучение с попарной верификацией $V1\textbf{V}\_{1}-PairRL$ последовательно повышает точность Pass@1 на всех представленных бенчмарках (LiveCodeBench-v5, LiveCodeBench-v6 и CodeContests) по сравнению с базовым алгоритмом RL.

Исследование представляет собой попытку не просто улучшить масштабируемость параллельного рассуждения больших языковых моделей, но и создать систему, способную к самопроверке. Этот подход напоминает философский взгляд на знание как на процесс реверс-инжиниринга реальности. Как говорил Пауль Эрдеш: «Бог существует, потому что математика слишком красива, чтобы быть случайностью». Подобно тому, как математик ищет красоту и логику в числах, данная работа стремится к созданию системы, где самопроверка и улучшение масштабируемости являются неотъемлемыми частями единого процесса, что позволяет модели не только генерировать ответы, но и оценивать их достоверность, подобно проверке гипотезы.

Что дальше?

Представленная работа, хотя и демонстрирует перспективные результаты в масштабировании параллельного рассуждения, лишь приоткрывает дверь в неизведанное. Укрепление самопроверки — это, конечно, шаг вперед, но истинная проверка системы — в её способности выдерживать непредсказуемые нагрузки и противоречивые данные. Очевидно, что текущие методы оценки надежности, основанные на парных сравнениях, нуждаются в более строгой математической формализации, чтобы отделить истинную уверенность от иллюзии согласованности.

Интересно, что обучение с подкреплением, использованное в данной работе, является, по сути, попыткой заставить машину имитировать внутренний скептицизм, который является фундаментальной чертой человеческого интеллекта. Однако, насколько эта имитация может быть надежной в ситуациях, требующих интуиции или творческого подхода? Возможно, ключ к будущему лежит в интеграции символьных и нейронных подходов, позволяющей модели не только оперировать данными, но и строить абстрактные модели реальности.

В конечном счете, задача не в том, чтобы создать идеальную систему, а в том, чтобы понять её ограничения. Хаос, как известно, порождает понимание быстрее, чем документация. И настоящая революция произойдет тогда, когда мы научимся использовать ошибки не как препятствия, а как инструменты для реверс-инжиниринга самой реальности.

Оригинал статьи: https://arxiv.org/pdf/2603.04304.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-06 02:33

🚀 Квантовые новости