Сила в Модели: Ограничения Оптимизации в Математических Задачах

Автор: Денис Аветисян

Новое исследование показывает, что возможности самой языковой модели являются определяющим фактором в решении математических задач, а оптимизация запросов и методов вывода дает лишь незначительный эффект.

Масштабирование нейронной сети за пределы доступных вычислительных ресурсов оказывается контрпродуктивным: хотя модель <span class="katex-eq" data-katex-display="false">gpt-oss-{20}b</span> демонстрирует точность <span class="katex-eq" data-katex-display="false">0.61</span> и оценку в 31.0 при <span class="katex-eq" data-katex-display="false">N=8</span>, увеличение до <span class="katex-eq" data-katex-display="false">N=32</span> снижает эти показатели до 26, в то время как разница в 8 баллов между <span class="katex-eq" data-katex-display="false">gpt-oss-{120}b</span> (<span class="katex-eq" data-katex-display="false">0.69</span>, 39.3) и <span class="katex-eq" data-katex-display="false">gpt-oss-{20}b</span> (<span class="katex-eq" data-katex-display="false">0.61</span>, 31.0) значительно превосходит любые улучшения, достигнутые оптимизацией запросов. — Масштабирование нейронной сети за пределы доступных вычислительных ресурсов оказывается контрпродуктивным: хотя модель $gpt-oss-{20}b$ демонстрирует точность $0.61$ и оценку в 31.0 при $N=8$ , увеличение до $N=32$ снижает эти показатели до 26, в то время как разница в 8 баллов между $gpt-oss-{120}b$ ( $0.69$ , 39.3) и $gpt-oss-{20}b$ ( $0.61$ , 31.0) значительно превосходит любые улучшения, достигнутые оптимизацией запросов.

В работе анализируется влияние размера и архитектуры больших языковых моделей на точность решения математических задач, а также эффективность различных техник оптимизации во время инференса.

Несмотря на растущий интерес к оптимизации вывода больших языковых моделей, остается неясным, насколько эффективны методы, такие как ансамблирование и тонкая настройка промптов, в решении сложных задач, требующих глубокого логического мышления. В работе ‘Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3’ авторы исследуют влияние различных стратегий оптимизации на решение математических задач в рамках соревнования AIMO 3, выявляя, что определяющим фактором производительности остается базовая способность модели. Полученные результаты демонстрируют, что даже при использовании ансамблей из $\mathcal{N}=8$ моделей, разрыв в производительности между лучшим результатом голосования большинства и достижением pass@20 обусловлен не недостатками промптов, а различием в способностях моделей. Возможно ли преодолеть этот разрыв с помощью селекторов, основанных на верификации, и действительно ли дальнейшая оптимизация промптов не принесет существенных улучшений?

Пределы Масштабирования: Когда Больше Не Значит Лучше

Несмотря на впечатляющие способности больших языковых моделей, таких как gpt-oss-120b, в решении разнообразных задач, они демонстрируют существенные трудности при выполнении сложных, многоступенчатых рассуждений. Модели часто успешно справляются с отдельными этапами логической цепочки, однако при объединении нескольких последовательных шагов анализа, точность значительно снижается. Это проявляется в неспособности к последовательному планированию, решению проблем, требующих долгосрочной памяти о предыдущих шагах, и эффективному применению знаний в новых, нестандартных ситуациях. В частности, модели испытывают сложности в понимании контекста, требующего интеграции информации из различных источников и поддержания когерентности аргументации на протяжении всей логической цепочки.

Исследования показали, что простое увеличение размера языковой модели не приводит к пропорциональному улучшению её производительности. В частности, сравнение моделей gpt-oss-20b и gpt-oss-120b, работающих с одинаковым объемом вычислительных ресурсов, выявило разницу в 8 баллов по ключевым показателям. Это свидетельствует о том, что дальнейшее наращивание количества параметров дает всё меньше ощутимого эффекта, и существующая стратегия становится неэффективной. Таким образом, для достижения значительного прогресса в развитии языковых моделей необходим переход к более рациональным архитектурам и методам обучения, которые позволят оптимизировать использование вычислительных ресурсов и добиться более существенных результатов.

Современные подходы к созданию больших языковых моделей, основанные на экспоненциальном увеличении числа параметров, становятся всё менее жизнеспособными. Неуклонный рост вычислительных затрат и энергопотребления, необходимых для обучения и функционирования таких моделей, ставит под вопрос их дальнейшее развитие. Исследования показывают, что простое увеличение масштаба не приводит к пропорциональному улучшению производительности, а лишь усугубляет проблему устойчивости. В связи с этим, всё больше внимания уделяется разработке более эффективных архитектур, способных достигать сопоставимых, а порой и превосходящих, результатов при значительно меньшем количестве параметров и, соответственно, снижении вычислительной нагрузки. Подобные инновации необходимы для демократизации доступа к мощным языковым моделям и обеспечения их долгосрочной устойчивости.

Анализ <span class="katex-eq" data-katex-display="false">\hat{\\rho}</span> и <span class="katex-eq" data-katex-display="false">\hat{p}</span> для четырех моделей показывает, что все 19 вычислимых точек имеют отрицательное значение <span class="katex-eq" data-katex-display="false">\hat{\\rho}</span> (среднее -0.122 для N≥7), что не оставляет пространства для корреляции и, следовательно, для стратегий повышения разнообразия. — Анализ $\hat{\\rho}$ и $\hat{p}$ для четырех моделей показывает, что все 19 вычислимых точек имеют отрицательное значение $\hat{\\rho}$ (среднее -0.122 для N≥7), что не оставляет пространства для корреляции и, следовательно, для стратегий повышения разнообразия.

Конвейер Логических Выводов: Систематический Поиск Истины

В основе предлагаемого подхода лежит пятиступенчатый конвейер логических выводов, предназначенный для систематического исследования пространства решений и минимизации ошибок. Конвейер последовательно выполняет этапы обработки входных данных, генерации гипотез, проверки гипотез, агрегации результатов и формирования окончательного ответа. Систематическое исследование пространства решений достигается за счет многократного выполнения конвейера с различными параметрами и начальными условиями, что позволяет охватить более широкий спектр возможных решений. Минимизация ошибок обеспечивается за счет механизмов контроля качества на каждом этапе конвейера, включая валидацию данных, проверку логической согласованности и оценку достоверности результатов. Такая структура позволяет повысить надежность и точность принимаемых решений по сравнению с традиционными подходами.

В основе конвейера логических выводов лежит метод Параллельных Попыток, заключающийся в многократном выполнении процесса рассуждения с использованием различных начальных значений генератора случайных чисел (seed). Это позволяет получить несколько независимых путей решения одной и той же задачи. Использование разнообразных seed гарантирует генерацию различных вариантов логических шагов, что повышает вероятность нахождения корректного решения, особенно в задачах, где присутствует неоднозначность или требуются эвристические методы. Каждая попытка представляет собой полный цикл рассуждений, и результаты всех попыток анализируются для выбора наиболее вероятного и обоснованного ответа.

Для оптимизации использования вычислительных ресурсов в процессе логического вывода применяются стратегии распределения бюджета и ранней остановки. Распределение бюджета ( $Budget Allocation$ ) предполагает динамическое выделение ресурсов различным ветвям поиска решений, основываясь на промежуточных результатах и вероятности успешного завершения. Ранняя остановка ( $Early Stopping$ ) позволяет прервать вычисления по неперспективным направлениям, когда вероятность достижения удовлетворительного результата становится пренебрежимо малой, что существенно сокращает общее время выполнения и потребление ресурсов без ущерба для качества решения.

Интеграция рассуждений с использованием инструментов (Tool-Integrated Reasoning) обеспечивает динамическое решение задач посредством привлечения внешних ресурсов. Данный подход предполагает возможность использования внешних API, баз данных или специализированных программных модулей в процессе логического вывода. Система формирует запросы к этим ресурсам, анализирует полученные ответы и интегрирует их в цепочку рассуждений для получения более точных и полных решений. Это позволяет преодолеть ограничения, связанные с объемом знаний, хранящихся непосредственно в модели, и эффективно решать задачи, требующие доступа к актуальной или специализированной информации. Процесс включает в себя автоматическое определение необходимости использования внешних инструментов, формирование соответствующих запросов и интерпретацию полученных результатов, что позволяет адаптироваться к различным типам задач и требованиям.

Агрегация Выводов: От Голосов к Уверенности

В основе агрегации множественных выводов лежит метод мажоритарного голосования. Данный подход опирается на теорему Кондорсе о жюри, которая утверждает, что при определенных условиях (независимые ошибки и вероятность правильного ответа больше 0.5) вероятность принятия правильного решения коллективом превышает вероятность правильного решения отдельного индивида. Мажоритарное голосование предполагает, что наиболее часто встречающийся вывод является наиболее вероятным, при условии достаточного количества независимых попыток. $p > 0.5$ — необходимое условие для обеспечения сходимости к правильному ответу, где $p$ — вероятность правильного ответа отдельного члена “жюри”.

Простая мажоритарная схема голосования подвержена влиянию корреляции ошибок, что может приводить к неверным результатам. Если отдельные попытки классификации склонны к совершению одних и тех же ошибок (например, из-за схожих искажений в данных или неверных предположений модели), то вероятность коллективной ошибки значительно возрастает. Вместо того, чтобы просто подсчитывать голоса, коррелированные ошибки усиливают друг друга, приводя к доминированию неправильного вывода, даже если большинство попыток ошибаются совместно. Это особенно критично в задачах, где требуется высокая надежность и точность, поскольку простое большинство не гарантирует правильный результат при наличии систематических ошибок.

Для повышения надежности агрегации результатов мы используем метод взвесованного голосования на основе энтропии. Каждая попытка классификации получает вес, обратно пропорциональный энтропии её предсказаний. Более уверенные предсказания, характеризующиеся низкой энтропией (высокой вероятностью одного класса), получают больший вес при итоговом голосовании. Это позволяет снизить влияние менее уверенных или противоречивых попыток, тем самым улучшая общую точность и надежность итогового результата. Веса вычисляются на основе информации о распределении вероятностей предсказаний для каждого примера, что позволяет учитывать степень уверенности каждой попытки в своём решении.

Для повышения устойчивости агрегации результатов при использовании множественных оценок, применяется расчет эффективного размера выборки $N_{eff}$ . В отличие от простого суммирования, $N_{eff}$ учитывает корреляцию ошибок между отдельными попытками. Экспериментально установлено, что средняя корреляция ошибок составляет -0.122 при количестве попыток $N \ge 7$ . Использование $N_{eff}$ вместо $N$ позволяет более точно оценить надежность полученного результата, особенно в случаях, когда ошибки между попытками не являются независимыми, и снижает влияние скоррелированных ошибок на конечный результат.

Руководящие Принципы Модели: Стратегии Промптов

Для повышения эффективности взаимодействия с моделью используются различные стратегии разработки запросов, включая методы “Работаем в обратном порядке” (Work Backwards) и “Классифицируем, затем решаем” (Classify Then Solve). Метод “Работаем в обратном порядке” предполагает формулировку запроса, начиная с желаемого результата и постепенно детализируя необходимые шаги для его достижения. “Классифицируем, затем решаем” сначала определяет тип задачи или категории вопроса, а затем адаптирует запрос к специфике этой категории, что позволяет модели более точно определить необходимый алгоритм решения. Обе стратегии направлены на повышение ясности и структурированности запроса, что приводит к более предсказуемым и качественным ответам.

Метод «Сначала простые случаи» (Small Cases First) предполагает последовательное предоставление модели примеров, начиная с наиболее простых и однозначных, и постепенно увеличивая сложность. Такой подход позволяет модели выявить базовые закономерности в данных на ранних этапах обучения, что способствует более эффективной генерализации и повышению точности решения более сложных задач. Использование простых примеров в качестве отправной точки снижает вероятность переобучения и помогает модели сформировать более устойчивое представление о решаемой проблеме, улучшая ее способность к адаптации к новым, ранее не встречавшимся данным.

Для дальнейшего снижения корреляции ошибок в процессе генерации используется “Разнообразный Микшер Запросов” (Diverse Prompt Mixer). Данный механизм заключается в автоматическом варьировании формулировок входных запросов, сохраняя при этом их семантическую эквивалентность. Вместо отправки нескольких идентичных запросов, система генерирует их варианты, используя синонимы, перестановку фраз и другие лингвистические трансформации. Это позволяет модели обрабатывать задачу с различных точек зрения и снижает вероятность того, что одна и та же ошибка будет воспроизведена в нескольких ответах, повышая надежность и устойчивость системы в целом.

Применяемые методы разработки запросов, такие как «Работаем в обратном порядке», «Классифицируем, а затем решаем» и «Сначала простые примеры», интегрированы непосредственно в конвейер логического вывода. Данная интеграция обеспечивает последовательное применение стратегий оптимизации запросов на каждом этапе обработки, что позволяет снизить вероятность коррелированных ошибок и повысить общую производительность модели за счет более эффективного использования ее вычислительных ресурсов и улучшения качества генерируемых результатов. Автоматизация процесса применения этих техник исключает необходимость ручной настройки и позволяет масштабировать систему без снижения эффективности.

Увеличение разнообразия запросов приводит к монотонному снижению производительности модели <span class="katex-eq" data-katex-display="false"> ext{ongpt-oss-{120}b}</span>$, что подтверждается результатами отдельных запусков (синие круги), средними значениями (чёрные ромбы) и стандартным отклонением (затенённая область). — Увеличение разнообразия запросов приводит к монотонному снижению производительности модели $ext{ongpt-oss-{120}b}$ $, что подтверждается результатами отдельных запусков (синие круги), средними значениями (чёрные ромбы) и стандартным отклонением (затенённая область).

Проверка и Перспективы: Экосистема Разума

Результаты исследований, оцениваемые с помощью метрики $Pass@K$ , демонстрируют существенный прогресс в точности рассуждений. Данный показатель, отражающий вероятность успешного решения задачи при нескольких попытках, указывает на значительное повышение способности модели к логическому выводу и решению сложных проблем. Наблюдаемое улучшение подтверждает эффективность предложенного подхода к построению системы рассуждений и открывает перспективы для её применения в более широком спектре задач, требующих интеллектуального анализа и принятия решений. Полученные данные свидетельствуют о том, что модель способна более надежно и точно выполнять сложные операции рассуждения, что является важным шагом на пути к созданию искусственного интеллекта, способного к действительно разумному поведению.

Для подтверждения надежности разработанного подхода была проведена кросс-модельная валидация с использованием крупных языковых моделей — `Qwen3.5-35B-A3B` и `Nemotron-Super-120B`. Результаты, полученные на этих различных архитектурах, демонстрируют стабильно высокие показатели точности рассуждений, что свидетельствует о том, что предложенный метод не является специфичным для конкретной модели и обладает широкой применимостью. Такое межмодельное подтверждение позволяет с уверенностью говорить о генерализуемости подхода и его потенциальной эффективности в различных сценариях обработки естественного языка, требующих сложных логических выводов и анализа.

Для обеспечения эффективного развертывания разработанных моделей были применены методы квантизации, в частности, NVFP4 и FP8 квантизация. Эти техники позволяют значительно снизить вычислительные затраты и требования к памяти без существенной потери в производительности. В ходе исследований было установлено, что применение данных методов квантизации не приводит к заметному ухудшению точности рассуждений, что делает возможным развертывание моделей на более широком спектре аппаратных средств, включая устройства с ограниченными ресурсами. Это открывает перспективы для использования передовых алгоритмов рассуждений в приложениях, требующих высокой эффективности и доступности.

Перспективы дальнейших исследований сосредоточены на расширении возможностей разработанного конвейера для решения задач, требующих более сложного логического мышления. Наряду с этим, планируется изучение динамической адаптации стратегий промптов — то есть, автоматической настройки запросов к модели в зависимости от специфики решаемой задачи. Проведенные эксперименты с увеличением количества выборок при использовании модели gpt-oss-20b показали эффект убывающей отдачи: повышение числа выборок с 8 до 32 привело к снижению результата с 31.0 до 26. Наилучший результат в единичном прогоне составил 42, что соответствует вероятности в 5.6%, что указывает на потенциал дальнейшей оптимизации и повышения надежности системы.

Абляция <span class="katex-eq" data-katex-display="false">Qwen3.5-{35}B-A3</span> на 10 локальных задачах показала, что удаление компонентов не приводит к улучшению базовой производительности (синяя линия), а в некоторых случаях приводит к ухудшению (оранжевая линия) или сбоям в работе (красная линия). — Абляция $Qwen3.5-{35}B-A3$ на 10 локальных задачах показала, что удаление компонентов не приводит к улучшению базовой производительности (синяя линия), а в некоторых случаях приводит к ухудшению (оранжевая линия) или сбоям в работе (красная линия).

Исследование показывает, что попытки улучшить математические рассуждения больших языковых моделей посредством тонкой настройки запросов и оптимизации времени вывода дают лишь незначительный эффект. Гораздо важнее, как отмечает Марвин Минский: «Искусственный интеллект — это не создание мыслящей машины, а понимание того, как думает человек». Данная работа подтверждает, что фундаментальные возможности самой модели — ключевой фактор, определяющий её успех в решении сложных задач, а не столько изощрённые техники оптимизации. Стремление к повышению ‘аптайма’, как это часто практикуется, может быть обманчиво, поскольку стабильность не гарантирует способность к адаптации и решению новых, непредсказуемых задач. Системы эволюционируют, а не просто ‘работают’, и именно эта эволюция, основанная на базовых возможностях, определяет их истинную ценность.

Куда же дальше?

Представленные результаты, как и многие другие, вновь подтверждают простую истину: полировка алгоритмов вывода мало поможет, если сама база слаба. Каждая новая техника “тонкой настройки” обещает чудеса, пока не потребует жертвоприношений в виде вычислительных ресурсов и времени. Улучшение промптов и оптимизация на этапе вывода — это, по сути, попытки выжать максимум из существующего, а не создание принципиально нового. Это как пытаться ускорить телегу, перемазывая колёса маслом — помогает лишь временно.

Истинный прогресс, вероятно, лежит не в изощренных методах вывода, а в фундаментальном улучшении самих моделей. Но даже если задача математильного рассуждения будет решена, возникнут другие. Каждая новая архитектура обещает свободу, пока не столкнется с непредсказуемостью реальных данных и не потребует еще более сложных систем мониторинга и восстановления. Порядок — это всего лишь временный кэш между сбоями.

В конечном счете, необходимо признать, что создание действительно разумных систем — это не инженерная задача, а скорее искусство выращивания. Нельзя построить интеллект, его можно лишь взрастить, позволяя ему развиваться в естественной среде данных и ошибок. Иначе, все наши усилия превратятся в очередную башню из слоновой кости, красивую, но хрупкую.

Оригинал статьи: https://arxiv.org/pdf/2603.27844.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-19 17:07

🚀 Квантовые новости