Автор: Денис Аветисян
Исследователи представили систему, способную решать олимпиадные задачи по математике, преодолевая ограничения по длине контекста и демонстрируя впечатляющие результаты.

Предлагаемая архитектура Intern-S1-MO использует иерархическое разложение, управление леммами и обучение с подкреплением для решения задач высокой сложности.
Несмотря на значительный прогресс в области больших языковых моделей, решение сложных математических задач олимпиадного уровня остается серьезным вызовом из-за ограничений контекстного окна и сложности верификации промежуточных шагов рассуждений. В статье «Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving» предложен новый подход, использующий иерархическое разложение, управление леммами и обучение с подкреплением для преодоления этих ограничений. Разработанный верификатор OPV, сочетающий оценку результатов и процесса рассуждений, демонстрирует превосходную производительность и масштабируемость, превосходя существующие модели на сложных математических задачах. Сможет ли данный подход открыть новые горизонты в автоматизированном решении математических задач и обучении искусственного интеллекта?
Пределы Контекста: Почему Глубокое Рассуждение Остается Проблемой
Современные языковые модели, несмотря на впечатляющую производительность, сталкиваются с фундаментальным ограничением — предельной длиной контекста. Это означает, что способность модели обрабатывать и удерживать информацию, необходимую для решения сложных, многошаговых задач, ограничена. По сути, модель способна эффективно работать лишь с определенным объемом входных данных, после чего начинает «забывать» или игнорировать более раннюю информацию, что критически влияет на точность и последовательность рассуждений. Данное ограничение особенно заметно при решении математических задач или построении сложных логических цепочек, где поддержание контекста на протяжении всего процесса необходимо для получения корректного результата. Таким образом, предел длины контекста выступает серьезным барьером для развития более глубокого и надежного искусственного интеллекта, способного к сложному анализу и принятию обоснованных решений.
Ограничение длины контекста оказывает существенное влияние на способность языковых моделей решать математические задачи. По мере усложнения вычислений и удлинения цепочки рассуждений, модели склонны “забывать” важные промежуточные данные, необходимые для получения корректного ответа. Например, при решении сложных уравнений или задач на оптимизацию, модель может потерять из виду начальные условия или результаты предыдущих шагов, что приводит к ошибкам в конечном результате. Это проявляется особенно заметно в задачах, требующих многоэтапных вычислений, где каждое действие зависит от предыдущего. Неспособность удерживать всю необходимую информацию в контексте приводит к снижению точности и надежности математических вычислений, демонстрируя принципиальное ограничение существующих архитектур языковых моделей при решении задач, требующих длительных и сложных логических цепочек, таких как решение $x^2 + 5x + 6 = 0$ или вычисление интегралов.
Традиционные подходы к построению языковых моделей сталкиваются с существенными трудностями при увеличении глубины рассуждений. По мере удлинения цепочки логических шагов, модели демонстрируют снижение когерентности и точности, что приводит к заметному снижению производительности. Данное явление связано с тем, что информация, необходимая для ранних этапов рассуждений, постепенно теряется или искажается при обработке последующих шагов. Например, при решении сложных математических задач, модели могут успешно выполнить первые несколько операций, но затем забыть промежуточные результаты или допустить ошибки в вычислениях из-за ограниченной способности удерживать и обрабатывать большой объем информации в контексте. Это приводит к тому, что производительность резко падает, формируя ощутимое «узкое место» в процессе решения задач, требующих многоступенчатого логического анализа и поддержания связности информации на протяжении всего процесса вычислений.

Intern-S1-MO: Иерархическое Рассуждение и Управление Леммами
Фреймворк Intern-S1-MO представляет собой многоагентную систему, разработанную для преодоления ограничений, связанных с длиной контекста при решении сложных задач. Он использует иерархическую декомпозицию, разделяя большую проблему на более мелкие, управляемые подзадачи. Это позволяет агентам сосредоточиться на отдельных аспектах проблемы, снижая вычислительную нагрузку и требования к объему контекста. Вместо обработки всей задачи сразу, Intern-S1-MO структурирует процесс решения в виде иерархии, что способствует более эффективному использованию ресурсов и повышению масштабируемости системы. Такой подход особенно полезен в задачах, требующих длительных цепочек рассуждений и большого объема информации.
В основе системы лежит управление леммами — техника сжатия истории рассуждений в лаконичные, повторно используемые под-леммы. Данный подход позволяет агенту формировать своеобразную “память”, сохраняя промежуточные результаты и выводы для дальнейшего использования. Вместо хранения всей последовательности шагов рассуждений, система сохраняет только ключевые, абстрагированные результаты в виде лемм, что существенно снижает требования к объему контекста и позволяет эффективно оперировать сложными задачами, требующими длительных цепочек логических выводов. Сохраненные леммы могут быть применены к новым, похожим задачам, ускоряя процесс поиска решения и повышая общую эффективность агента.
В основе архитектуры `Intern-S1-MO` лежит иерархический марковский процесс принятия решений (ИМППР), позволяющий агенту представлять сложные задачи рассуждения в виде структурированной иерархии. ИМППР разбивает исходную задачу на последовательность подзадач, каждая из которых представляет собой отдельный этап в процессе решения. Это позволяет агенту осуществлять стратегическое исследование пространства решений, последовательно уточняя и совершенствуя свой путь к конечному результату. Использование ИМППР обеспечивает возможность эффективного планирования и управления процессом рассуждений, особенно при работе с задачами, требующими длительной последовательности логических выводов и анализа.
Обучение и Верификация: Гарантия Надежного Математического Рассуждения
В качестве платформы для обучения модели $Intern-S1-MO$ используется система обучения с подкреплением $OREAL-H$. Данная система реализует онлайн-исследование (online exploration) и иерархическую формулировку марковского процесса принятия решений (MDP). Иерархический подход позволяет декомпозировать сложную задачу на последовательность более простых подзадач, что упрощает процесс обучения и повышает эффективность исследования пространства решений. Онлайн-исследование обеспечивает постоянное взаимодействие модели с окружающей средой, что позволяет ей адаптироваться к новым условиям и улучшать свою производительность в процессе обучения.
В основе обучения модели Intern-S1-MO лежит расширение подхода обучения с подкреплением на основе проверяемых наград (Reinforcement Learning from Verifiable Rewards, RLVR). Ключевым отличием является интеграция формальной верификации на каждом шаге логического вывода. Это позволяет не просто оценить правильность ответа, но и убедиться в корректности каждой промежуточной операции, гарантируя, что решение построено на логически обоснованных принципах и не содержит ошибок в рассуждениях. Процесс верификации включает в себя проверку корректности применяемых правил вывода и соответствия промежуточных результатов логическим аксиомам, что обеспечивает высокую надежность и обоснованность получаемых решений.
Для дополнительной проверки целостности решения используются инструменты формальной верификации — Theorem Verifier и CompassVerifier. Theorem Verifier осуществляет проверку корректности логических шагов, используемых в процессе рассуждений, а CompassVerifier подтверждает, что полученный ответ не просто верен, но и может быть доказан формально, опираясь на установленные математические аксиомы и правила вывода. Данный подход позволяет гарантировать не только правильность результата, но и его обоснованность, обеспечивая высокую степень надежности и прозрачности процесса математического рассуждения.
Производительность и Значение: Масштабирование Решения Математических Задач
Система Intern-S1-MO продемонстрировала значительный прогресс в решении сложных математических задач, набрав 26 баллов из 35 по задачам Международной математической олимпиады 2025 года (IMO2025) негеометрического типа. Этот результат превосходит порог, необходимый для получения серебряной медали (21 балл), что свидетельствует о способности системы эффективно справляться с задачами, требующими глубокого логического мышления и математических навыков. Успех Intern-S1-MO в решении задач такого уровня сложности подчеркивает потенциал новых подходов к разработке искусственного интеллекта, способного к сложным рассуждениям и решению проблем в области математики, открывая перспективы для дальнейших исследований и разработок в этой области.
В ходе тестирования новая система продемонстрировала впечатляющие результаты на престижных математических олимпиадах. На бенчмарке AIME2025 система достигла показателя успешности в 96.6% (Pass@1), что значительно превосходит результаты, демонстрируемые современными передовыми моделями искусственного интеллекта. Аналогично, на бенчмарке HMMT2025 система показала уровень успешности в 95%, подтверждая свою высокую эффективность в решении сложных математических задач. Эти результаты свидетельствуют о значительном прогрессе в области разработки систем искусственного интеллекта, способных к надежному и масштабируемому математическому рассуждению, и открывают новые перспективы для автоматизации решения математических задач различного уровня сложности.
В ходе тестирования на бенчмарке CNMO2025, модель Intern-S1-MO продемонстрировала выдающиеся результаты, набрав 232.4 балла из 260 возможных. Данный показатель значительно превосходит результат, достигнутый моделью Gemini 2.5 Pro, которая набрала 157.5 баллов. Такое существенное превосходство указывает на более высокую способность Intern-S1-MO к решению сложных математических задач, требующих глубокого анализа и логических рассуждений, и подтверждает эффективность предложенного подхода к построению систем искусственного интеллекта, способных к масштабируемому математическому мышлению.
Разработка, основанная на иерархическом разложении задач и системе проверяемых вознаграждений, представляет собой важный шаг в создании искусственного интеллекта, способного к надёжному и масштабируемому математическому мышлению. Подход позволяет модели эффективно обрабатывать сложные математические проблемы, разбивая их на более мелкие, управляемые подзадачи. Система вознаграждений, основанная на верифицируемых этапах решения, обеспечивает последовательное улучшение и позволяет ИИ не просто находить ответы, но и демонстрировать логически обоснованный процесс рассуждений. Такой механизм способствует развитию более устойчивых и обобщаемых способностей к решению математических задач, что открывает перспективы для создания интеллектуальных систем, способных к сложным вычислениям и доказательствам, превосходящих существующие аналоги в производительности и надёжности.
Наблюдатель отмечает, что стремление к элегантным решениям, как это демонстрирует Intern-S1-MO с его иерархической декомпозицией и управлением леммами, неизбежно сталкивается с суровой реальностью. Каждая попытка обойти ограничения контекста, каждая инновация в области математического рассуждения рано или поздно порождает новый, более изощрённый вид техдолга. Как точно заметил Кен Томпсон: «Я всегда чувствую, что у меня есть больше идей, чем времени, чтобы их реализовать». И эта фраза как нельзя лучше иллюстрирует суть: даже самые передовые модели, подобные Intern-S1-MO, лишь откладывают неизбежное — необходимость в постоянной оптимизации и борьбе с ограничениями вычислительных ресурсов. Ведь, в конечном счете, система продолжает жить, несмотря на все баги и уязвимости.
Что дальше?
Представленный подход, безусловно, демонстрирует способность обходить ограничения контекста, что является важным шагом. Однако, за красивыми графиками, иллюстрирующими иерархическое разложение, скрывается неизбежная сложность управления леммами. История показывает, что каждое элегантное решение рано или поздно превращается в монолит, требующий всё больше ресурсов для поддержки. Утверждения о «бесконечной масштабируемости» уже звучали в 2012-м, только под другими названиями.
Более того, акцент на олимпиадных задачах по математике несколько сужает перспективу. Проверка корректности решения — это хорошо, но реальный мир редко предоставляет чётко сформулированные условия и однозначные ответы. Если тесты зелёные, это ещё не значит, что система действительно что-то понимает, а не просто перебирает варианты.
В конечном итоге, настоящая проверка ждёт впереди — когда подобные модели столкнутся с задачами, где данные неполны, неоднозначны, а критерии оценки — субъективны. И тогда, как обычно, станет ясно, что самая сложная часть — это не построение алгоритма, а его адаптация к несовершенству окружающего мира. Каждая «революционная» технология завтра станет техдолгом.
Оригинал статьи: https://arxiv.org/pdf/2512.10739.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- LLM: математика — предел возможностей.
- Квантовые схемы без лишних шагов: обучение с подкреплением для оптимизации вычислений
- Когда данные оживают: как LongCat-Flash-Omni объединяет текст, звук и видео в реальном времени
- Квантовый горизонт: Облачные вычисления нового поколения
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Вариационные и полувариационные неравенства: от теории к практике
- Точность фазовой оценки: адаптивный подход превосходит стандартный
- Модель Motif 2 12.7B: Новый взгляд на эффективные языковые модели
- Квантовый прыжок в будущее: юмористический взгляд на недавние квантовые приключения!
- Взгляд в будущее видео: ускорение генерации с помощью LiteAttention
2025-12-12 22:03