Математический интеллект: как языковые модели научились решать сложные задачи

Автор: Денис Аветисян

Новая система AgentMath объединяет возможности больших языковых моделей с исполнением кода, значительно расширяя их способности к математическому мышлению и решению задач.

Исследование AgentMath демонстрирует возможность применения математических инструментов для анализа и оптимизации поведения агентов, что позволяет решать сложные задачи и повышать эффективность их действий.

Представлен AgentMath — фреймворк, использующий инструментальные агенты и обучение с подкреплением для достижения передовых результатов в математических бенчмарках.

Несмотря на значительный прогресс в области больших языковых моделей (LLM), сложные математические задачи по-прежнему требуют высокой вычислительной эффективности и точности. В данной работе представлена система AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent, представляющая собой агентский фреймворк, объединяющий возможности LLM для логических рассуждений с вычислительной мощностью интерпретаторов кода. Предложенный подход демонстрирует передовые результаты на сложных математических соревнованиях, таких как AIME и HMMT, благодаря автоматизированному созданию обучающих данных и инновационным методам обучения с подкреплением. Возможно ли дальнейшее масштабирование подобных систем для решения еще более сложных задач и создания интеллектуальных помощников в области математики и науки?

За пределами масштабирования: Необходимость рассуждений, дополненных инструментами

Несмотря на впечатляющую способность генерировать текст и понимать язык, традиционные большие языковые модели (LLM) демонстрируют существенные трудности при решении задач, требующих точных вычислений и последовательного, многошагового подхода к решению проблем. Они часто допускают ошибки в арифметике, логических рассуждениях и планировании, особенно когда задача выходит за рамки простого извлечения информации из обучающих данных. Эта слабость обусловлена внутренней архитектурой LLM, которая оптимизирована для распознавания закономерностей в тексте, а не для выполнения формальных операций или поддержания точного состояния. В результате, даже самые мощные LLM могут давать неверные ответы на кажущиеся простыми вопросы, требующие более чем простого сопоставления с ранее увиденным.

Несмотря на впечатляющий прогресс в увеличении масштабов языковых моделей, их возможности в решении сложных задач, требующих точных вычислений и последовательных действий, остаются ограниченными. Простое увеличение размера модели не позволяет преодолеть фундаментальные архитектурные недостатки. Необходим принципиально новый подход, заключающийся в интеграции внешних инструментов — специализированных программ и систем, способных выполнять конкретные операции. Такая комбинация позволит языковым моделям делегировать сложные вычисления и логические операции внешним инструментам, концентрируясь на понимании задачи и интерпретации результатов, что значительно повысит их надежность и эффективность в решении задач, выходящих за рамки простого анализа текста.

Для преодоления ограничений, присущих архитектуре больших языковых моделей, требуется принципиально новая структура, объединяющая сильные стороны лингвистического анализа и надежность исполняемого кода. Такой подход позволяет не просто генерировать текст, но и выполнять сложные вычисления, проверять факты и решать многоступенчатые задачи с высокой точностью. Интеграция с внешними инструментами, такими как калькуляторы, базы данных или специализированные алгоритмы, дает возможность модели не только понимать вопросы, но и активно взаимодействовать с цифровой средой, предоставляя подтвержденные и обоснованные ответы. В результате, подобная система демонстрирует качественно новый уровень рассуждений, превосходящий возможности, достижимые исключительно за счет масштабирования языковой модели.

Автоматизированный конвейер из трех этапов позволяет преобразовывать текстовое рассуждение в верифицированные, исполняемые траектории агентов с использованием кода и механизмов самокоррекции.

AgentMath: Структура для интегрированных рассуждений

AgentMath представляет собой новую структуру, в которой большие языковые модели (LLM) выступают в качестве основного механизма рассуждений, дополненного интерпретатором кода для точных вычислений и верификации. LLM отвечает за логический анализ задачи и генерацию плана решения, в то время как интерпретатор кода выполняет необходимые математические операции, статистический анализ или другие вычислительные задачи, требуемые планом. Результаты вычислений затем возвращаются в LLM для дальнейшей обработки и формирования окончательного ответа. Такая интеграция позволяет AgentMath решать задачи, требующие как логического мышления, так и высокой точности вычислений, превосходя возможности LLM, используемых самостоятельно.

Для инициализации агента AgentMath и обеспечения эффективного использования интерпретатора кода критически важна процедура контролируемого обучения (Supervised Fine-Tuning, SFT) с применением данных, дополненных информацией об использовании инструментов. Этот процесс включает в себя обучение модели на наборе данных, содержащем примеры задач и соответствующие им действия по использованию интерпретатора кода для их решения. SFT позволяет модели научиться правильно формировать запросы к интерпретатору, интерпретировать результаты вычислений и интегрировать их в процесс рассуждений, значительно повышая точность и надежность ответов. Использование данных, специфичных для работы с инструментами, является ключевым фактором успешной адаптации LLM к задачам, требующим численных вычислений и верификации.

В отличие от традиционного подхода Long Chain-of-Thought (CoT), который ограничивается последовательным генерированием текстовых рассуждений, AgentMath интегрирует возможность выполнения кода непосредственно в процесс логического вывода. Это позволяет агенту не только формулировать гипотезы и строить логические цепочки, но и проверять их точность, выполняя необходимые вычисления и операции с данными посредством встроенного интерпретатора кода. В результате, AgentMath способен решать задачи, требующие точных вычислений и проверки фактов, что значительно расширяет область применения CoT-рассуждений и повышает надежность получаемых результатов. Интеграция кода становится неотъемлемой частью процесса рассуждения, а не просто дополнительным шагом для верификации ответа.

Исследование AgentMath демонстрирует возможности самокоррекции кода.

Оптимизация обучения для эффективности и надежности

Для дальнейшей оптимизации стратегии агента используется обучение с подкреплением (Reinforcement Learning, RL). RL позволяет агенту научиться стратегически использовать инструмент Code Interpreter для решения задач, максимизируя эффективность и точность. В процессе обучения агент получает вознаграждение за успешное использование Code Interpreter для достижения поставленной цели, что позволяет ему постепенно совершенствовать свою политику выбора действий и осваивать наиболее эффективные способы применения данного инструмента в различных ситуациях. Обучение с подкреплением обеспечивает адаптацию агента к сложным задачам и повышение его способности к решению проблем, требующих использования вычислительных инструментов.

Для повышения эффективности обучения агента используются методы асинхронного планирования (Asynchronous Rollout Scheduling) и частичного планирования с агентом (Agentic Partial Rollout). Эти техники позволяют снизить задержки и оптимизировать распределение ресурсов, что приводит к ускорению обучения в 4.0-5.0 раз по сравнению с традиционным пакетным синхронным планированием. Асинхронное планирование позволяет параллельно выполнять несколько эпизодов, снижая время ожидания. Частичное планирование с агентом фокусируется на наиболее перспективных траекториях, уменьшая вычислительную нагрузку и повышая скорость сходимости.

Алгоритм Group Relative Policy Optimization (GRPO) упрощает процесс обучения и повышает его стабильность за счет отказа от аппроксимации функции ценности. В отличие от традиционных пакетных синхронных методов, GRPO позволяет избежать вычислений, связанных с оценкой ценности состояния, что существенно снижает задержку на каждом шаге обучения в 4.0-5.0 раз. Данная оптимизация достигается путем непосредственной оптимизации политики без необходимости прогнозирования будущих вознаграждений через функцию ценности, что ведет к более быстрой сходимости и снижению вычислительных затрат.

Наша система агентного обучения с подкреплением, включающая асинхронный планировщик, цикл агента и частичные развертки, обеспечивает непрерывную работу до достижения лимита длины генерируемого контента (<span class="katex-eq" data-katex-display="false">32</span>к) или максимального количества вызовов инструментов. — Наша система агентного обучения с подкреплением, включающая асинхронный планировщик, цикл агента и частичные развертки, обеспечивает непрерывную работу до достижения лимита длины генерируемого контента ( $32$ к) или максимального количества вызовов инструментов.

Продемонстрированная производительность и направления дальнейших исследований

Система AgentMath продемонстрировала передовые результаты в решении задач математических олимпиад, превзойдя существующие аналоги. Используя модель AgentMath-30B-A3B, система достигла точности 90.6% на тесте AIME24, 86.4% на AIME25 и 73.8% на HMMT25. Эти показатели свидетельствуют о значительном прогрессе в области автоматизированного решения сложных математических задач и открывают новые возможности для применения искусственного интеллекта в образовании и научных исследованиях. Успех AgentMath подтверждает эффективность разработанного подхода к построению интеллектуальных систем, способных к решению задач, требующих глубокого логического мышления и математических знаний.

Представленная архитектура демонстрирует выдающуюся способность к самокоррекции, что позволяет ей не только решать сложные математические задачи, но и самостоятельно выявлять и исправлять ошибки в процессе рассуждений и выполнения кода. В отличие от традиционных систем, где обнаружение ошибок требует внешнего вмешательства, данная система способна анализировать собственные шаги, определять неточности в логике или синтаксисе, и автоматически применять корректирующие действия. Такая самодиагностика и исправление ошибок значительно повышает надежность и точность результатов, позволяя системе достигать высоких показателей даже в сложных задачах, требующих многоступенчатых вычислений и логических выводов. Данная способность к самокоррекции является ключевым фактором, обеспечивающим превосходную производительность системы в математических соревнованиях.

Дальнейшие исследования в области AgentMath направлены на существенное расширение арсенала доступных агенту инструментов и освоение более сложных стратегий рассуждений. Ожидается, что интеграция новых вычислительных ресурсов и специализированных библиотек позволит AgentMath решать более широкий спектр математических задач, выходящих за рамки текущих бенчмарков. Параллельно ведется работа над усовершенствованием алгоритмов логического вывода и самокоррекции, что позволит агенту не только находить правильные ответы, но и более глубоко понимать суть решаемых проблем и обосновывать свои решения. Успешная реализация этих направлений позволит AgentMath приблизиться к уровню эксперта-математика и откроет новые перспективы для автоматизированного решения сложных научных задач.

В фазе обучения с подкреплением на наборе данных AIME24/25, AgentMath демонстрирует превосходство над текстовой моделью, будучи инициализированным с наилучшей контрольной точки SFT, обученной на 20 тысячах примеров.

Наблюдатель отмечает, что стремление к совершенству в математическом моделировании, описанное в статье, неизбежно сталкивается с суровой реальностью продакшена. Авторы AgentMath предлагают элегантный подход к расширению возможностей больших языковых моделей посредством инструментов, позволяющих выполнять код и рассуждать математически. Однако, как известно, любая абстракция рано или поздно умирает от продакшена. В этом контексте особенно актуальна фраза Давида Гильберта: «Мы должны знать. Мы должны знать!». Иначе говоря, для достижения реальных результатов необходимо глубокое понимание ограничений и возможностей используемых инструментов, а также готовность к постоянной адаптации и совершенствованию. Ведь даже самый продуманный AgentMath однажды столкнется с неожиданной ошибкой, и знание этого — первый шаг к её устранению.

Что Дальше?

Представленный фреймворк AgentMath, безусловно, демонстрирует улучшение в области математического рассуждения для больших языковых моделей. Однако, стоит помнить, что каждая «революция» в машинном обучении неизбежно порождает новый тип технического долга. Бесшовное взаимодействие с кодом — это лишь очередной способ обойти фундаментальные ограничения текущих архитектур, а не решить проблему истинного понимания. Попытки масштабировать решение через асинхронное обучение и агентные подходы, вероятно, столкнутся с экспоненциальным ростом сложности отладки и воспроизводимости.

Более того, акцент на достижение лучших результатов на бенчмарках — это, в лучшем случае, иллюзия прогресса. Производственная среда всегда найдет способ сломать элегантную теорию. Необходимо сместить фокус с «умных» агентов на надежные и предсказуемые системы. Нам не нужно больше микросервисов — нам нужно меньше иллюзий относительно того, что мы действительно контролируем происходящее.

В конечном итоге, истинный вызов заключается не в увеличении вычислительной мощности или усложнении архитектур, а в разработке методов верификации и формальной проверки математических рассуждений. Успех AgentMath — это лишь отправная точка, а не финишная прямая. И, скорее всего, через несколько лет эта архитектура станет очередным анекдотом в истории машинного обучения.

Оригинал статьи: https://arxiv.org/pdf/2512.20745.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-25 18:00

🚀 Квантовые новости