Автор: Денис Аветисян
Новая система AgentMath объединяет возможности больших языковых моделей с исполнением кода, значительно расширяя их способности к математическому мышлению и решению задач.

Представлен AgentMath — фреймворк, использующий инструментальные агенты и обучение с подкреплением для достижения передовых результатов в математических бенчмарках.
Несмотря на значительный прогресс в области больших языковых моделей (LLM), сложные математические задачи по-прежнему требуют высокой вычислительной эффективности и точности. В данной работе представлена система AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent, представляющая собой агентский фреймворк, объединяющий возможности LLM для логических рассуждений с вычислительной мощностью интерпретаторов кода. Предложенный подход демонстрирует передовые результаты на сложных математических соревнованиях, таких как AIME и HMMT, благодаря автоматизированному созданию обучающих данных и инновационным методам обучения с подкреплением. Возможно ли дальнейшее масштабирование подобных систем для решения еще более сложных задач и создания интеллектуальных помощников в области математики и науки?
За пределами масштабирования: Необходимость рассуждений, дополненных инструментами
Несмотря на впечатляющую способность генерировать текст и понимать язык, традиционные большие языковые модели (LLM) демонстрируют существенные трудности при решении задач, требующих точных вычислений и последовательного, многошагового подхода к решению проблем. Они часто допускают ошибки в арифметике, логических рассуждениях и планировании, особенно когда задача выходит за рамки простого извлечения информации из обучающих данных. Эта слабость обусловлена внутренней архитектурой LLM, которая оптимизирована для распознавания закономерностей в тексте, а не для выполнения формальных операций или поддержания точного состояния. В результате, даже самые мощные LLM могут давать неверные ответы на кажущиеся простыми вопросы, требующие более чем простого сопоставления с ранее увиденным.
Несмотря на впечатляющий прогресс в увеличении масштабов языковых моделей, их возможности в решении сложных задач, требующих точных вычислений и последовательных действий, остаются ограниченными. Простое увеличение размера модели не позволяет преодолеть фундаментальные архитектурные недостатки. Необходим принципиально новый подход, заключающийся в интеграции внешних инструментов — специализированных программ и систем, способных выполнять конкретные операции. Такая комбинация позволит языковым моделям делегировать сложные вычисления и логические операции внешним инструментам, концентрируясь на понимании задачи и интерпретации результатов, что значительно повысит их надежность и эффективность в решении задач, выходящих за рамки простого анализа текста.
Для преодоления ограничений, присущих архитектуре больших языковых моделей, требуется принципиально новая структура, объединяющая сильные стороны лингвистического анализа и надежность исполняемого кода. Такой подход позволяет не просто генерировать текст, но и выполнять сложные вычисления, проверять факты и решать многоступенчатые задачи с высокой точностью. Интеграция с внешними инструментами, такими как калькуляторы, базы данных или специализированные алгоритмы, дает возможность модели не только понимать вопросы, но и активно взаимодействовать с цифровой средой, предоставляя подтвержденные и обоснованные ответы. В результате, подобная система демонстрирует качественно новый уровень рассуждений, превосходящий возможности, достижимые исключительно за счет масштабирования языковой модели.

AgentMath: Структура для интегрированных рассуждений
AgentMath представляет собой новую структуру, в которой большие языковые модели (LLM) выступают в качестве основного механизма рассуждений, дополненного интерпретатором кода для точных вычислений и верификации. LLM отвечает за логический анализ задачи и генерацию плана решения, в то время как интерпретатор кода выполняет необходимые математические операции, статистический анализ или другие вычислительные задачи, требуемые планом. Результаты вычислений затем возвращаются в LLM для дальнейшей обработки и формирования окончательного ответа. Такая интеграция позволяет AgentMath решать задачи, требующие как логического мышления, так и высокой точности вычислений, превосходя возможности LLM, используемых самостоятельно.
Для инициализации агента AgentMath и обеспечения эффективного использования интерпретатора кода критически важна процедура контролируемого обучения (Supervised Fine-Tuning, SFT) с применением данных, дополненных информацией об использовании инструментов. Этот процесс включает в себя обучение модели на наборе данных, содержащем примеры задач и соответствующие им действия по использованию интерпретатора кода для их решения. SFT позволяет модели научиться правильно формировать запросы к интерпретатору, интерпретировать результаты вычислений и интегрировать их в процесс рассуждений, значительно повышая точность и надежность ответов. Использование данных, специфичных для работы с инструментами, является ключевым фактором успешной адаптации LLM к задачам, требующим численных вычислений и верификации.
В отличие от традиционного подхода Long Chain-of-Thought (CoT), который ограничивается последовательным генерированием текстовых рассуждений, AgentMath интегрирует возможность выполнения кода непосредственно в процесс логического вывода. Это позволяет агенту не только формулировать гипотезы и строить логические цепочки, но и проверять их точность, выполняя необходимые вычисления и операции с данными посредством встроенного интерпретатора кода. В результате, AgentMath способен решать задачи, требующие точных вычислений и проверки фактов, что значительно расширяет область применения CoT-рассуждений и повышает надежность получаемых результатов. Интеграция кода становится неотъемлемой частью процесса рассуждения, а не просто дополнительным шагом для верификации ответа.

Оптимизация обучения для эффективности и надежности
Для дальнейшей оптимизации стратегии агента используется обучение с подкреплением (Reinforcement Learning, RL). RL позволяет агенту научиться стратегически использовать инструмент Code Interpreter для решения задач, максимизируя эффективность и точность. В процессе обучения агент получает вознаграждение за успешное использование Code Interpreter для достижения поставленной цели, что позволяет ему постепенно совершенствовать свою политику выбора действий и осваивать наиболее эффективные способы применения данного инструмента в различных ситуациях. Обучение с подкреплением обеспечивает адаптацию агента к сложным задачам и повышение его способности к решению проблем, требующих использования вычислительных инструментов.
Для повышения эффективности обучения агента используются методы асинхронного планирования (Asynchronous Rollout Scheduling) и частичного планирования с агентом (Agentic Partial Rollout). Эти техники позволяют снизить задержки и оптимизировать распределение ресурсов, что приводит к ускорению обучения в 4.0-5.0 раз по сравнению с традиционным пакетным синхронным планированием. Асинхронное планирование позволяет параллельно выполнять несколько эпизодов, снижая время ожидания. Частичное планирование с агентом фокусируется на наиболее перспективных траекториях, уменьшая вычислительную нагрузку и повышая скорость сходимости.
Алгоритм Group Relative Policy Optimization (GRPO) упрощает процесс обучения и повышает его стабильность за счет отказа от аппроксимации функции ценности. В отличие от традиционных пакетных синхронных методов, GRPO позволяет избежать вычислений, связанных с оценкой ценности состояния, что существенно снижает задержку на каждом шаге обучения в 4.0-5.0 раз. Данная оптимизация достигается путем непосредственной оптимизации политики без необходимости прогнозирования будущих вознаграждений через функцию ценности, что ведет к более быстрой сходимости и снижению вычислительных затрат.

Продемонстрированная производительность и направления дальнейших исследований
Система AgentMath продемонстрировала передовые результаты в решении задач математических олимпиад, превзойдя существующие аналоги. Используя модель AgentMath-30B-A3B, система достигла точности 90.6
Представленная архитектура демонстрирует выдающуюся способность к самокоррекции, что позволяет ей не только решать сложные математические задачи, но и самостоятельно выявлять и исправлять ошибки в процессе рассуждений и выполнения кода. В отличие от традиционных систем, где обнаружение ошибок требует внешнего вмешательства, данная система способна анализировать собственные шаги, определять неточности в логике или синтаксисе, и автоматически применять корректирующие действия. Такая самодиагностика и исправление ошибок значительно повышает надежность и точность результатов, позволяя системе достигать высоких показателей даже в сложных задачах, требующих многоступенчатых вычислений и логических выводов. Данная способность к самокоррекции является ключевым фактором, обеспечивающим превосходную производительность системы в математических соревнованиях.
Дальнейшие исследования в области AgentMath направлены на существенное расширение арсенала доступных агенту инструментов и освоение более сложных стратегий рассуждений. Ожидается, что интеграция новых вычислительных ресурсов и специализированных библиотек позволит AgentMath решать более широкий спектр математических задач, выходящих за рамки текущих бенчмарков. Параллельно ведется работа над усовершенствованием алгоритмов логического вывода и самокоррекции, что позволит агенту не только находить правильные ответы, но и более глубоко понимать суть решаемых проблем и обосновывать свои решения. Успешная реализация этих направлений позволит AgentMath приблизиться к уровню эксперта-математика и откроет новые перспективы для автоматизированного решения сложных научных задач.

Наблюдатель отмечает, что стремление к совершенству в математическом моделировании, описанное в статье, неизбежно сталкивается с суровой реальностью продакшена. Авторы AgentMath предлагают элегантный подход к расширению возможностей больших языковых моделей посредством инструментов, позволяющих выполнять код и рассуждать математически. Однако, как известно, любая абстракция рано или поздно умирает от продакшена. В этом контексте особенно актуальна фраза Давида Гильберта: «Мы должны знать. Мы должны знать!». Иначе говоря, для достижения реальных результатов необходимо глубокое понимание ограничений и возможностей используемых инструментов, а также готовность к постоянной адаптации и совершенствованию. Ведь даже самый продуманный AgentMath однажды столкнется с неожиданной ошибкой, и знание этого — первый шаг к её устранению.
Что Дальше?
Представленный фреймворк AgentMath, безусловно, демонстрирует улучшение в области математического рассуждения для больших языковых моделей. Однако, стоит помнить, что каждая «революция» в машинном обучении неизбежно порождает новый тип технического долга. Бесшовное взаимодействие с кодом — это лишь очередной способ обойти фундаментальные ограничения текущих архитектур, а не решить проблему истинного понимания. Попытки масштабировать решение через асинхронное обучение и агентные подходы, вероятно, столкнутся с экспоненциальным ростом сложности отладки и воспроизводимости.
Более того, акцент на достижение лучших результатов на бенчмарках — это, в лучшем случае, иллюзия прогресса. Производственная среда всегда найдет способ сломать элегантную теорию. Необходимо сместить фокус с «умных» агентов на надежные и предсказуемые системы. Нам не нужно больше микросервисов — нам нужно меньше иллюзий относительно того, что мы действительно контролируем происходящее.
В конечном итоге, истинный вызов заключается не в увеличении вычислительной мощности или усложнении архитектур, а в разработке методов верификации и формальной проверки математических рассуждений. Успех AgentMath — это лишь отправная точка, а не финишная прямая. И, скорее всего, через несколько лет эта архитектура станет очередным анекдотом в истории машинного обучения.
Оригинал статьи: https://arxiv.org/pdf/2512.20745.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Нейронные Операторы в Энергетике: Новый Подход к Моделированию
- Фотонные квантовые вычисления: на пути к практической реализации
- Квантовая оптимизация без ограничений: Новый подход к масштабируемым алгоритмам
- Быстрая генерация текста: от авторегрессии к диффузионным моделям
- Квантовый сенсор: Оптимизация для быстрых и точных измерений
- Адаптивная Квантизация: Новый Подход к Сжатию Больших Языковых Моделей
- Квантовые ядра в работе: новый взгляд на классификацию данных
- Ранговая оптимизация без градиента: Новые границы эффективности
- Синергия лекарств: поиск комбинаций с помощью квантовых вычислений
- Искусство отбора данных: Новый подход к обучению генеративных моделей
2025-12-25 18:00