Разумные агенты: Новая платформа для обучения сложных систем

Автор: Денис Аветисян

Исследователи представили MarsRL — систему, значительно повышающую эффективность обучения многоагентных систем, способных решать сложные задачи.

Система рассуждений V-C моделируется в контексте агентного обучения с подкреплением, что позволяет исследовать динамику принятия решений и взаимодействия агента со средой.

MarsRL использует обучение с подкреплением и конвейерный параллелизм для повышения устойчивости к шумам в сигналах награды и улучшения производительности сложных систем рассуждений.

Несмотря на значительный прогресс в области больших языковых моделей, глубина рассуждений остается ограниченной единичным циклом вывода. В данной работе, ‘MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism’, предложен фреймворк MarsRL, использующий обучение с подкреплением и параллелизм конвейера агентов для оптимизации многоагентных систем рассуждений. MarsRL демонстрирует улучшение точности на сложных задачах, решая проблемы шумных наград и эффективности обучения, и даже превосходит более крупные модели. Может ли подобный подход открыть новые горизонты в создании интеллектуальных систем, способных к глубокому и надежному рассуждению?

Пределы Масштабирования: Узкие Места Рассуждений в Больших Языковых Моделях

Современные большие языковые модели, демонстрирующие впечатляющие способности, сталкиваются с фундаментальным ограничением, обусловленным квадратичной сложностью архитектуры Transformer. Это означает, что вычислительные затраты и потребление памяти растут пропорционально квадрату длины обрабатываемого текста. В результате, с увеличением объема информации, необходимой для решения сложных задач, возможности модели по проведению многоступенчатых рассуждений и генерации длинных связных текстов существенно ограничиваются. Каждый новый токен, добавляемый в последовательность, требует пересчета взаимодействий со всеми предыдущими, что быстро становится непосильным для вычислительных ресурсов даже при использовании самых мощных аппаратных средств. Таким образом, архитектурное ограничение препятствует масштабированию моделей до уровней, необходимых для эффективного решения задач, требующих глубокого понимания и сложного логического вывода.

Существенное ограничение масштабируемости больших языковых моделей создает серьезные трудности при решении сложных задач, требующих развернутого, многоступенчатого рассуждения. Проблема заключается в том, что с увеличением длины входных данных и необходимого числа логических шагов, вычислительные затраты растут экспоненциально, что делает обработку длинных последовательностей крайне ресурсоемкой. Например, для задач, требующих анализа сложных нарративов, планирования действий или доказательства теорем, модель сталкивается с трудностями в поддержании когерентности и точности рассуждений на протяжении всех этапов. В результате, попытки расширить возможности моделей за счет простого увеличения их размера часто приводят к быстрому снижению производительности и увеличению времени отклика, что препятствует эффективному решению действительно сложных проблем.

Попытки преодолеть ограничения, накладываемые архитектурой Transformer на большие языковые модели, традиционными методами, как правило, сталкиваются с трудностями. Увеличение вычислительных ресурсов и объемов обучающих данных, хотя и позволяет добиться определенного прогресса, не решает фундаментальную проблему квадратичной сложности, ограничивающей длину контекста и глубину рассуждений. В связи с этим, все больше внимания уделяется разработке инновационных подходов к организации процесса рассуждений в LLM, таких как методы иерархического планирования, разбиение задач на более мелкие подзадачи и использование внешних инструментов для хранения и обработки информации. Эти новые стратегии направлены на обход существующих ограничений и повышение способности моделей эффективно справляться со сложными задачами, требующими многоступенчатого логического мышления и анализа.

Система Verifier-Corrector использует механизм проверки и корректировки для повышения надежности рассуждений.

Итеративное Уточнение: Восхождение Многоагентного Рассуждения

Перспективной альтернативой традиционным методам является использование многоагентных систем рассуждений, в которых несколько больших языковых моделей (LLM) совместно решают задачи посредством итеративного уточнения. Вместо однократного прохождения через задачу, система разбивает её на этапы, где каждый агент выполняет определенную функцию, например, генерацию решения, его проверку или исправление ошибок. Итеративный процесс позволяет последовательно улучшать качество решения, поскольку каждый агент взаимодействует с результатами предыдущих этапов, что приводит к более надежным и точным ответам по сравнению с использованием одной модели.

Система V-C Reasoning представляет собой пример подхода, основанного на взаимодействии нескольких агентов, и состоит из трех ключевых компонентов: Solver (решатель), Verifier (верификатор) и Corrector (корректор). Solver генерирует первоначальное решение задачи, которое затем подвергается проверке Verifier-ом на предмет корректности и полноты. В случае обнаружения ошибок или неточностей, Corrector использует информацию от Verifier-а для внесения исправлений и улучшения качества решения. Этот итеративный процесс, включающий последовательное выполнение задач каждым агентом, позволяет систематически повышать надежность и точность получаемых результатов, превосходя возможности одномодельного подхода к решению задач.

Многоагентные системы, такие как V-C Reasoning System, обеспечивают обнаружение и исправление ошибок, превосходя ограничения одномодельного рассуждения. В отличие от традиционных подходов, где одна языковая модель генерирует ответ без внешней проверки, данная архитектура использует отдельные агенты — решателя, верификатора и корректора — для систематического улучшения качества решения. Агент-верификатор анализирует вывод решателя на предмет ошибок, а агент-корректор использует эту информацию для внесения необходимых изменений, что позволяет снизить вероятность получения неверных или неточных результатов. Такой подход значительно повышает надежность и точность решения сложных задач, особенно в ситуациях, требующих высокой степени достоверности.

Обучение верификатора демонстрирует динамику повышения его эффективности в обнаружении ошибок.

Оптимизация Коллаборации Агентов с Подкреплением

Агентное обучение с подкреплением (Agentic Reinforcement Learning) представляет собой эффективный подход к совместной оптимизации ролей Решателя (Solver), Верификатора (Verifier) и Корректора (Corrector) в системе V-C (Verifier-Corrector). В рамках данной системы, обучение с подкреплением позволяет не просто обучать каждый компонент независимо, но и оптимизировать их взаимодействие для достижения наилучшей общей производительности. Это достигается путем определения политик для каждого агента, которые максимизируют награду, основанную на успешном решении задач и корректной верификации решений, что приводит к улучшению точности и эффективности всей системы V-C. Такой подход позволяет динамически адаптировать роли агентов в зависимости от сложности задачи и специфики входных данных.

Фреймворк MarsRL демонстрирует существенный прирост производительности на стандартных бенчмарках, включая AIME-2025 и BeyondAIME. На бенчмарке AIME-2025 достигнута точность 93.3%, а на BeyondAIME — 73.8%. Эти результаты подтверждают эффективность подхода к оптимизации взаимодействия агентов с использованием методов обучения с подкреплением и позволяют решать более сложные задачи в области автоматизированного доказательства теорем и верификации.

При использовании MarsRL наблюдалось последовательное улучшение точности на эталонных наборах данных AIME-2025 и BeyondAIME. Изначальная точность на AIME-2025 составляла 86.5%, которая была повышена до 91.1%, а затем и до 93.3%. Аналогично, точность на BeyondAIME увеличилась с 64.9% до 70.2%, и, в конечном итоге, достигла 73.8%. Данные показатели демонстрируют эффективность MarsRL в оптимизации агентного обучения с подкреплением для задач формальной проверки.

Методы, такие как Segment Rollouts и динамическая маскировка MPT (множественных точек пересмотра), значительно повышают эффективность и масштабируемость обучения агентов в системах, использующих обучение с подкреплением. Segment Rollouts позволяют более эффективно исследовать пространство состояний, разбивая эпизоды на сегменты и переоценивая политику для каждого сегмента. Динамическая маскировка MPT, в свою очередь, концентрирует вычислительные ресурсы на наиболее важных точках пересмотра, отбрасывая менее значимые, что снижает затраты на обучение и позволяет обрабатывать более сложные задачи и большие объемы данных. Сочетание этих техник позволяет добиться существенного ускорения процесса обучения и повысить производительность агентов.

Обучение с использованием MarsRL-S и MarsRL-VC демонстрирует различную динамику длины генерируемых ответов.

Обобщение Производительности: V-C Системы на Разных Архитектурах LLM

Исследования показали, что разработанная методика V-C, в сочетании с обучением с подкреплением, демонстрирует высокую эффективность на различных архитектурах больших языковых моделей. Данный подход успешно интегрирован как с проприетарными моделями, такими как Gemini 2.5 Pro, так и с моделями с открытым исходным кодом, в частности, Qwen3-A22B-Thinking-2507. Такая универсальность указывает на то, что V-C представляет собой не просто решение для конкретной модели, а гибкий инструмент, способный значительно улучшить способности к рассуждению широкого спектра языковых моделей, независимо от их внутренней структуры или происхождения.

Обученная с использованием MarsRL модель Qwen3-30B-A3B-Thinking-2507 демонстрирует значительное превосходство в решении сложных задач, достигая 93.3% точности на бенчмарке AIME-2025 и 73.8% на BeyondAIME. Эти результаты превосходят показатели базовой модели Qwen3-235B-A22B-Thinking-2507, набравшей 92.3% и 70.6% соответственно. Данное улучшение свидетельствует об эффективности подхода MarsRL в повышении способности модели к решению задач, требующих глубокого логического анализа и рассуждений, что открывает новые перспективы для развития искусственного интеллекта.

В процессе обучения с использованием MarsRL-VC наблюдалось значительное увеличение длины генерируемых решений — с 19 тысяч до 28 тысяч токенов. Данный результат свидетельствует о расширении возможностей модели в области логического мышления и способности к более глубокому анализу сложных задач. Увеличение объема генерируемого текста указывает на то, что модель способна выстраивать более развернутые и детализированные цепочки рассуждений, что, в свою очередь, положительно сказывается на качестве и точности предоставляемых решений. Это подтверждает эффективность предложенного подхода к обучению и демонстрирует потенциал для создания систем искусственного интеллекта, способных к сложным когнитивным процессам.

Полученные результаты указывают на возможность широкого распространения передовых способностей к рассуждению, не зависящих от размера модели или необходимости использования проприетарных данных для обучения. Данный подход, основанный на фреймворке V-C и обучении с подкреплением, демонстрирует эффективность на различных архитектурах больших языковых моделей, включая как проприетарные, так и модели с открытым исходным кодом. Это открывает перспективы для создания доступных и мощных систем искусственного интеллекта, способных решать сложные задачи, не требуя при этом огромных вычислительных ресурсов или эксклюзивного доступа к данным, что особенно важно для исследовательских и образовательных целей, а также для расширения возможностей применения ИИ в различных областях.

Результаты тестирования на бенчмарке AIME-2025 демонстрируют эффективность различных стратегий сэмплирования.

Перспективы Развития: Надежность и Масштабируемость Многоагентного Рассуждения

Дальнейшие исследования в области многоагентного обучения с подкреплением должны быть сосредоточены на проблеме “шума” в сигналах вознаграждения. Неточные или ненадежные сигналы вознаграждения могут существенно снизить эффективность обучения каждого агента и привести к нестабильным результатам. Особое внимание уделяется разработке методов, способных фильтровать этот “шум” и обеспечивать более четкое представление о ценности действий. Это особенно важно в сложных средах, где агенты взаимодействуют друг с другом и получают вознаграждение на основе коллективных результатов. Успешное решение данной проблемы позволит создавать более надежные и эффективные системы многоагентного обучения, способные адаптироваться к различным условиям и достигать поставленных целей даже в условиях неопределенности и помех.

Для обеспечения устойчивой производительности и обобщающей способности в многоагентном обучении с подкреплением, исследователи обращают внимание на усовершенствование оценки преимущества. Метод Generalized Retroactive Policy Optimization (GRPO) представляется перспективным направлением, поскольку позволяет более точно оценивать, насколько выгодны те или иные действия агентов в контексте совместной деятельности. GRPO позволяет снизить влияние шума в сигналах вознаграждения и, таким образом, повысить стабильность обучения, особенно в сложных сценариях, где действия одного агента могут существенно влиять на вознаграждение других. Улучшение оценки преимущества с помощью GRPO способствует формированию более надежных стратегий, способных адаптироваться к изменяющимся условиям и обеспечивать эффективное взаимодействие между агентами даже в условиях неопределенности.

Совершенствование существующих методов обучения, в особенности тех, что направлены на повышение устойчивости и масштабируемости многоагентного рассуждения, открывает перспективы для создания больших языковых моделей (LLM), способных решать задачи, требующие сложного логического мышления. По мере развития алгоритмов, способных эффективно обрабатывать шумные сигналы и обобщать полученные знания, LLM смогут не только понимать сложные запросы, но и самостоятельно находить оптимальные решения в разнообразных, динамически меняющихся условиях. Это позволит применять такие модели в областях, требующих высокой степени ответственности и точности, например, в автоматизированном планировании, управлении сложными системами и принятии стратегических решений, преодолевая текущие ограничения в способности к надежному и гибкому рассуждению.

Исследование, представленное в данной работе, демонстрирует, что создание эффективных систем многоагентного рассуждения требует не просто оптимизации алгоритмов, но и учета внутренней динамики и непредсказуемости среды. Авторы подчеркивают важность преодоления шума в сигналах вознаграждения, что особенно актуально для сложных задач. Как однажды заметил Роберт Тарьян: «Всё, что построено, когда-нибудь начнёт само себя чинить». Эта фраза находит отражение в подходе, предложенном в статье, где система верификатор-корректор, используя агентный параллелизм, стремится к самокоррекции и повышению надежности. Система, подобно живому организму, адаптируется к изменяющимся условиям, преодолевая внутренние несоответствия и повышая свою устойчивость к ошибкам, что является ключевым аспектом многоагентного рассуждения.

Куда же дальше?

Представленная работа, подобно тщательно выращенному саженцу, демонстрирует потенциал обучения с подкреплением в создании систем многоагентного рассуждения. Однако, не стоит обольщаться иллюзией полного контроля. Шум вознаграждений, даже смягченный предложенными методами, остаётся неразрешимой проблемой, напоминающей о непредсказуемости самой жизни. Устойчивость системы не в совершенстве каждого агента, а в их способности прощать ошибки друг друга, в умении адаптироваться к непредвиденным обстоятельствам.

Попытки масштабировать подобные системы, используя параллелизм конвейера, лишь обнажают более глубокую проблему — хрупкость доверия между компонентами. Каждое архитектурное решение — это пророчество о будущей поломке, а не гарантия стабильности. Необходимо сместить фокус с максимизации производительности на повышение отказоустойчивости, на создание систем, способных не просто решать задачи, но и самовосстанавливаться.

Будущие исследования, вероятно, сосредоточатся на разработке более сложных механизмов верификации и коррекции, но истинный прогресс потребует переосмысления самой концепции «разумности». Система — это не машина, это сад; если её не поливать, вырастет техдолг. Истинная задача состоит не в создании идеального инструмента, а в культивировании экосистемы, способной к постоянному развитию и адаптации.

Оригинал статьи: https://arxiv.org/pdf/2511.11373.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-18 02:42

🚀 Квантовые новости