Обучение «думающих» агентов: новая инфраструктура для многоходовых диалогов

Автор: Денис Аветисян

Исследователи представили масштабируемую систему, позволяющую эффективно обучать сложные агентные системы, способные вести продолжительные и осмысленные диалоги.

Агент ProRL разделяет полный цикл развертывания агента - от управления средой до вычисления вознаграждений - от ресурсоемкого обучения, эффективно отделяя операции ввода-вывода от процесса тренировки. — Агент ProRL разделяет полный цикл развертывания агента — от управления средой до вычисления вознаграждений — от ресурсоемкого обучения, эффективно отделяя операции ввода-вывода от процесса тренировки.

ProRL Agent: масштабируемая и расширяемая инфраструктура для обучения с подкреплением многоходовых языковых агентов с использованием подхода Rollout-as-a-Service.

Обучение многооборотных LLM-агентов с подкреплением часто затруднено из-за необходимости генерировать огромные объемы траекторий в изолированных средах. В данной работе, посвященной разработке ‘ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents’, представлена масштабируемая инфраструктура ProRL Agent, реализующая принцип «Rollout-as-a-Service» и отделяющая выполнение роллаутов от процесса обучения. Это позволяет повысить эффективность обучения и оптимизировать использование ресурсов, предлагая стандартизированные и расширяемые среды для различных задач, в том числе в бессерверных HPC-системах. Сможет ли предложенный подход стать основой для создания более эффективных и масштабируемых систем обучения агентов, способных решать сложные интерактивные задачи?

Вызов масштабируемости в агентном ИИ

Обучение больших языковых моделей для выполнения сложных, многошаговых задач, требующих автономных действий, представляет собой значительную вычислительную проблему. Это связано с тем, что для достижения приемлемого уровня производительности требуется обработка огромных объемов данных и выполнение миллиардов параметров. Каждый шаг, предпринятый агентом, требует пересчета вероятностей и оценки возможных действий, что экспоненциально увеличивает нагрузку на вычислительные ресурсы. Следовательно, даже относительно простые задачи могут потребовать недель или месяцев обучения на мощнейших кластерах оборудования, что делает разработку и итерацию над такими системами крайне дорогостоящей и трудоемкой. Необходимость в оптимизации алгоритмов и разработке более эффективных методов обучения становится критически важной для дальнейшего развития автономных агентов на основе больших языковых моделей.

Существующие инфраструктуры обучения с подкреплением зачастую испытывают трудности при масштабировании для решения сложных, многошаговых задач, что существенно замедляет прогресс в области агентного ИИ. Традиционные подходы, разработанные для более простых сценариев, неэффективно используют вычислительные ресурсы при увеличении сложности задач и количества агентов. Это приводит к экспоненциальному росту времени обучения и затрат, делая исследование и разработку продвинутых агентных систем практически невозможной без значительных инвестиций в аппаратное обеспечение и оптимизацию программного обеспечения. Неспособность эффективно масштабировать инфраструктуру обучения с подкреплением становится критическим препятствием на пути к созданию действительно интеллектуальных и автономных агентов, способных решать реальные задачи в сложных и динамичных средах.

Существенная проблема в обучении интеллектуальных агентов, способных к сложным взаимодействиям, заключается в неэффективном управлении процессами “раскатки” (rollouts) — последовательностями действий агента в симулированной среде — и последующей оценкой их результатов. Традиционные системы обучения с подкреплением часто испытывают трудности с масштабированием, что ограничивает прогресс в разработке более сложных агентов. В этой связи, разработанный ProRL Agent демонстрирует прорывное решение, обеспечивая практически линейное увеличение пропускной способности процессов “раскатки” с добавлением вычислительных узлов. Это означает, что увеличение вычислительных ресурсов приводит к пропорциональному увеличению скорости обучения и оценки агента, что существенно ускоряет разработку и совершенствование интеллектуальных систем.

Результаты показывают, чтоProRL Agentэффективно масштабируется с увеличением вычислительных ресурсов, демонстрируя почти линейное увеличение пропускной способности обработки задач (экземпляров в секунду).

ProRL Agent: Архитектура ‘Rollout-as-a-Service’

ProRL Agent представляет собой новую архитектуру ‘Rollout-as-a-Service’, которая отделяет процесс генерации траекторий (rollout) от основного алгоритма обучения с подкреплением. Данное разделение позволяет повысить модульность системы, упрощая внесение изменений и добавление новых алгоритмов обучения. Отделение процесса rollout также способствует масштабируемости, позволяя независимо увеличивать вычислительные ресурсы, выделяемые для генерации данных, без влияния на основную логику обучения. Такая архитектура облегчает интеграцию с различными средами и позволяет эффективно использовать распределенные вычислительные ресурсы для ускорения процесса обучения.

Агент ProRL использует HTTP-сервер для эффективной обработки запросов на прогоны (rollouts), обеспечивая управление траекториями и возможность параллельного выполнения. Сервер принимает запросы, инициализирует соответствующие среды и политики агента, выполняет прогоны и возвращает полученные данные. Архитектура, основанная на HTTP, позволяет масштабировать систему за счет горизонтального масштабирования серверов, обрабатывающих запросы, и обеспечивает гибкость в интеграции с различными системами обучения с подкреплением. Параллельное выполнение прогонов, управляемое сервером, значительно сокращает время, необходимое для сбора данных и обучения агента.

Ключевым компонентом ProRL Agent является обработчик агента (Agent Handler), определяющий стандартизированный интерфейс для инициализации, запуска и оценки задач, выполняемых агентом. Этот интерфейс включает в себя методы для настройки окружения, получения действий от агента, обработки полученных наблюдений и наград, а также для оценки полученных траекторий. Стандартизация позволяет легко интегрировать различные типы агентов и окружений, а также упрощает процесс параллельного выполнения задач и масштабирования системы. Интерфейс Agent Handler обеспечивает четкое разделение ответственности между компонентами, что повышает модульность и упрощает отладку и сопровождение системы.

Архитектура ProRL Agent обеспечивает асинхронное управление обучением с подкреплением посредством контейнеризированной среды выполнения, HTTP-сервера, организующего трехэтапный конвейер (INIT→RUN→EVAL) с динамически масштарируемым пулом LLM, и стандартного RL-тренера, взаимодействующего с сервером через HTTP-запросы для подачи заданий и получения результатов.

Оптимизация эффективности и надежности

Агент ProRL использует метод динамической выборки для оптимизации политики (DAPO), что позволяет ускорить обучение с подкреплением и снизить вычислительные затраты. DAPO эффективно отбирает наиболее информативные образцы опыта для обновления политики, уменьшая дисперсию градиентов и повышая скорость сходимости алгоритма. Это достигается за счет адаптивного изменения стратегии отбора проб в процессе обучения, что позволяет сосредоточиться на тех областях пространства состояний, которые оказывают наибольшее влияние на производительность агента. В результате, обучение требует меньше итераций и ресурсов, сохраняя при этом или улучшая качество полученной политики.

Система использует Singularity Runtime для обеспечения изолированных, непривилегированных (rootless) сред выполнения. Это достигается путем контейнеризации рабочих нагрузок, что позволяет запускать процессы без необходимости в правах суперпользователя. Изоляция предотвращает несанкционированный доступ к системным ресурсам и снижает риски, связанные с потенциальными уязвимостями в коде. Более того, использование Singularity обеспечивает воспроизводимость экспериментов, поскольку контейнер включает в себя все необходимые зависимости и конфигурации, гарантируя, что один и тот же код будет выполняться одинаково в различных средах.

Оптимизация выполнения команд Bash и процедура очистки устаревших заданий значительно повышают производительность и эффективность использования ресурсов системы. Выполнение команд Bash оптимизировано для минимизации накладных расходов, что позволяет быстрее обрабатывать рабочие нагрузки. Регулярная очистка устаревших заданий, не требующих дальнейшей обработки, освобождает системные ресурсы, такие как процессорное время, память и дисковое пространство, предотвращая их неэффективное использование и обеспечивая стабильную работу системы даже при высокой нагрузке. Данные процедуры также способствуют снижению вероятности возникновения ошибок, связанных с неактуальными данными или конфликтами ресурсов.

Агент SkyRL осуществляет обучение, параллельно генерируя траектории в однопоточном режиме, управляя циклом взаимодействия с удаленным сервером vLLM для логического вывода и контейнерами сред для выполнения, при этом сохраняя контроль над процессом развертывания внутри драйвера обучения.

Подтверждение на разнообразных агентных бенчмарках

Агент ProRL успешно протестирован в решении задач из областей программирования, математики и естественно-научных дисциплин, что подтверждает его универсальность и высокую эффективность. Данные эксперименты демонстрируют способность агента адаптироваться к различным типам задач, требующим логического мышления, анализа данных и применения специализированных знаний. В частности, ProRL успешно справляется с задачами, требующими генерации и отладки кода, решения математических уравнений и анализа научных данных, что указывает на его потенциал в качестве мощного инструмента для автоматизации сложных когнитивных процессов и поддержки специалистов в различных областях науки и техники.

В процессе обучения языковых моделей, несоответствие между токенизацией входных данных и выходных данных может приводить к накоплению ошибок, известному как “дрейф ретокенизации”. В ProRL Agent, для решения этой проблемы используется коммуникация “токен-в, токен-на-выходе”, которая обеспечивает согласованность представления информации на всех этапах обучения. Этот подход позволяет избежать повторной токенизации, минимизируя искажения и поддерживая стабильную производительность модели даже при обработке больших объемов данных и сложных задач. Благодаря этому, ProRL Agent демонстрирует повышенную надежность и предсказуемость результатов, обеспечивая более эффективное и качественное обучение.

Внедрение системы балансировки нагрузки позволило значительно повысить производительность и масштабируемость агента ProRL. Распределяя рабочую нагрузку между несколькими серверами, удалось добиться существенного увеличения пропускной способности и эффективности обработки данных. В результате, при использовании 8-биллионной модели, агент ProRL продемонстрировал почти двукратное улучшение результатов на бенчмарке SWE-Bench Verified, что свидетельствует о высокой эффективности предложенного подхода к распределению вычислительных ресурсов и оптимизации производительности в сложных задачах разработки программного обеспечения.

Обучение агента ProRL демонстрирует стабильный прогресс в трех различных областях - STEM, математике и программировании - подтверждая его универсальность и способность к обучению за пределами задач, связанных с разработкой программного обеспечения. — Обучение агента ProRL демонстрирует стабильный прогресс в трех различных областях — STEM, математике и программировании — подтверждая его универсальность и способность к обучению за пределами задач, связанных с разработкой программного обеспечения.

ProRL Agent: Новый стандарт для агентного обучения с подкреплением

Агент ProRL продемонстрировал значительное превосходство над существующими инфраструктурами для обучения агентов с подкреплением, такими как VeRL-Tool, GEM, Agent Lightning и SkyRL-Agent, в аспектах масштабируемости и эффективности. В ходе сравнительных тестов, ProRL обеспечил более высокую скорость обучения и возможность обработки более сложных задач, что позволяет создавать более производительных и адаптивных агентов. Это достигается за счет оптимизированной архитектуры и эффективного использования вычислительных ресурсов, что особенно важно при работе с большими объемами данных и сложными моделями. Результаты показывают, что ProRL способен существенно сократить время и затраты на обучение агентов, открывая новые возможности для развития искусственного интеллекта.

Открытый исходный код ProRL Agent играет ключевую роль в ускорении прогресса в области агентного искусственного интеллекта. Предоставляя доступ к архитектуре и алгоритмам, проект стимулирует участие широкого круга разработчиков и исследователей. Это способствует не только быстрому выявлению и устранению ошибок, но и появлению новых идей и инновационных решений, которые могли бы остаться незамеченными в закрытой системе. Благодаря возможности модификации и адаптации кода, сообщество может совместно создавать специализированные агенты для решения разнообразных задач, расширяя сферу применения агентного ИИ и приближая его к практическому внедрению. Активное участие сообщества гарантирует, что ProRL Agent будет постоянно развиваться и совершенствоваться, оставаясь на передовой технологического прогресса.

В дальнейшем планируется расширение спектра задач, решаемых системой, и дальнейшая оптимизация производительности для более сложных приложений. Предварительные результаты обучения с подкреплением математического агента демонстрируют значительный прогресс, увеличивая показатель Pass@1 с 0.4 до 0.9. Аналогичные улучшения наблюдаются и в обучении агента, работающего с кодом, где данный показатель вырос с 0.23 до 0.42. Эти данные свидетельствуют о перспективности подхода и возможности применения системы для решения широкого круга интеллектуальных задач, требующих высокой точности и эффективности.

Инструмент VeRL расширяет стандартный тренажер veRL для поддержки многооборотного развертывания агента, при этом управление развертыванием остается в драйвере обучения, а выполнение задач переносится на отдельный CPU-сервис для сбора траекторий.

Исследование, представленное в данной работе, подчеркивает важность отделения процесса развертывания от обучения, что позволяет значительно повысить эффективность использования ресурсов и масштабируемость системы. Этот подход к построению инфраструктуры для обучения агентов, основанный на концепции Rollout-as-a-Service, созвучен философскому взгляду Андрея Николаевича Колмогорова: «Математика — это искусство говорить правду». Подобно тому, как математическая точность необходима для построения логичной системы, так и четкое разделение этапов обучения и развертывания обеспечивает надежность и предсказуемость работы ProRL Agent, позволяя создавать более устойчивые и эффективные системы, способные адаптироваться к сложным задачам.

Что дальше?

Представленная работа, хоть и демонстрирует определенную эффективность в организации обучения агентов, лишь отодвигает вопрос о неизбежной энтропии. Разделение процесса развертывания и обучения — это не победа над временем, а лишь более грамотное распределение ресурсов в его потоке. Логирование, в этом контексте, становится не просто записью данных, но и своеобразной хроникой жизни системы, отражающей её эволюцию и приближение к состоянию упадка.

Очевидно, что масштабируемость инфраструктуры — это необходимое, но недостаточное условие. Истинный вызов заключается в создании систем, способных адаптироваться к изменяющимся условиям и извлекать уроки из собственных ошибок, не требуя постоянного вмешательства. Декомпозиция задач — это лишь первый шаг; настоящая сложность кроется в интеграции полученных знаний и создании действительно автономных агентов, способных к самообучению и самосовершенствованию.

В конечном счете, задача состоит не в увеличении скорости обучения, а в создании систем, способных достойно стареть. Инфраструктура, представленная в данной работе, — это инструмент, позволяющий продлить срок службы агента, но не отменить законы термодинамики. Будущие исследования должны быть направлены на разработку методов, позволяющих агентам извлекать максимум пользы из ограниченного времени, отведенного им в этом мире.

Оригинал статьи: https://arxiv.org/pdf/2603.18815.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-20 18:25

🚀 Квантовые новости