Обучение агентов: как масштабировать возможности, а не объём данных

Автор: Денис Аветисян

Новый подход позволяет создавать эффективных агентов, способных к сложному взаимодействию с инструментами, даже при использовании небольших языковых моделей.

Подход ATLASReinforcement Finetuning использует рубрики в качестве наград и SLM Judge для тонкой настройки, позволяя модели адаптироваться и оптимизировать свою производительность на основе заданных критериев и оценок.

Представлена платформа ATLAS, использующая обучение с подкреплением для адаптивного управления контекстом и структурой выполнения в больших масштабах.

Несмотря на успехи крупных языковых моделей в планировании и выполнении сложных задач, их применение в условиях ограниченных ресурсов остается проблематичным. В работе, озаглавленной ‘Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces’, представлен новый подход к обучению агентов, способных эффективно взаимодействовать с большими наборами инструментов. Предложенный фреймворк ATLAS позволяет малому языковому агенту адаптировать стратегию управления контекстом и структурой выполнения действий, используя обучение с подкреплением и рубричные оценки. Сможет ли такой подход значительно расширить возможности агентов в реальных приложениях, требующих долгосрочного планирования и взаимодействия со сложными системами?

Пределы масштабируемости: Агенты и Протокол Контекста Модели

Традиционные языковые модели, несмотря на впечатляющие успехи в генерации текста и понимании языка, сталкиваются с серьезными ограничениями при решении сложных задач, требующих последовательного рассуждения и взаимодействия. Особенно ярко это проявляется в средах, где необходимы скоординированные действия и долгосрочное планирование. Проблема заключается в том, что модели, обученные на огромных объемах статического текста, испытывают трудности с поддержанием последовательности мыслей и адаптацией к динамически меняющимся обстоятельствам. Они часто «забывают» предыдущие шаги рассуждений или теряют контекст при длительном взаимодействии, что препятствует эффективному решению задач, требующих стратегического мышления и согласованных действий с другими агентами или системами. Таким образом, для достижения подлинно автономного и интеллектуального поведения необходимы принципиально новые подходы к построению языковых моделей.

Агентные системы представляют собой перспективное направление в создании автономных решателей задач, способных самостоятельно планировать и выполнять действия для достижения поставленных целей. Однако, их масштабирование и эффективность ограничены особенностями Протокола Контекста Модели (MCP). Данный протокол, определяющий взаимодействие модели с окружающей средой и управление памятью, создает узкие места в обработке больших объемов информации, необходимых для сложных и длительных задач. Несмотря на потенциал агентных систем в автоматизации процессов и принятии решений, ограниченность контекста, доступного модели в рамках MCP, существенно замедляет их работу и снижает способность к адаптации в динамически меняющихся условиях. В результате, дальнейшее развитие агентных систем требует поиска решений для расширения контекстных возможностей, позволяющих моделям эффективно удерживать и использовать информацию на протяжении всего процесса решения задачи.

Эффективное управление ростом контекста является ключевым фактором для расширения возможностей агентивных систем в рамках Протокола Контекста Модели (MCP). По мере выполнения задач, требующих последовательного рассуждения и взаимодействия с окружением, объем информации, необходимой для поддержания когерентности действий агента, экспоненциально увеличивается. Неконтролируемый рост контекста приводит к снижению производительности, искажению информации и, в конечном итоге, к неспособности агента эффективно решать сложные задачи. Исследования показывают, что внедрение механизмов сжатия, фильтрации и приоритизации информации в контексте позволяет агентам сохранять релевантность данных, снижать вычислительные затраты и масштабировать свои возможности для решения более сложных и продолжительных задач. Таким образом, оптимизация управления контекстом представляет собой критически важный шаг на пути к созданию действительно автономных и интеллектуальных агентивных систем.

Агенты MCP с прогрессивным уменьшением области видимости (ISL и ITL) и дополнительной программной оркестровкой (ITL+PTC) эффективно снижают затраты на контекст по сравнению с традиционными подходами, загружающими все инструменты сразу.

ATLAS: Адаптивная загрузка инструментов и ограниченный контекст

Фреймворк ATLAS разработан на основе малых языковых моделей (SLM) для решения проблемы ограниченного контекста в агентивных системах. Исследования показали, что SLM с 4 миллиардами параметров обеспечивает почти 90% производительности, сравнимой с производительностью агента, основанного на моделях передовых масштабов. Это демонстрирует возможность создания высокоэффективных агентов, не требующих огромных вычислительных ресурсов и больших объемов памяти, за счет использования оптимизированных SLM.

Для повышения эффективности ATLAS использует методы итеративной загрузки инструментов (ITL) и итеративной загрузки серверов (ISL). Вместо предварительной загрузки всех потенциально необходимых ресурсов, система динамически извлекает инструменты и данные только по мере необходимости в процессе выполнения задачи. Такой подход позволяет значительно снизить объем токенов, передаваемых в модель, что приводит к уменьшению вычислительных затрат и ускорению работы системы, особенно при работе с большими объемами информации или сложными задачами. ITL и ISL работают совместно, обеспечивая доступ к необходимым инструментам и серверам в момент, когда они действительно нужны для выполнения текущего шага задачи.

В рамках ATLAS реализована усовершенствованная структура исполнения (Execution Structure), направленная на оптимизацию потока информации и последовательности действий. Данная структура позволяет повысить эффективность агента за счет более рационального использования ресурсов и минимизации избыточности вычислений. Экспериментальные данные демонстрируют, что при совместном использовании со обучением с подкреплением (Reinforcement Learning), оптимизированная структура исполнения обеспечивает прирост успешного выполнения задач до 65% по сравнению со стандартными подходами. Это достигается за счет более эффективной организации процесса принятия решений и более точного соответствия действий поставленной цели.

Динамическое обнаружение инструментов является ключевым компонентом итеративной загрузки в системе ATLAS. Этот процесс позволяет агенту определять, какие инструменты необходимы для выполнения конкретной подзадачи, непосредственно перед их использованием. Вместо предварительной загрузки всего набора доступных инструментов, ATLAS динамически запрашивает и загружает только те, которые релевантны текущему этапу решения задачи. Это существенно снижает объем токенов, необходимых для обработки, и повышает эффективность агента, особенно в условиях ограниченного контекстного окна. Обнаружение инструментов происходит на основе анализа текущего состояния задачи и целей, что позволяет системе адаптироваться к различным сценариям и динамически расширять свои возможности.

Обучение с подкреплением ATLAS с использованием ISL, ITL и ITL+PTC демонстрирует сходимость вознаграждения (слева) и высокую производительность в выполнении задач на валидационном наборе данных (справа).

Оптимизация поведения агентов с помощью обучения с подкреплением на основе рубрик

В системе ATLAS для оптимизации поведения агентов используется метод обучения с подкреплением (Reinforcement Finetuning, RFT), основанный на структурированных, поэтапных критериях оценки выполнения задач — “Task-Level Rubrics”. Данный подход предполагает не просто оценку конечного результата, а анализ действий агента на каждом этапе выполнения задачи в соответствии с заранее определенными критериями. Эти рубрики служат руководством для обучения, обеспечивая более детальную и информативную обратную связь, необходимую для эффективной оптимизации поведения агента и достижения поставленных целей. Использование структурированных рубрик позволяет агенту более точно понимать требования к задаче и корректировать свои действия для достижения наилучшего результата.

Рубрики, генерируемые с помощью модели GPT-5, обеспечивают более детализированные сигналы обучения по сравнению с простыми наградами, основанными на конечном результате. Вместо оценки только успешности выполнения задачи, рубрики структурируют процесс, оценивая отдельные шаги и аспекты действий агента. Это позволяет агенту получать более конкретную обратную связь и корректировать свое поведение для достижения оптимальных результатов. В ходе экспериментов было установлено, что использование рубрик-ориентированного обучения повышает степень выполнения задач до 20% по сравнению с использованием стандартных, общих наград.

Для оценки действий агента и предоставления структурированной обратной связи в процессе обучения используется LLM-судья, основанный на модели Qwen3-30B-Instruct. Этот судья анализирует действия агента в соответствии с заранее определенными критериями, представленными в виде рубрик, обеспечивая последовательную и детализированную оценку. В отличие от простых оценок, основанных на конечном результате, Qwen3-30B-Instruct способен учитывать нюансы выполнения задачи, что позволяет агенту более эффективно улучшать свою производительность и осваивать сложные навыки.

Рубрично-ориентированное обучение с подкреплением (Rubric-Based Reinforcement Finetuning) является ключевым фактором достижения оптимальной производительности агентов. Экспериментальные данные показывают, что использование SLM (Small Language Model) в качестве судьи для оценки действий агента на основе рубрик обеспечивает превосходство над использованием передовых (frontier) LLM-моделей при использовании рубричного надзора. Это указывает на то, что структурированный, детальный характер рубрик позволяет SLM более эффективно оценивать и направлять процесс обучения, чем менее структурированные подходы, используемые передовыми моделями.

Проверка ATLAS: Эталонные тесты и перспективы развития

Для оценки агентивных систем, работающих по протоколу Model Context Protocol, используется критически важный эталон — ‘MCPBench’. В рамках этого теста система ATLAS продемонстрировала значительные возможности, достигнув оценки выполнения задач в 4.15 из 10. Этот результат приближается к показателю в 4.38 из 10, характерному для передовых агентов, что свидетельствует о высокой эффективности ATLAS и его способности успешно справляться со сложными задачами. Полученные данные подтверждают потенциал системы в области автономного решения проблем и автоматизации процессов.

В основе усовершенствования рабочего процесса в ATLAS лежит концепция программируемого вызова инструментов (PTC) и оркестровки на основе кода. Этот подход позволяет системе не просто последовательно использовать инструменты, но и динамически формировать цепочки их вызовов, основываясь на промежуточных результатах и логике, заложенной в программный код. Вместо жестко заданных сценариев, ATLAS способен генерировать и выполнять код, который управляет взаимодействием с инструментами, обеспечивая гибкость и адаптивность к меняющимся условиям задачи. Благодаря этому, система способна самостоятельно определять оптимальную последовательность действий для достижения цели, минимизируя количество ошибок и повышая эффективность использования ресурсов. Такой подход к оркестровке существенно расширяет возможности ATLAS по сравнению с традиционными системами, опирающимися на заранее определенные шаблоны поведения.

Исследования показали, что разработанная система демонстрирует заметное повышение эффективности выполнения задач и оптимизацию использования ресурсов по сравнению с базовыми моделями. В ходе экспериментов зафиксировано увеличение процента успешно завершенных заданий, что свидетельствует о более надежной и продуктивной работе системы. При этом отмечается снижение потребления вычислительных мощностей и времени, необходимого для достижения результатов, что делает данное решение более экономичным и практичным для широкого спектра приложений. Подобные улучшения позволяют не только решать более сложные задачи, но и значительно снизить затраты на их выполнение, открывая новые возможности для автоматизации и оптимизации рабочих процессов.

В дальнейшем, усилия разработчиков будут сосредоточены на расширении возможностей ATLAS для решения более сложных задач, требующих глубокого анализа и многоступенчатого планирования. Планируется интеграция системы с расширенным спектром инструментов и сервисов, что позволит ей эффективно взаимодействовать с различными источниками информации и выполнять широкий круг операций. Особое внимание будет уделено повышению масштабируемости ATLAS, чтобы обеспечить стабильную работу при обработке больших объемов данных и выполнении ресурсоемких вычислений. Такое развитие позволит значительно расширить область применения ATLAS и сделать его незаменимым инструментом в решении сложных проблем в различных областях науки и техники.

Исследование, представленное в статье, пытается обуздать сложность агентных систем, фокусируясь не на бесконечном наращивании контекста, а на адаптивном управлении им. Занятная попытка, хотя и не лишенная иронии. Вспомнится высказывание Эдсгера Дейкстры: «Простота — это высшая степень совершенства». Авторы стремятся к совершенству, используя обучение с подкреплением и небольшие языковые модели, чтобы эффективно ориентироваться в обширных пространствах инструментов. Однако, опыт подсказывает, что каждая новая «оптимизация» неминуемо привносит с собой новые нюансы и, как следствие, технический долг. Похоже, что даже самые элегантные теоретические построения неизбежно сталкиваются с суровой реальностью продакшена.

Что дальше?

Представленный фреймворк ATLAS, безусловно, демонстрирует изящный способ заставить небольшие языковые модели притворяться агентами в сложных условиях. Однако, как и в любой элегантной теории, дьявол кроется в деталях деплоя. Эффективность адаптивного управления контекстом и программной оркестровки, безусловно, впечатляет, но стоит помнить: рано или поздно, продакшен найдёт способ сломать и эту систему. Вопрос не в масштабировании возможностей агента, а в масштабировании количества багов, которые придётся чинить, когда он начнёт взаимодействовать с реальным миром.

Очевидным следующим шагом представляется попытка обобщения rubric-based rewards. Сейчас система полагается на заранее заданные критерии оценки. Но что произойдёт, когда агент столкнётся с задачей, для которой таких критериев не существует? Неизбежно возникнет необходимость в механизмах самообучения и адаптации системы вознаграждений, что, в свою очередь, приведёт к новым классам ошибок и уязвимостей. Тесты, конечно, помогут, но тесты — это лишь форма надежды, а не уверенности.

В конечном итоге, настоящая проблема заключается не в создании интеллектуальных агентов, а в создании систем, которые могут пережить их неизбежные ошибки. Каждая «революционная» технология завтра станет техдолгом. И ATLAS, каким бы элегантным он ни был, не станет исключением. Остаётся надеяться, что когда этот день настанет, у нас будет достаточно кофе и бессонницы, чтобы всё исправить.

Оригинал статьи: https://arxiv.org/pdf/2603.06713.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-10 07:28

🚀 Квантовые новости