Разумный агент: Настройка поведения ИИ для эффективной работы с инструментами

Автор: Денис Аветисян

Новая методика позволяет обучать ИИ-агентов, использующих внешние инструменты, достигать оптимального баланса между точностью и скоростью выполнения задач.

Саморазвивающийся цикл данных и структура обучения для калибровки поведения совместно формируют основу ET-Agent, обеспечивая итеративное улучшение и адаптацию агента к изменяющимся условиям.

В статье представлена система ET-Agent, использующая калибровку поведения и обучение с подкреплением для улучшения работы ИИ-агентов, использующих внешние инструменты.

Несмотря на успехи больших языковых моделей (LLM) в парадигме рассуждений с использованием инструментов, существующие подходы к обучению агентов часто упускают из виду калибровку поведенческих шаблонов, приводя к неэффективным действиям. В данной работе представлена система ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration, предназначенная для оптимизации поведения LLM-агентов посредством самообучающегося цикла данных и обучения, направленного на калибровку действий. Предложенный фреймворк демонстрирует улучшение точности, эффективности и краткости рассуждений в задачах с использованием инструментов. Какие перспективы открываются для дальнейшего развития агентов, способных к адаптивному и оптимальному использованию инструментов в сложных сценариях?

Вызов на Надежность: Проблемы Интеграции Инструментов в Рассуждениях

Современные большие языковые модели (БЯМ) демонстрируют значительный потенциал в области рассуждений с использованием инструментов (Tool-Integrated Reasoning, TIR), однако, несмотря на перспективность, подвержены логическим ошибкам и неэффективному использованию этих инструментов. В процессе выполнения задач БЯМ часто допускают неточности в формулировке запросов к инструментам или вовсе выбирают неподходящие, что приводит к снижению общей надежности и точности результатов. Несмотря на способность генерировать связные тексты, модели испытывают трудности с последовательным и логически обоснованным применением инструментов для решения сложных задач, что требует дальнейших исследований и усовершенствования методов обучения.

Современные методы интеграции больших языковых моделей с инструментами зачастую демонстрируют недостатки в логическом мышлении, что приводит к неэффективному использованию этих инструментов и, как следствие, к ненадежным результатам. Проблемы проявляются в недостаточном количестве вызовов инструментов для решения задачи, либо в неправильной формулировке этих вызовов, когда модель либо запрашивает нерелевантную информацию, либо не может корректно интерпретировать полученные данные. Это приводит к избыточному или прерванному выполнению операций, а также к более широким ошибкам в процессе рассуждений, существенно ограничивающим практическую ценность подобных систем. Таким образом, повышение надежности и эффективности взаимодействия модели с инструментами является ключевой задачей для дальнейшего развития технологий искусственного интеллекта.

Проблемы с надежностью логических умозаключений, поддерживаемых инструментами, часто проявляются в избыточном или прерванном использовании этих самых инструментов. Модели могут повторно выполнять одни и те же операции, не приходя к результату, или внезапно прекращать выполнение, не завершив необходимые шаги. Эти явления — лишь внешние признаки более глубоких ошибок в процессе рассуждений, когда модель неправильно интерпретирует данные, неверно оценивает необходимость использования конкретного инструмента или не может эффективно интегрировать полученные результаты в общую логическую цепочку. В результате, даже при наличии доступа к мощным инструментам, модели могут демонстрировать неэффективность и совершать логические ошибки, подрывая надежность и достоверность полученных результатов.

Анализ показывает, что для исправления неверных ответов требуется переменное количество дополнительных обращений к инструментам, при этом количество этих обращений различается даже при одинаковых запросах.

ET-Agent: Калибровка Поведения для Надежных Рассуждений

ET-Agent — это фреймворк, разработанный для повышения надежности и точности рассуждений с использованием инструментов (Tool-Integrated Reasoning, TIR). Он использует комбинацию обогащения данных и обучения с подкреплением для улучшения производительности. Обогащение данных позволяет агенту изучать более разнообразные и репрезентативные примеры, а обучение с подкреплением настраивает поведение агента для оптимизации целевых показателей, таких как точность и эффективность использования инструментов. В результате, ET-Agent демонстрирует повышенную устойчивость к различным входным данным и улучшенную способность решать сложные задачи, требующие взаимодействия с внешними инструментами.

В основе ET-Agent лежит двухфазный процесс обучения. На первом этапе, тонкая настройка исследования пространства действий (Action Space Exploration Fine-tuning), модель адаптируется к доступным инструментам и их параметрам, исследуя различные варианты действий. Второй этап, итеративная поведенческая калибровка с использованием обучения с подкреплением (Iterative Behavior Calibration Reinforcement Learning), использует полученные данные для оптимизации стратегии выбора действий и повышения точности выполнения задач. Этот последовательный подход позволяет модели сначала ознакомиться с инструментарием, а затем оптимизировать свою стратегию использования этих инструментов для достижения наилучших результатов.

В основе ET-Agent лежит концепция «саморазвивающегося цикла данных» (Self-Evolving Data Flywheel), представляющего собой итеративный процесс улучшения обучающих данных и исследования различных путей решения задач. Этот цикл позволяет агенту автоматически генерировать новые примеры, оценивать их качество и включать наиболее перспективные в обучающую выборку. Постоянное расширение и уточнение данных, в сочетании с алгоритмами обучения с подкреплением, способствует более откалиброванному поведению агента и достижению передовых результатов на различных бенчмарках, включая задачи, требующие использования инструментов и логического вывода.

В ходе обучения с подкреплением агент ET-Agent демонстрирует более высокую эффективность и вознаграждение по сравнению с базовым алгоритмом ARPO.

Оптимизация Поведения Агента посредством Итеративного Обучения с Подкреплением

Итеративное обучение с подкреплением для калибровки поведения использует подход Curriculum RL, заключающийся в постепенном увеличении сложности задач с целью улучшения возможностей агента. Данный метод предполагает начальное обучение на простых задачах, что позволяет агенту быстро освоить базовые навыки и сформировать начальную политику. После этого сложность задач последовательно увеличивается, что требует от агента адаптации и совершенствования своей политики для достижения успеха в более сложных сценариях. Постепенное усложнение позволяет избежать ситуации, когда агент сталкивается с задачами, которые он не в состоянии решить, и способствует более эффективному обучению и обобщению знаний.

В процессе итерационной калибровки поведения, используется групповой Парето-отбор (Group-wise Pareto Sampling) для поддержания разнообразия исследуемых траекторий. Данный метод позволяет отбирать группы траекторий, представляющих различные компромиссы между целевыми показателями, что предотвращает преждевременную сходимость к локальным оптимумам. Увеличение разнообразия траекторий способствует более эффективному исследованию пространства состояний и, как следствие, улучшению градиентных оценок, используемых для обновления политики агента. Это, в свою очередь, приводит к более стабильному обучению и повышению общей производительности.

В рамках данной фазы обучения используется Agentic Reinforced Policy Optimization (ARPO) для дальнейшей оптимизации политики агента. ARPO позволяет повысить как производительность, так и устойчивость агента к различным входным данным и условиям. Результаты тестирования на различных наборах данных демонстрируют стабильное превосходство ARPO в эффективности, измеряемой как средняя точность выполнения действий (количество корректных вызовов инструментов). Это свидетельствует о способности ARPO к более эффективному обучению и адаптации политики агента для достижения более высоких показателей точности и надежности.

Распределение действий в процессе обучения показывает, что модели Qwen2.5-7B-it и Llama3.1-8B-it демонстрируют разную степень разнообразия стратегий, причём более разбросанное распределение указывает на более широкий спектр исследуемых действий.

Доступ к Знаниям и Оценка Калиброванных Агентов

В процессе обучения и оценки, агент ET-Agent использует локальный поиск по документам Википедии для доступа к необходимой информации. Этот подход позволяет системе эффективно извлекать и интегрировать знания из обширной базы данных, предоставляя контекст, необходимый для решения сложных задач. Используя Википедию в качестве источника знаний, ET-Agent способен адаптироваться к различным сценариям, требующим фактических данных и понимания общих концепций. Такой механизм локального поиска не только повышает точность ответов, но и обеспечивает возможность аргументированного обоснования принимаемых решений, что является ключевым аспектом в развитии надежных систем искусственного интеллекта.

В процессе оценки, разработанная система активно использует поисковую систему Google, что особенно ценно при решении задач, требующих математических вычислений или доступа к обширным объемам информации. Это позволяет агенту оперативно получать актуальные данные и подтверждать свои рассуждения, выходя за рамки предварительно загруженной базы знаний. В ситуациях, когда для решения проблемы необходимы специализированные сведения или последние данные, Google Search выступает в роли внешнего источника, значительно повышая надежность и точность ответов агента. Такой подход позволяет системе эффективно справляться со сложными задачами, требующими не только логического мышления, но и доступа к постоянно обновляемой информации из глобальной сети.

В рамках исследования продемонстрировано, что объединение различных источников знаний — локального поиска по Wikipedia и Google Search — с использованием откалиброванного агента значительно повышает надежность и точность систем, интегрирующих инструменты для рассуждений. Данный подход позволил ET-Agent достичь передовых результатов в лаконичности и длине цепочек рассуждений, превзойдя большинство базовых методов на различных тестовых наборах. Эффективность системы подтверждается более высокой степенью согласованности и достоверности получаемых ответов, что указывает на улучшенное качество принимаемых решений и способность к более глубокому анализу информации.

Результаты экспериментов на шести задачах показывают, что использование метода с компилятором кода и поисковым инструментом (<span class="katex-eq" data-katex-display="false"> extbf{and}</span>) демонстрирует лучшие результаты, выделенные жирным и подчеркнутым шрифтом, при повторном обучении модели WebSailor-7B на данных Wikipedia (сокращения: it - Instruct, 2Wiki - 2WikiMultiHopQA, Bamb - Bamboogle, MSQ - MuSiQue). — Результаты экспериментов на шести задачах показывают, что использование метода с компилятором кода и поисковым инструментом ( $extbf{and}$ ) демонстрирует лучшие результаты, выделенные жирным и подчеркнутым шрифтом, при повторном обучении модели WebSailor-7B на данных Wikipedia (сокращения: it — Instruct, 2Wiki — 2WikiMultiHopQA, Bamb — Bamboogle, MSQ — MuSiQue).

Представленная работа демонстрирует стремление к математической чистоте в области разработки агентов, использующих инструменты. Авторы, подобно тем, кто стремится к доказательству теоремы, фокусируются на калибровке поведения агента ET-Agent, чтобы обеспечить не только корректность, но и эффективность решения задач. Использование обучения с подкреплением и метода Pareto Sampling направлено на оптимизацию алгоритма, подобно поиску наиболее элегантного и краткого доказательства. Как однажды заметил Винтон Серф: «Интернет — это просто машина для создания большего количества Интернета». В данном контексте, ET-Agent можно рассматривать как механизм для создания более совершенных агентов, способных к более эффективному и точному рассуждению, что подчеркивает важность постоянной оптимизации и калибровки алгоритмов.

Куда Ведет Эта Дорога?

Представленная работа, хоть и демонстрирует возможность калибровки поведения агентов, основанных на больших языковых моделях, лишь приоткрывает завесу над истинной сложностью задачи. Эффективность, как гармония симметрии и необходимости, требует не просто улучшения метрик, но и глубокого понимания фундаментальных ограничений существующих моделей. Неизбежно возникает вопрос: достаточно ли данных для формирования действительно надежного агента, или же мы обречены на бесконечный цикл улучшения, основанный на эмпирических наблюдениях?

Дальнейшие исследования должны быть направлены на разработку методов, позволяющих верифицировать не только работоспособность, но и корректность алгоритмов, лежащих в основе поведения агента. Парето-семплинг и подобные техники, безусловно, полезны, но являются лишь инструментами для смягчения последствий несовершенства базовой модели. Более фундаментальным подходом представляется разработка формальных моделей рассуждений, которые можно было бы доказать, а не просто протестировать.

В конечном итоге, задача заключается не в создании агента, который “хорошо работает”, а в создании агента, чье поведение можно предсказать и объяснить. Только в этом случае можно будет говорить о настоящем искусственном интеллекте, а не о сложном статистическом алгоритме, замаскированном под разум.

Оригинал статьи: https://arxiv.org/pdf/2601.06860.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-14 04:15

🚀 Квантовые новости