Стратегия подцелей: Как научить ИИ долгосрочному планированию

Автор: Денис Аветисян


Новая архитектура MiRA позволяет языковым моделям эффективно разбивать сложные задачи на последовательность подцелей, значительно повышая их способность к автономной работе и автоматизации веб-процессов.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В предложенной архитектуре агент, управляемый большой языковой моделью, использует механизм динамического контроля этапов выполнения, основанный на сопоставлении текущих действий с перечнем подцелей, а модель рассуждений, применяя рефлексию траектории, оценивает прогресс, выражаемый вектором <span class="katex-eq" data-katex-display="false">\mathbf{z}\_{t+1}</span>, обеспечивая тем самым плотный сигнал для коррекции планирования и самообучения.
В предложенной архитектуре агент, управляемый большой языковой моделью, использует механизм динамического контроля этапов выполнения, основанный на сопоставлении текущих действий с перечнем подцелей, а модель рассуждений, применяя рефлексию траектории, оценивает прогресс, выражаемый вектором \mathbf{z}\_{t+1}, обеспечивая тем самым плотный сигнал для коррекции планирования и самообучения.

Предлагается фреймворк MiRA, объединяющий декомпозицию подцелей и обучение с подкреплением на основе потенциала для улучшения долгосрочного планирования агентов, работающих в веб-среде.

Несмотря на значительные успехи в области больших языковых моделей (LLM), создание автономных агентов, способных к долгосрочному планированию и взаимодействию со сложными цифровыми средами, остается сложной задачей. В статье ‘A Subgoal-driven Framework for Improving Long-Horizon LLM Agents’ представлен новый подход, основанный на декомпозиции задач на подцели и использовании обучения с подкреплением с формированием наград на основе ключевых этапов. Предложенный фреймворк MiRA позволяет существенно повысить эффективность веб-агентов, превосходя по показателям успешности как проприетарные системы, такие как GPT-4, так и существующие решения с открытым исходным кодом. Не откроет ли это путь к созданию более надежных и универсальных автономных систем, способных решать сложные задачи в реальном мире?


Перспективные возможности LLM-агентов

Современные большие языковые модели (БЯМ) демонстрируют беспрецедентные возможности в понимании и генерации естественного языка, что открывает новые горизонты для создания автономных агентов. Способность БЯМ обрабатывать и интерпретировать сложные текстовые запросы, а также генерировать связные и осмысленные ответы, позволяет им выполнять задачи, требующие лингвистического интеллекта. Эти модели способны не просто понимать смысл текста, но и извлекать из него информацию, делать выводы и адаптироваться к различным контекстам. Такой прогресс в области искусственного интеллекта подталкивает к разработке систем, способных самостоятельно решать задачи, взаимодействовать с окружающей средой и принимать решения, основываясь на полученных данных и языковом анализе. В результате, БЯМ становятся ключевым компонентом в создании интеллектуальных агентов, способных к автономной деятельности в различных сферах применения.

Непосредственное применение больших языковых моделей (LLM) к сложным задачам, таким как веб-навигация, часто демонстрирует хрупкость и неустойчивость. Модели, обученные на огромных объемах текста, испытывают трудности при выполнении задач, требующих последовательного планирования и принятия решений на длительном горизонте. Это связано с тем, что LLM склонны к ошибкам при обработке многошаговых инструкций и могут легко отклоняться от намеченной траектории, особенно при столкновении с непредсказуемыми элементами веб-среды. В результате, даже незначительные изменения в структуре веб-сайта или неожиданные ошибки могут привести к полному сбою агента, что подчеркивает необходимость разработки более надежных и адаптивных подходов к интеграции LLM в системы автономной навигации.

Обучающая система непрерывно совершенствует модель, чередуя этапы обучения с подкреплением вне среды и взаимодействия с ней, при этом неудачные траектории анализируются для создания более сложных задач на последующих этапах.
Обучающая система непрерывно совершенствует модель, чередуя этапы обучения с подкреплением вне среды и взаимодействия с ней, при этом неудачные траектории анализируются для создания более сложных задач на последующих этапах.

Динамическое целеполагание: путь к надёжному планированию

Динамическое целеполагание (Dynamic Milestoning) представляет собой метод планирования долгосрочных задач, основанный на декомпозиции сложного задания на серию управляемых и проверяемых подцелей. Этот подход позволяет агенту концентрироваться на достижении постепенного прогресса, что повышает устойчивость к ошибкам и упрощает отладку. Каждая подцель формулируется таким образом, чтобы её выполнение можно было однозначно оценить, обеспечивая чёткий критерий успешности на каждом этапе выполнения задачи. Разбиение на подцели позволяет агенту более эффективно распределять ресурсы и адаптироваться к изменяющимся условиям, поскольку корректировки могут быть внесены на уровне отдельных подцелей, а не всей задачи целиком.

Использование поэтапного достижения подцелей повышает устойчивость агента к ошибкам и увеличивает общую надежность системы. Разбиение сложной задачи на более мелкие, последовательные этапы позволяет агенту сосредоточиться на выполнении конкретных, проверяемых шагов, вместо того чтобы сразу стремиться к достижению конечной цели. В случае возникновения ошибки на одном из этапов, ее влияние ограничивается только текущей подзадачей, что облегчает процесс отладки и восстановления. Кроме того, постепенное продвижение к цели позволяет агенту адаптироваться к меняющимся условиям и корректировать стратегию, минимизируя риски, связанные с долгосрочным планированием.

Компонент АвтоОценщика (AutoRater) является ключевым элементом динамического планирования, обеспечивая обратную связь и оценку производительности агента на каждом этапе достижения промежуточных целей. Этот процесс включает в себя автоматизированную проверку результатов выполнения текущей задачи, выявление отклонений от ожидаемых показателей и предоставление агенту информации для корректировки дальнейших действий. АвтоОценщик использует заранее определенные критерии оценки, позволяя количественно измерить прогресс и выявить области, требующие улучшения. Полученная обратная связь служит сигналом для обучения агента, оптимизируя его стратегию и повышая эффективность выполнения более сложных задач в долгосрочной перспективе.

В процессе обучения MiRA-RL агент генерирует траектории выполнения задач, которые оцениваются автоматическим оценщиком (окончательный успех) и контроллером подцелей (промежуточный прогресс), что позволяет обучать два критика - ценностный критик <span class="katex-eq" data-katex-display="false">V_{\phi}</span> для оценки финального успеха и потенциальный критик <span class="katex-eq" data-katex-display="false">P_{\psi}</span> для моделирования прогресса, при этом обновление политики актора происходит с использованием сформированных вознаграждений и стабилизируется фильтром перплексии актора.
В процессе обучения MiRA-RL агент генерирует траектории выполнения задач, которые оцениваются автоматическим оценщиком (окончательный успех) и контроллером подцелей (промежуточный прогресс), что позволяет обучать два критика — ценностный критик V_{\phi} для оценки финального успеха и потенциальный критик P_{\psi} для моделирования прогресса, при этом обновление политики актора происходит с использованием сформированных вознаграждений и стабилизируется фильтром перплексии актора.

Обучение с подкреплением и формирование вознаграждений: принципы эффективного обучения

Обучение с подкреплением (RL) представляет собой мощный подход к тренировке агентов для достижения долгосрочных целей, однако его эффективность может быть ограничена при работе с редкими или отложенными сигналами вознаграждения. В таких сценариях агент получает информацию о своей производительности лишь после выполнения последовательности действий, что затрудняет установление связи между отдельными действиями и полученным результатом. Это приводит к замедлению процесса обучения и требует значительно большего количества итераций для достижения оптимальной стратегии, особенно в сложных средах с большим пространством состояний и действий. Неэффективность обучения с редкими вознаграждениями является существенной проблемой, требующей применения дополнительных техник для улучшения скорости и стабильности процесса обучения.

Потенциально-ориентированное формирование вознаграждений (Potential-Based Reward Shaping) улучшает обучение с подкреплением (RL) за счет предоставления более плотных, поэтапных сигналов обратной связи. В отличие от разреженных вознаграждений, которые предоставляются только при достижении конечной цели, данный метод предлагает промежуточные вознаграждения, основанные на изменении потенциальной функции. Это позволяет агенту получать более частые сигналы о прогрессе, ускоряя процесс обучения и улучшая сходимость, особенно в задачах с отложенной наградой. По сути, потенциал определяет «желательность» определенного состояния, и вознаграждение формируется на основе разницы в потенциале между текущим и следующим состоянием, обеспечивая плавный переход к целевому поведению.

Модели вознаграждения за процесс играют ключевую роль в определении промежуточных вознаграждений, необходимых для эффективного обучения с подкреплением. Они используют генерацию подцелей для декомпозиции сложной задачи на более мелкие, управляемые этапы. Для реализации этого подхода применяется модель-учитель, которая предоставляет экспертные знания и помогает формировать учебный план, определяя последовательность подцелей и соответствующие вознаграждения. Это позволяет агенту получать более частые и информативные сигналы, ускоряя процесс обучения и повышая его эффективность, особенно в задачах с разреженными или отложенными вознаграждениями.

Метод MiRA использует обучение с подкреплением на основе сформированной потенциальной функции ψ, обеспечивая плотную награду <span class="katex-eq" data-katex-display="false">\Delta\psi</span> на каждом шаге времени для успешного выполнения задачи, в отличие от методов имитационного обучения и моделей награды за результат, предоставляющих либо точное соответствие шагам, либо редкую обратную связь только в конце выполнения.
Метод MiRA использует обучение с подкреплением на основе сформированной потенциальной функции ψ, обеспечивая плотную награду \Delta\psi на каждом шаге времени для успешного выполнения задачи, в отличие от методов имитационного обучения и моделей награды за результат, предоставляющих либо точное соответствие шагам, либо редкую обратную связь только в конце выполнения.

Продвинутые методы обучения с подкреплением для создания надежных агентов

Обучение с подкреплением вне сети позволяет создавать интеллектуальных агентов, используя исключительно ранее собранные данные, что существенно отличается от традиционных методов, требующих постоянного взаимодействия с окружающей средой. Такой подход не только снижает финансовые затраты, связанные с длительным обучением, но и исключает риски, возникающие при исследовании неизвестных или потенциально опасных ситуаций. Вместо активного обучения методом проб и ошибок, алгоритм анализирует существующий набор данных, извлекая из него закономерности и оптимальные стратегии поведения. Это особенно важно в областях, где эксперименты в реальном времени невозможны или связаны с высокими издержками, например, в робототехнике, автономном вождении или управлении сложными системами. Использование исторических данных открывает новые возможности для создания надежных и безопасных интеллектуальных систем, способных эффективно функционировать в различных условиях.

Алгоритмы, такие как регрессия с взвешиванием по преимуществам (Advantage Weighted Regression) и минимизация расхождения Кулбака-Лейблера (KL Divergence Minimization), значительно повышают эффективность и стабильность обучения политик в задачах обучения с подкреплением. Регрессия с взвешиванием по преимуществам позволяет агенту фокусироваться на действиях, которые привели к лучшему результату по сравнению со средним, что ускоряет процесс обучения. Минимизация расхождения КЛ, в свою очередь, предотвращает слишком резкие изменения в политике, обеспечивая более плавный и надежный переход к оптимальному поведению. Эти методы особенно полезны в сложных средах, где традиционные алгоритмы могут испытывать трудности с конвергенцией или демонстрировать нестабильное поведение, позволяя создавать более робастных и предсказуемых агентов.

Для повышения надежности обучения агентов в рамках обучения с подкреплением, применяются методы, направленные на снижение смещения в оценках преимущества (advantage). В частности, оценка двойной надежности (Doubly Robust Advantage Estimation) комбинирует преимущества моделей, предсказывающих награду и политику, обеспечивая устойчивость к ошибкам в любой из этих моделей. Одновременно с этим, использование метода Монте-Карло возврата (Monte Carlo Return) позволяет получить более точную оценку ожидаемой совокупной награды, уменьшая зависимость от приближений и упрощений. Такой подход, сочетающий в себе надежность и точность, способствует созданию агентов, способных к более стабильному и эффективному обучению, даже в сложных и неопределенных средах, что критически важно для практического применения в реальных задачах.

Несмотря на значительный прогресс в области продвинутых методов обучения с подкреплением, необходимо учитывать типичные ошибки, возникающие в процессе работы агентов. Ошибки типа «застревания на полпути» (Stuck Midway Errors) проявляются, когда агент попадает в состояние, из которого не может выбраться, приводя к бесконечному циклу действий. Не менее критичны ошибки преждевременного или запоздалого завершения (Wrong Termination Errors), когда агент завершает задачу до достижения цели или продолжает действовать после ее успешного выполнения. Эффективное решение этих проблем требует разработки алгоритмов, способных предвидеть и смягчать подобные ситуации, например, путем введения механизмов обнаружения аномалий или использования более надежных функций вознаграждения, что является ключевым условием для создания действительно устойчивых и надежных интеллектуальных систем.

Обучение с использованием потенциально-ориентированного учебного плана (MiRA, темно-красный цвет) значительно снижает частоту ошибок типа “застревание на полпути” по сравнению с базовыми моделями SFT и WebRL, демонстрируя эффективность подхода в преодолении локальных оптимумов и навигационных петель.
Обучение с использованием потенциально-ориентированного учебного плана (MiRA, темно-красный цвет) значительно снижает частоту ошибок типа “застревание на полпути” по сравнению с базовыми моделями SFT и WebRL, демонстрируя эффективность подхода в преодолении локальных оптимумов и навигационных петель.

Оценка и бенчмаркинг с использованием WebArena-Lite

Тщательная оценка имеет решающее значение для определения эффективности агентов, основанных на больших языковых моделях (LLM), и отслеживания прогресса в их развитии. Без строгих метрик и стандартизированных тестов сложно объективно сравнить различные подходы и определить, какие улучшения действительно приводят к повышению производительности. Подобная оценка позволяет выявить сильные и слабые стороны каждой модели, а также определить области, требующие дальнейшей оптимизации. Регулярное проведение оценок не только способствует развитию самих моделей, но и позволяет исследователям и разработчикам отслеживать динамику прогресса, подтверждать эффективность новых методов и, в конечном итоге, создавать более надежные и интеллектуальные системы, способные решать сложные задачи в различных сферах.

Для всесторонней оценки производительности агентов, основанных на больших языковых моделях (LLM), и отслеживания прогресса в этой области, необходима стандартизированная платформа. В этом контексте был разработан WebArena-Lite — тщательно отобранный набор из 165 задач, охватывающих разнообразные веб-домены. Этот бенчмарк предоставляет исследователям и разработчикам единое пространство для сравнения различных подходов и алгоритмов, позволяя объективно оценивать их эффективность и выявлять области для улучшения. WebArena-Lite обеспечивает воспроизводимость результатов и способствует более быстрому прогрессу в создании интеллектуальных веб-агентов, способных решать сложные задачи в реальных онлайн-средах.

Предложенная система продемонстрировала передовые результаты на бенчмарке WebArena-Lite, достигнув 43.0% успешного выполнения задач. Это существенно превосходит показатели, полученные с использованием базовых моделей WebRL (35.1%) и SFT (Supervised Fine-Tuning). Данное улучшение подтверждает эффективность разработанного подхода в решении задач, требующих взаимодействия с веб-средой, и открывает возможности для создания более надежных и продуктивных агентов на основе больших языковых моделей.

Исследования показали, что применение Gemini-SGO демонстрирует заметное увеличение успешности выполнения задач по сравнению с базовой моделью Gemini-2.5-pro. В ходе тестирования на платформе WebArena-Lite, Gemini-SGO достигла приблизительно на 10 процентных пунктов более высокого показателя успешности, что свидетельствует о значительном прогрессе в оптимизации возможностей языковой модели. Данное улучшение указывает на эффективность предложенных методов в повышении способности агентов, основанных на LLM, к более надежному и точному решению задач в сложных веб-средах, открывая перспективы для создания более продвинутых и эффективных автоматизированных систем.

В ходе оценки предложенного подхода на платформе WebArena-Lite удалось существенно снизить частоту ошибок, связанных с зависанием агента в процессе выполнения задачи — до 21%. Это представляет собой значительное улучшение по сравнению с результатами, полученными с использованием базовых моделей, обученных методом SFT (supervised fine-tuning), где данный показатель составлял около 33%, а также с моделями, использующими обучение с подкреплением WebRL, где зафиксировано примерно 25% случаев “застревания”. Снижение частоты ошибок данного типа свидетельствует о повышенной надежности и устойчивости разработанного подхода, позволяя агентам более эффективно завершать поставленные задачи и избегать ситуаций, когда выполнение прерывается на середине.

Дальнейшее развитие и совершенствование представленных методов открывает перспективы для раскрытия полного потенциала агентов на основе больших языковых моделей. Исследования показывают, что оптимизация архитектуры и стратегий обучения позволит этим агентам успешно справляться со всё более сложными задачами, требующими адаптивности и способности к рассуждению. Уменьшение частоты ошибок, таких как «застревание на полпути», и повышение общей эффективности указывают на то, что агенты становятся надежнее и способны к автономной работе в различных веб-средах. Ожидается, что непрерывные инновации в этой области приведут к созданию интеллектуальных систем, способных решать широкий спектр проблем, от автоматизации рутинных задач до поддержки принятия решений в критических ситуациях.

Режим
Режим «Автоматическое (динамическое) мышление» агента Gemini превосходит большинство статических бюджетов по общей успешности на WA-Lite, демонстрируя баланс между точностью и временем вывода, которое увеличивается с ростом бюджета, согласно усредненным данным по 25 идентичным задачам.

Представленная работа демонстрирует стремление к математической чистоте в области искусственного интеллекта, особенно в контексте долгосрочного планирования агентов. MiRA, предложенная в статье, использует декомпозицию задач на подцели и обучение с подкреплением на основе потенциала, что напоминает о важности четкой структуры и логической завершенности в решении сложных проблем. Как однажды заметил Анри Пуанкаре: «Чистая математика — это единственная наука, в которой мы можем быть уверены, что достигаем истины». В данном случае, стремление к декомпозиции сложных задач на более простые и управляемые подцели, подобно элегантному математическому доказательству, обеспечивает корректность и надежность работы агента в долгосрочной перспективе. Разделение сложной задачи на последовательность подцелей позволяет построить доказуемый алгоритм, а не полагаться на эмпирическую проверку на тестовых данных.

Куда же дальше?

Представленная работа, безусловно, демонстрирует улучшение долгосрочного планирования в системах на основе больших языковых моделей. Однако, за видимым прогрессом скрывается фундаментальный вопрос: достаточно ли декомпозиции задачи на подцели для достижения истинной автономности? Алгоритм, успешно справляющийся с заранее определенным набором задач веб-автоматизации, все еще далек от универсального решения. Необходимо признать, что «интеллект», проявляющийся в успешном выполнении тестов, не является синонимом подлинного понимания.

Следующим шагом представляется не просто увеличение числа подцелей или совершенствование функции вознаграждения, а разработка систем, способных к самокоррекции и адаптации к непредвиденным обстоятельствам. Ключевым моментом является преодоление хрупкости, свойственной большинству современных агентов. До тех пор, пока система не сможет самостоятельно определять и устранять ошибки в своем планировании, она останется сложным, но все же ограниченным инструментом.

В конечном счете, истинная элегантность проявится не в сложности архитектуры, а в минимальном количестве предположений о внешнем мире. Следует стремиться к созданию систем, которые, подобно аксиомам геометрии, строят свою логику на прочных и незыблемых основаниях, а не на эмпирических наблюдениях и статистических закономерностях. И только тогда можно будет говорить о приближении к подлинному искусственному интеллекту.


Оригинал статьи: https://arxiv.org/pdf/2603.19685.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-23 18:42