Самостоятельные веб-агенты: новый взгляд на планирование и оценку

Автор: Денис Аветисян

В статье представлен комплексный подход к пониманию и анализу поведения автономных веб-агентов, использующих большие языковые модели.

Результаты оценки, проведенной на бенчмарке WebArena, демонстрируют, что метрики, предложенные для оценки агентов, работающих по принципу «шаг за шагом» и агентов, планирующих заранее, позволяют выявить различия в их производительности на различных доменах.

Исследование предлагает фреймворк для оценки качества траекторий веб-агентов, выходящий за рамки простой метрики успешности.

Несмотря на успехи больших языковых моделей (LLM) в выполнении веб-задач, их работа часто представляется как «черный ящик», затрудняя диагностику ошибок и понимание процесса планирования. В статье ‘AI Planning Framework for LLM-Based Web Agents’ предложен формальный подход к веб-задачам как к последовательному процессу принятия решений, устанавливающий связь между архитектурами агентов и классическими алгоритмами планирования, такими как поиск в ширину, в глубину и эвристический поиск. Авторы демонстрируют, что предложенная структура позволяет выявлять причины неудач, например, «дрейф контекста», и вводят пять новых метрик для оценки качества траектории, выходящих за рамки простого определения успешности. Какие возможности открываются для создания более надежных и интерпретируемых автономных веб-агентов на основе предложенного фреймворка и новых метрик оценки?

Веб — непростой лабиринт для искусственного интеллекта

Создание по-настоящему автономных агентов, способных эффективно взаимодействовать с веб-пространством, представляет собой сложную задачу из-за присущей сети сложности и постоянного изменения ее структуры. Веб-среда характеризуется огромным объемом неструктурированной информации, нестабильными элементами и непредсказуемым поведением, что требует от агентов не только способности к поиску и обработке данных, но и умения адаптироваться к непрерывно меняющимся условиям. Обычные алгоритмы, разработанные для статических сред, часто оказываются неэффективными в динамичном веб-пространстве, где содержание страниц и их функциональность могут изменяться в любой момент. В связи с этим, разработка интеллектуальных агентов, способных к самообучению, адаптации и эффективному решению задач в условиях неопределенности, является ключевой задачей современной искусственного интеллекта.

Традиционные методы автоматизированного взаимодействия с веб-страницами сталкиваются с существенными трудностями из-за присущей сети неоднозначности и неструктурированности данных. В отличие от заранее определенных баз данных, веб-контент характеризуется изменчивостью, разнообразием форматов и отсутствием четкой организации. Это создает проблемы для алгоритмов, которым требуется точное понимание информации для успешного выполнения задач, таких как поиск конкретных данных или автоматическое заполнение форм. Необходимость адаптации к постоянно меняющимся структурам веб-страниц и интерпретации нечетких запросов пользователей требует разработки новых подходов, включающих, например, использование методов машинного обучения для анализа естественного языка и визуального распознавания, а также создание более гибких и устойчивых к изменениям алгоритмов навигации.

На бенчмарке WebArena агент, использующий пошаговый подход, демонстрирует более высокие показатели успешности в отдельных доменах по сравнению с агентом, планирующим все заранее.

Пошаговое исследование: надежность простоты

Агент ‘StepByStepAgent’ использует подход, аналогичный алгоритму поиска в ширину (BFS) для последовательного изучения веб-страниц. Это означает, что агент исследует все доступные ссылки на текущей странице (первый уровень), прежде чем переходить ко второму уровню — ссылкам, найденным на этих страницах, и так далее. Такой метод позволяет агенту систематически охватывать веб-пространство, гарантируя, что все страницы на определенном уровне глубины будут исследованы перед переходом к более глубоким уровням. Данная стратегия обеспечивает полный и упорядоченный сбор информации, в отличие от более хаотичных методов обхода, и позволяет эффективно находить целевой контент.

Агент использует представление веб-страниц в виде ‘Дерева доступности’ (AccessibilityTree), которое представляет собой иерархическую структуру, отражающую семантическое содержание и элементы управления страницы. Это позволяет агенту понимать логическую структуру страницы, идентифицировать интерактивные элементы, такие как кнопки и ссылки, и определять их взаимосвязи. На основе ‘Дерева доступности’ агент осуществляет выбор действий, фокусируясь на релевантных элементах и избегая случайных или нецелевых взаимодействий, что повышает эффективность и точность выполнения задач.

Для оценки производительности агентов, реализующих пошаговый подход к исследованию веб-страниц, используется эталонный набор данных WebArena. WebArena предоставляет стандартизированную среду для проведения экспериментов и сравнительного анализа. Для обеспечения всесторонней оценки, эталонный набор данных был дополнен набором из 794 аннотированных траекторий действий, выполненных людьми. Этот набор данных позволяет сопоставлять поведение агентов с реальными действиями пользователей, обеспечивая более объективную оценку эффективности и удобства использования.

Агент Full-Plan-in-Advance на шаге выполнения задачи 392 предложил прокрутку, однако из-за несоответствия формата действия, фактически выполнил ‘null’ операцию при публикации комментария “Хорошая идея” для запроса на слияние в проекте a11yproject.com.

Глубокое планирование: риски преждевременной оптимизации

Агент “FullPlanInAdvanceAgent” использует стратегию, отличную от реактивных подходов, заключающуюся в предварительной генерации полного плана действий перед началом исполнения. Этот метод аналогичен алгоритму поиска в глубину (DFS), где агент исследует один путь действий до его завершения или достижения тупика, прежде чем вернуться к предыдущим узлам и исследовать альтернативные пути. В отличие от агентов, принимающих решения поэтапно, “FullPlanInAdvanceAgent” стремится определить всю последовательность действий, необходимую для достижения цели, перед тем как предпринять какие-либо шаги, что позволяет оптимизировать выполнение и повысить эффективность.

Реализация агента, формирующего полный план заранее, требует развитых возможностей поиска в пространстве состояний (StateSpaceSearch). Это подразумевает способность алгоритма эффективно перебирать и оценивать различные последовательности действий, прогнозируя их влияние на текущее состояние среды. Ключевым аспектом является построение графа состояний, где узлы представляют собой возможные состояния, а ребра — доступные действия, позволяющие перейти из одного состояния в другое. Эффективный поиск оптимального пути в этом графе требует применения эвристических функций и алгоритмов, таких как A* или Dijkstra, для минимизации вычислительных затрат и обеспечения своевременного нахождения оптимальной последовательности действий.

Агент «Full-Plan-in-Advance» демонстрирует эффективность, достигая показателя успешного выполнения шагов (Step Success Rate) в 58% и точности элементов (Element Accuracy Rate) в 89.89%. Данные показатели свидетельствуют о превосходстве данного агента над существующими аналогами в задачах, требующих планирования и последовательного выполнения действий. Высокая точность элементов указывает на способность агента корректно идентифицировать и обрабатывать ключевые компоненты задачи, а успешность выполнения шагов подтверждает стабильность и надежность разработанного алгоритма планирования.

Агент, планирующий действия заранее, определил необходимость прокрутки для выполнения задачи №727 (отмена всех публикаций пользователя PatientBuilder499 в сабреддите videos), но фактически не выполнил никакого действия.

Измеряя успех: надежные метрики оценки

Оценка эффективности агентов не должна ограничиваться лишь фактом выполнения задачи; для более детального анализа и приближения к человекоподобному поведению используются такие метрики, как «Step Success Rate» (доля успешно выполненных шагов) и «RecoveryRate» (способность агента восстанавливаться после ошибок). «Step Success Rate» показывает, насколько эффективно агент выполняет каждый отдельный шаг в процессе достижения цели, а «RecoveryRate» демонстрирует его устойчивость к отклонениям и способность находить альтернативные решения при возникновении проблем. Эти метрики позволяют оценить не только итоговый результат, но и качество процесса принятия решений агентом, что важно для создания более надежных и интуитивно понятных систем.

Агент Full-Plan-in-Advance демонстрирует коэффициент повторения действий (Repetitiveness Rate) в 19%, что свидетельствует о меньшем количестве повторяющихся шагов в процессе выполнения задачи. Показатель восстановления (Recovery Rate) для данного агента составляет 31% со стандартным отклонением 0.19, что указывает на стабильность его способности к восстановлению после ошибок или отклонений от запланированного пути выполнения.

В рамках комплексной системы оценки, включающей пять метрик, агент Full-Plan-in-Advance продемонстрировал уровень частичного успеха (Partial Success Rate) в 0.12. Стандартное отклонение данного показателя составило 0.27, что указывает на умеренную вариативность результатов при повторных запусках и необходимости дальнейшего анализа для повышения стабильности выполнения задач. Данная метрика отражает способность агента выполнить часть требуемых действий для достижения цели, даже если полное решение не было достигнуто.

На данном этапе выполнения задачи агент демонстрирует процесс принятия решений, включающий предыдущее действие (розовый участок), процесс рассуждения (верхний серый участок) и следующее действие (желтый участок), при этом метаданные (нижний серый участок) не учитывались в анализе.

Исследование, посвященное автономным веб-агентам на базе больших языковых моделей, закономерно фокусируется на планировании и оценке траекторий. Однако, как показывает опыт, даже самые изящные алгоритмы планирования рано или поздно сталкиваются с суровой реальностью продакшена. Как однажды заметил Эдсгер Дейкстра: «Программирование — это не столько искусство организации, сколько искусство борьбы с хаосом». Иными словами, оценка качества траектории, предложенная в работе, — это важный шаг, но не гарантия от непредскануемых ошибок и неожиданных взаимодействий с веб-сайтами. Все эти метрики, пусть и полезные, — лишь попытка упорядочить неизбежный хаос.

Куда же дальше?

Представленная работа, несомненно, проливает свет на сложную динамику автономных веб-агентов, построенных на базе больших языковых моделей. Однако, за кажущейся элегантностью планирования неизбежно скрывается реальность: каждое «оптимизированное» решение рано или поздно потребует переработки. Метрики, выходящие за рамки простой успешности, — шаг в верном направлении, но стоит помнить, что оценка траектории — это лишь попытка уложить хаос в рамки алгоритма. Продакшен всегда найдет способ сломать даже самую изящную теорию.

Будущие исследования, вероятно, столкнутся с необходимостью учета контекстной зависимости и непредсказуемости веб-среды. Архитектура — это не схема, а компромисс, переживший деплой, и каждая новая версия веб-сайта станет испытанием для любой системы планирования. Важно понимать, что мы не рефакторим код — мы реанимируем надежду, пытаясь удержать агента на плаву в постоянно меняющемся океане данных.

В конечном итоге, истинный прогресс потребует не только улучшения алгоритмов планирования, но и разработки более устойчивых к сбоям и адаптивных систем. Каждая «революционная» технология завтра станет техдолгом, и необходимо заранее учитывать стоимость поддержки и обслуживания даже самых перспективных решений.

Оригинал статьи: https://arxiv.org/pdf/2603.12710.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-17 02:41

🚀 Квантовые новости