Веб-агенты учатся действовать в реалистичном интернете

Автор: Денис Аветисян

Новая среда WebGym позволяет масштабно обучать визуальных агентов для выполнения задач в браузере, приближая их к реальному взаимодействию с веб-сайтами.

Асинхронная среда WebGym значительно ускоряет процесс развертывания, демонстрируя прирост скорости в 4-5 раз при увеличении числа процессорных ядер и линейно масштабируя пропускную способность при добавлении графических ускорителей, при этом стабильно функционируя при двух браузерах на каждое процессорное ядро и сохраняя производительность, ограниченную ресурсами графических процессоров.

WebGym — это платформа для масштабного обучения визуальных веб-агентов, использующая разнообразные задачи, асинхронный запуск и простой алгоритм обучения с подкреплением.

Обучение надежных визуальных агентов для работы с веб-сайтами осложняется их разнообразием и непостоянством, что требует реалистичных и масштабных обучающих сред. В статье «WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks» представлена WebGym — крупнейшая на сегодняшний день открытая среда для обучения таких агентов, содержащая около 300 тысяч задач на реальных веб-сайтах. Показано, что сочетание разнообразного набора задач, эффективной системы сбора данных и простого алгоритма обучения с подкреплением позволяет значительно повысить производительность агентов, превосходя результаты, достигнутые с использованием проприетарных моделей. Сможет ли WebGym стать стандартом де-факто для разработки и оценки визуальных веб-агентов нового поколения?

Вызов воплощенного ИИ: Навигация в реальном веб-пространстве

Традиционные системы искусственного интеллекта, демонстрирующие впечатляющие результаты в строго контролируемых лабораторных условиях, зачастую сталкиваются с непреодолимыми трудностями при взаимодействии с реальным интернетом. Сложность веб-пространства заключается в его постоянном изменении, непредсказуемости структуры страниц и разнообразии визуального оформления. В то время как алгоритмы успешно справляются с заранее заданными сценариями и статичными данными, они испытывают затруднения при обработке динамического контента, неструктурированной информации и необходимости адаптации к новым, незнакомым веб-сайтам. Это обусловлено тем, что обучение в контролируемой среде не позволяет учитывать все возможные вариации и непредсказуемые ситуации, возникающие в реальном веб-пространстве, что существенно ограничивает практическое применение подобных систем.

Для успешного взаимодействия с веб-сайтами необходимы развитое визуальное восприятие и способность к последовательному принятию решений, что представляет собой серьезную проблему для современных искусственных агентов. Агентам требуется не просто распознавать элементы интерфейса, но и понимать их функциональное назначение в контексте конкретного сайта, а также планировать последовательность действий для достижения поставленной цели. Например, для заполнения онлайн-формы необходимо идентифицировать поля ввода, понимать их типы данных и корректно вводить информацию, адаптируясь к различным стилям оформления и динамически изменяющемуся контенту. Отсутствие у существующих систем способности к такому комплексному анализу и планированию ограничивает их возможности в реальных веб-средах, требуя разработки новых подходов, сочетающих компьютерное зрение, обработку естественного языка и методы обучения с подкреплением.

Существующие методы искусственного интеллекта, предназначенные для взаимодействия с веб-сайтами, часто демонстрируют ограниченную масштабируемость и адаптивность. Проблема заключается в том, что каждый веб-сайт имеет уникальную структуру, визуальный дизайн и логику взаимодействия, что требует от агентов способности быстро обучаться и приспосабливаться к новым условиям. Нередко, системы, успешно работающие на одном сайте, оказываются неэффективными или вовсе неработоспособными на другом, даже если задача остается аналогичной. Это связано с тем, что большинство подходов полагаются на жестко заданные правила или требуют обширного обучения для каждого конкретного домена, что делает их непрактичными для широкого спектра веб-приложений и ограничивает возможности автоматизации сложных задач в реальном онлайн-пространстве. Разработка систем, способных к обобщению знаний и эффективной адаптации к разнообразным веб-сайтам, остается ключевой проблемой в области искусственного интеллекта.

WebGym: Масштабируемая платформа для обучения веб-агентов

WebGym — это платформа с открытым исходным кодом, предназначенная для обучения визуальных веб-агентов в больших масштабах. Ключевой особенностью является обширный набор задач — около 300 000, что делает WebGym крупнейшей на сегодняшний день открытой средой для этой цели. Такой объем задач позволяет проводить более эффективное обучение и оценку производительности веб-агентов, обеспечивая возможность масштабирования экспериментов и разработки более сложных систем автоматизации веб-взаимодействий.

Платформа WebGym использует симуляцию браузера и асинхронную систему развертывания (rollout) для ускорения сбора данных, необходимого для обучения с подкреплением. Внедрение асинхронной системы позволяет выполнять множество задач параллельно, значительно повышая эффективность сбора данных. По сравнению с наивными реализациями, которые выполняют задачи последовательно, WebGym демонстрирует увеличение скорости развертывания (rollout speedup) в 4-5 раз. Это достигается за счет оптимизации процесса взаимодействия агента с веб-средой и параллельной обработки данных, что существенно сокращает время, необходимое для обучения агентов.

WebGym использует методы декомпозиции задач для генерации более сложных заданий из базовых, исходных задач, что способствует улучшению процесса обучения агентов. Этот подход позволяет создавать вариации исходных задач путем последовательного добавления шагов или условий, тем самым увеличивая сложность и разнообразие обучающего набора данных. Декомпозиция задач позволяет агентам постепенно осваивать более сложные навыки, начиная с простых подзадач и объединяя их для достижения конечной цели. Такой метод обучения повышает эффективность и обобщающую способность обученных агентов, позволяя им успешно справляться с широким спектром задач в веб-среде.

Система WebGym выполняет декомпозицию задач, генерируя валидные комбинации групп фактов из рубрики исходной задачи, требуя минимум две группы, включая хотя бы одну большую (<span class="katex-eq" data-katex-display="false">\geq3</span> фактов), что позволяет создавать новые, более простые задачи, сохраняя при этом соответствие исходным целям. — Система WebGym выполняет декомпозицию задач, генерируя валидные комбинации групп фактов из рубрики исходной задачи, требуя минимум две группы, включая хотя бы одну большую ( $\geq3$ фактов), что позволяет создавать новые, более простые задачи, сохраняя при этом соответствие исходным целям.

Обучение с подкреплением и мощь оптимизации стратегии

WebGym использует обучение с подкреплением для тренировки агентов, основываясь на принципе вознаграждения за успешное выполнение задач. Агенты получают положительное подкрепление при достижении целевых состояний, что стимулирует их к повторению действий, приведших к успеху. Этот процесс позволяет агентам постепенно улучшать свою стратегию поведения и адаптироваться к различным условиям среды, стремясь к оптимальному решению поставленной задачи. Система вознаграждений является ключевым компонентом, направляющим обучение и определяющим эффективность агента в WebGym.

Алгоритм REINFORCE используется для оптимизации политики агента в WebGym, что позволяет ему обучаться на опыте и улучшать процесс принятия решений. В основе REINFORCE лежит метод градиентного подъема, применяемый к функции ожидаемой награды. Алгоритм оценивает градиент этой функции, используя траектории, полученные в результате взаимодействия агента с окружением. Направление градиента указывает на изменения в политике, которые приведут к увеличению ожидаемой награды. Применение REINFORCE позволяет агенту корректировать свою стратегию действий на основе полученных результатов, тем самым постепенно улучшая свою способность успешно выполнять задачи и максимизировать кумулятивную награду. В контексте WebGym, это означает, что агент учится выбирать действия, которые наиболее эффективно приводят к успешному завершению веб-задач.

Интеграция подсказок памяти (memory prompts) в архитектуру агента позволяет сохранять и использовать информацию, полученную на предыдущих шагах выполнения задачи. Это достигается за счет включения контекста предыдущих действий в текущий входной сигнал, что позволяет агенту учитывать историю и избегать повторения ошибок. В сложных многошаговых задачах, где последовательность действий критически важна, использование памяти значительно повышает эффективность обучения и позволяет агенту успешно справляться с задачами, требующими долгосрочного планирования и учета контекста. Такой подход особенно полезен в задачах, где частичное наблюдение или скрытые состояния требуют сохранения информации о прошлых взаимодействиях для принятия обоснованных решений.

Асинхронный подход WebGym устраняет периоды резких скачков и простоя при развертывании веб-приложений, обеспечивая более плавную загрузку ЦП за счет изоляции процессов развертывания и потоковой обработки данных, в отличие от синхронных систем, приводящих к неравномерному использованию ресурсов.

Надежная оценка и устойчивость в реальных условиях

Для обеспечения достоверности обучения и оценки агентов, WebGym использует структурированные рубрики задач, позволяющие генерировать чёткие и детализированные критерии оценки. Этот подход обеспечивает получение точных сигналов вознаграждения, необходимых для эффективной оптимизации поведения агента. В отличие от традиционных методов, полагающихся на субъективные оценки или нечёткие цели, рубрики WebGym позволяют объективно измерять прогресс и выявлять слабые места в стратегии агента, способствуя тем самым повышению его надёжности и устойчивости в реальных условиях эксплуатации. Такая система оценки позволяет не просто определить, успешно ли выполнена задача, но и количественно оценить качество её выполнения, предоставляя ценную информацию для дальнейшего совершенствования алгоритмов обучения.

Для обеспечения надёжной тренировки, платформа WebGym включает в себя механизмы защиты от блокировок веб-сайтов. Эти механизмы автоматически обнаруживают и смягчают ограничения, накладываемые сайтами, такие как капчи или запросы на подтверждение, которые могут прервать процесс обучения агента. Платформа не просто пытается обойти эти ограничения, но и адаптируется к изменяющимся условиям, что позволяет агентам продолжать обучение даже при наличии препятствий. Такая проактивная защита от блокировок гарантирует стабильность и эффективность тренировочного процесса, позволяя агентам успешно выполнять задачи в реальных веб-средах, несмотря на потенциальные помехи.

Оценка эффективности агентов в WebGym осуществляется с использованием двух передовых моделей — GPT-4o и GPT-5-Thinking, что позволяет всесторонне анализировать их действия в различных ситуациях. Результаты демонстрируют, что WebGym превосходит обе модели, достигая показателя успешности в 42,9%. В то время как GPT-5-Thinking показывает результат в 29,8%, а GPT-4o — всего 27,1%, WebGym обеспечивает более надежную и точную оценку производительности, подтверждая свою эффективность в качестве платформы для обучения и тестирования агентов, способных взаимодействовать с реальным веб-пространством.

Использование чётких критериев оценки (рубрики) значительно повышает согласованность автоматизированных систем и человеческих суждений, при этом GPT-4o демонстрирует наибольшее изменение в сторону более строгих и консервативных критериев прохождения благодаря введению рубрики, что проявляется в увеличении точности и небольшом снижении полноты.

Исследование представляет собой элегантное решение проблемы масштабирования обучения визуальных веб-агентов. Авторы демонстрируют, что эффективность обучения напрямую зависит от продуманной структуры среды и разнообразия задач, что перекликается с принципом целостности системы. Как заметил Г.Х. Харди: «Математика — это наука о том, что можно логически обосновать, а не о том, что можно вычислить». Аналогично, WebGym предлагает не просто вычислительную платформу, а логически выстроенную среду, где каждый компонент — от асинхронных прогонов до декомпозиции задач — способствует созданию устойчивого и эффективного обучения агентов. Уделение внимания структуре и взаимосвязям между компонентами системы является ключом к достижению впечатляющих результатов, продемонстрированных в работе.

Что дальше?

Представленная работа, несомненно, демонстрирует эффективность подхода к масштабированию обучения визуальных агентов в веб-среде. Однако, следует признать, что сама постановка задачи — “обучение агента взаимодействовать с вебом” — лишь вершина айсберга. Истинная сложность заключается не в количестве задач, а в их динамической природе. Веб постоянно эволюционирует, и агент, обученный сегодня, рискует устареть завтра. Необходимо сместить фокус с простого увеличения масштаба на разработку систем, способных к непрерывному обучению и адаптации.

Простота рецепта обучения, подчеркнутая авторами, вызывает определенное удовлетворение, но одновременно и настораживает. Ведь элегантность часто является признаком поверхностного понимания. В конечном счете, стабильность и устойчивость системы зависят не от отсутствия сложностей, а от четкого понимания их взаимосвязей. Дальнейшие исследования должны быть направлены на изучение более сложных алгоритмов, способных к обобщению и переносу знаний между различными веб-сайтами и задачами.

И, пожалуй, самое главное — необходимо помнить, что веб — это не просто набор страниц, а сложная социальная система. Агент, игнорирующий человеческий фактор и контекст взаимодействия, обречен на провал. Следующий этап развития — создание агентов, способных к сотрудничеству и пониманию намерений пользователя. Лишь тогда мы сможем говорить о действительно “умных” веб-агентах.

Оригинал статьи: https://arxiv.org/pdf/2601.02439.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-07 12:25

🚀 Квантовые новости