От первого лица в сеть: новый вызов для веб-агентов

Автор: Денис Аветисян

Исследователи представили комплексный бенчмарк Ego2Web, проверяющий способность интеллектуальных агентов выполнять задачи, основываясь на реальных видео от первого лица.

Ego2Web — это новая платформа для оценки веб-агентов, сочетающая визуальное восприятие и онлайн-действие в условиях, приближенных к реальным.

Существующие бенчмарки для веб-агентов, как правило, не учитывают связь между восприятием реального мира и действиями в сети. В данной работе представлена новая платформа ‘Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos’ для оценки веб-агентов, способных выполнять задачи, основанные на видео, снятых от первого лица. Ego2Web сочетает в себе видеозаписи реального мира с веб-задачами, требующими визуального понимания и онлайн-действий, и включает автоматизированный конвейер генерации данных с последующей проверкой человеком. Сможет ли Ego2Web стать ключевым ресурсом для разработки действительно способных ИИ-ассистентов, способных беспрепятственно видеть, понимать и действовать как в физическом, так и в цифровом мирах?

Шёпот Хаоса: Преодолевая Разрыв между Восприятием и Действием

Современные системы автоматизации веб-задач, как правило, испытывают трудности при выполнении операций, требующих визуального восприятия и понимания контекста реального мира. Традиционные подходы, основанные на анализе HTML-кода и структурированных данных, оказываются неэффективными в ситуациях, когда для успешного выполнения задачи необходимо интерпретировать визуальную информацию, представленную на экране, и соотносить её с физическим окружением. Например, автоматическое заполнение формы, требующее распознавания текста на изображении, или взаимодействие с элементами интерфейса, зависящими от визуального состояния, представляют значительную сложность для существующих систем. Данное ограничение существенно препятствует созданию действительно интеллектуальных агентов, способных автономно решать сложные задачи в веб-среде, требующие не только логического анализа, но и визуального понимания.

Платформа Ego2Web представляет собой принципиально новый эталон для оценки возможностей искусственного интеллекта, соединяя в себе визуальную информацию из первого лица с необходимостью выполнения сложных действий в веб-среде. В отличие от существующих тестов, которые часто оперируют упрощенными задачами или предопределенными данными, Ego2Web требует от агентов не просто распознавания команд, но и понимания целей, наблюдаемых в видео, и самостоятельного планирования последовательности действий для их достижения в сети Интернет. Это обуславливает потребность в разработке совершенно новых архитектур агентов, способных к визуальному восприятию, семантическому анализу и адаптивному взаимодействию с динамичной веб-средой, что открывает новые горизонты в области автоматизации и искусственного интеллекта.

Для успешного прохождения Ego2Web агентам требуется способность не просто распознавать визуальную информацию, но и интерпретировать намерения, стоящие за ней, а затем эффективно выполнять необходимые действия в онлайн-среде. Это предполагает выход за рамки традиционного автоматизированного взаимодействия с веб-страницами, требуя от агентов понимания контекста задачи, как это делает человек. Фактически, агент должен «увидеть» запрос, понять его цель — например, найти определенный товар или заполнить форму — и последовательно выполнить все необходимые шаги, используя веб-интерфейс. Такой подход открывает путь к созданию более интеллектуальных и гибких веб-агентов, способных решать сложные задачи, требующие визуального восприятия и адаптации к динамически меняющимся условиям.

Обуздание Веб-Хаоса: Автоматизация с Помощью Браузера

Традиционные методы веб-скрейпинга, основанные на извлечении данных из HTML-кода, оказываются хрупкими и неэффективными при работе с современными веб-приложениями, активно использующими JavaScript и AJAX. В отличие от статических веб-страниц, динамически генерируемый контент требует постоянной адаптации парсеров к изменениям структуры страницы. В контексте Ego2Web, где агентам необходимо выполнять сложные, интерактивные задачи, такие как заполнение форм, навигация по многостраничным приложениям и взаимодействие с элементами, управляемыми JavaScript, стандартный парсинг часто приводит к ошибкам и требует значительных усилий по поддержке и обновлению. Отсутствие поддержки рендеринга JavaScript и эмуляции поведения пользователя делает традиционные методы непригодными для автоматизации сценариев, требующих взаимодействия с динамическим контентом и выполнения действий, имитирующих действия реального пользователя.

Фреймворк Browser Use расширяет возможности стандартных веб-агентов, предоставляя полноценную браузерную среду для более надежного и гибкого взаимодействия с веб-страницами. Вместо использования простых HTTP-запросов и парсинга HTML, Browser Use управляет реальным экземпляром браузера, позволяя агенту выполнять любые действия, которые мог бы выполнить пользователь: нажимать кнопки, заполнять формы, прокручивать страницы и обрабатывать JavaScript-рендеринг. Это обеспечивает устойчивость к изменениям в структуре веб-сайта и позволяет агентам взаимодействовать с динамическим контентом и сложными веб-приложениями, что невозможно при использовании традиционных методов веб-скрейпинга.

Использование браузерной среды позволяет агентам взаимодействовать со сложными веб-страницами, содержащими динамически загружаемый контент, требующим выполнения JavaScript и рендеринга. Это включает в себя обработку веб-форм, навигацию по AJAX-запросам и взаимодействие с элементами, генерируемыми клиентским кодом. Ключевым преимуществом является возможность аутентификации пользователей через стандартные веб-механизмы, такие как ввод логина и пароля, обработка CAPTCHA и управление сессиями, что открывает доступ к ресурсам, требующим авторизации и значительно расширяет спектр задач, которые может выполнять агент.

Генерация Задач и Оценка: Подтверждение Интеллекта

Для обеспечения разнообразия и сложности задач в среде Ego2Web используется автоматическая генерация инструкций на основе видеоданных. Этот процесс позволяет создавать широкий спектр сценариев, требующих от агента выполнения различных действий в веб-окружении. Автоматизация генерации задач необходима для масштабируемости платформы и позволяет избежать ограничений, связанных с ручным созданием сценариев. Использование видеоданных в качестве исходного материала обеспечивает реалистичность и контекстуальную релевантность задач, что способствует более эффективной оценке возможностей агента в условиях, приближенных к реальным.

В основе автоматической генерации задач для Ego2Web лежит модель GPT-5, обеспечивающая преобразование визуального контента в конкретные веб-ориентированные цели. GPT-5 анализирует видеоданные и формирует инструкции, определяющие необходимые действия в веб-среде для успешного выполнения задачи. Этот процесс позволяет создавать разнообразные и сложные задания без непосредственного участия человека, что существенно расширяет возможности обучения и оценки агентов в интерактивной веб-среде. Модель способна извлекать релевантную информацию из видео и транслировать её в понятные для агента инструкции, определяющие желаемый результат взаимодействия с веб-страницей.

Для обеспечения масштабируемой и объективной оценки успешности агентов при выполнении автоматически генерируемых задач используется фреймворк Ego2WebJudge. Он основан на применении мультимодальных больших языковых моделей (MLLM) для анализа истории действий агента и извлечения ключевых точек (Keypoint Extraction) из визуальных данных. Эта комбинация позволяет автоматически определять, успешно ли агент выполнил поставленную задачу, достигая уровня согласия с человеческой оценкой более 84%. Применение Ego2WebJudge позволяет избежать субъективности и обеспечить воспроизводимость результатов оценки, что критически важно для разработки и тестирования агентов, взаимодействующих с веб-средой.

Для оценки успешности агента в Ego2Web используется фреймворк Ego2WebJudge, который применяет мультимодальные большие языковые модели (MLLM) для анализа истории действий агента и извлечения данных о ключевых точках (Keypoint Extraction). Комбинируя эти данные, система определяет, успешно ли выполнена задача. В ходе оценки было достигнуто более 84% совпадения с оценками, данными людьми, что подтверждает высокую надежность и объективность автоматизированной системы оценки.

Масштабирование Оценки: LLM в Роли Судьи и Онлайн-Тестирование

Ручная оценка эффективности веб-агентов представляет собой трудоемкий и дорогостоящий процесс, существенно замедляющий прогресс в данной области исследований. Традиционно, для проверки способности агента решать задачи в интернете требуется участие экспертов, которые вручную анализируют каждый шаг выполнения и оценивают конечный результат. Этот подход требует значительных временных и финансовых затрат, что ограничивает масштабируемость экспериментов и затрудняет проведение всестороннего тестирования различных алгоритмов. Вследствие этого, разработка и совершенствование веб-агентов сталкивается с серьезными препятствиями, поскольку исследователям сложно оперативно получать обратную связь и выявлять слабые места в существующих системах. Необходимость в более эффективных и доступных методах оценки становится все более очевидной для ускорения развития данной перспективной области искусственного интеллекта.

Автоматизированная оценка производительности веб-агентов, осуществляемая посредством подхода «LLM-как-судья», представляет собой эффективное и масштабируемое решение, позволяющее преодолеть ограничения ручной оценки. Вместо трудоемкого и дорогостоящего анализа действий агентов человеком, система использует возможности больших языковых моделей для автоматического определения успешности выполнения задач. Этот подход не только существенно снижает затраты на оценку, но и позволяет проводить тестирование на гораздо больших объемах данных, обеспечивая более надежную и всестороннюю оценку способностей веб-агентов в реальных условиях. Благодаря этому, разработчики получают возможность быстро итеративно улучшать свои модели, а исследователи — проводить более масштабные эксперименты и получать более точные результаты.

Постоянный мониторинг и оценка веб-агентов на реальных веб-сайтах позволяет значительно повысить их надежность и способность к обобщению. В отличие от традиционных методов, ограничивающихся статичными наборами данных, предложенный подход обеспечивает непрерывное тестирование в динамичной онлайн-среде. Это позволяет выявлять слабые места и непредсказуемое поведение агентов в различных условиях, что особенно важно для задач, требующих взаимодействия со сложными и постоянно меняющимися веб-ресурсами. Благодаря возможности автоматизированной оценки, основанной на LLM-as-a-Judge, онлайн-оценка не только масштабируема, но и предоставляет ценные данные для улучшения производительности агентов в реальных сценариях использования, обеспечивая более стабильную и эффективную работу в широком спектре онлайн-задач.

В ходе исследований, агент Browser-Use, использующий модель Gemini-3-Flash, продемонстрировал наивысший показатель успешности — 58.6% — при выполнении задач на платформе Ego2Web, превзойдя все протестированные аналоги. Разработанный инструмент Ego2WebJudge, автоматизирующий оценку, не только превосходит существующие автоматические метрики, такие как WebVoyager (70.7%, 74.7%) и WebJudge (76.1%, 78.4%), но и демонстрирует высокую степень согласованности с экспертной оценкой человека — 84.0%. Это свидетельствует о значительном прогрессе в области автоматической оценки веб-агентов и открывает новые возможности для более эффективного и масштабируемого тестирования и улучшения их производительности.

Наблюдения за развитием агентов, способных взаимодействовать с сетью, неизменно напоминают алхимические опыты. Данные, поступающие из реального мира — в данном случае, из потока эгоцентричного видео — не являются чистой истиной, а скорее, компромиссом между хаосом визуальной информации и необходимостью её структурирования. Как отмечает Ян ЛеКюн, «искусственный интеллект — это не магия, а инженерия». Этот принцип особенно актуален в контексте Ego2Web, где задача заключается не в создании идеального агента, а в разработке системы, способной последовательно и предсказуемо выполнять задачи, опираясь на несовершенные данные из визуального потока. Любая модель, даже самая продвинутая, рано или поздно столкнётся с первыми производственными проблемами, но именно способность адаптироваться к этим проблемам и отличает успешные системы от тех, что обречены на забвение.

Что дальше?

Представленный труд, словно зеркало, отражает не столько достигнутое, сколько зияющую пропасть между зрением цифрового голема и реальностью. Ego2Web — это не просто набор данных, это заклинание, призванное заставить машину действовать в мире, который она видит впервые. Однако, иллюзия контроля над этим существом хрупка. Оценка, основанная на онлайн-выполнении задач, лишь обнажает его склонность к случайным ошибкам, к “грехам”, которые он упорно запоминает, но не понимает.

Будущее исследований, вероятно, лежит не в усложнении архитектур, а в смирении перед хаосом. Попытки создать “универсального агента” обречены на провал. Гораздо плодотворнее будет сосредоточиться на создании специализированных существ, способных решать узкий круг задач, но делать это с максимальной надежностью. Необходимо научить цифрового голема не “видеть”, а “чувствовать” контекст, распознавать не объекты, а намерения.

И, наконец, следует помнить: каждая новая метрика — это лишь очередное ограничение, очередная ловушка для разума. Настоящее понимание придет не от анализа графиков потерь, а от признания того, что любое заклинание рано или поздно дает сбой. И тогда, возможно, мы сможем создать агента, который не просто выполняет задачи, а действительно понимает, зачем он это делает.

Оригинал статьи: https://arxiv.org/pdf/2603.22529.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-25 16:16

🚀 Квантовые новости