Разумный агент: Новая модель оценки действий для веб-навигации

Автор: Денис Аветисян


Исследователи представили WebArbiter — систему, которая помогает веб-агентам принимать более обоснованные решения, оценивая их действия на основе принципов логического мышления.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Система WebArbiter, используя историю взаимодействий и текущие наблюдения, сравнивает варианты действий, применяя принципы, полученные из более мощной языковой модели, и обучается с подкреплением на основе проверяемых вознаграждений <span class="katex-eq" data-katex-display="false">R\in\{-1,+1}</span>, формируя структурированные обоснования и вынося окончательный вердикт, позволяя ей, в процессе работы, выводить принципы оценки и выбирать действие, наиболее эффективно приближающее к завершению задачи.
Система WebArbiter, используя историю взаимодействий и текущие наблюдения, сравнивает варианты действий, применяя принципы, полученные из более мощной языковой модели, и обучается с подкреплением на основе проверяемых вознаграждений R\in\{-1,+1}, формируя структурированные обоснования и вынося окончательный вердикт, позволяя ей, в процессе работы, выводить принципы оценки и выбирать действие, наиболее эффективно приближающее к завершению задачи.

WebArbiter — это модель оценки веб-процессов (WebPRM), использующая принцип-ориентированное рассуждение для повышения точности и интерпретируемости во время веб-навигации, демонстрирующая передовые результаты на новом бенчмарке WebPRMBench.

Автоматизация сложных задач в интернете с помощью веб-агентов затруднена из-за долгосрочного планирования и необратимости действий. В данной работе, ‘WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents’, представлен WebArbiter — новый подход к моделированию вознаграждения, основанный на принципе обоснованного рассуждения, который формулирует оценку как генерацию текста с аргументацией. Этот подход позволяет получать более надежные и интерпретируемые сигналы вознаграждения, превосходя существующие методы на новом комплексном бенчмарке WebPRMBench, и открывает ли возможность создания веб-агентов, способных к эффективному и осмысленному взаимодействию со сложными веб-приложениями?


За пределами контрольных списков: Хрупкость современных моделей вознаграждения

Существующие модели вознаграждения для веб-процессов (WebPRM), особенно те, что основаны на контрольных списках, демонстрируют ограниченную устойчивость в динамичной веб-среде. Эти системы, полагаясь на жестко заданные критерии, часто не справляются с изменениями в структуре сайтов, обновлением контента или появлением новых элементов интерфейса. В результате, даже незначительные модификации веб-страницы могут привести к резкому снижению эффективности агента, поскольку он перестает распознавать ожидаемые сигналы или успешно выполнять необходимые действия. Такая хрупкость делает WebPRM, основанные на чек-листах, непригодными для работы со сложными и постоянно меняющимися веб-приложениями, требующими адаптивности и способности к обобщению.

Существующие модели вознаграждения для веб-агентов, основанные на скалярных оценках, часто представляют собой “черный ящик”, затрудняя понимание причин, лежащих в основе тех или иных действий. Невозможность детально проанализировать процесс принятия решений агентом снижает доверие к его работе и существенно усложняет отладку в случае возникновения ошибок. Вместо того чтобы просто определить, успешно ли выполнена задача, требуется понимание как агент пришел к данному результату — какие факторы он учитывал, какие шаги предпринял и почему. Отсутствие такой интерпретируемости ограничивает возможности улучшения агента и адаптации его к новым, сложным веб-средам, поскольку невозможно точно определить, какие аспекты его поведения требуют коррекции. Это особенно важно в ситуациях, когда требуется высокая степень надежности и предсказуемости, например, при автоматизации критически важных задач.

Несмотря на кажущуюся простоту подхода, заключающегося в использовании больших языковых моделей (LLM) в качестве оценщиков, данная методика не решает проблему надежной и принципиальной оценки действий веб-агентов. Простое предоставление LLM инструкции действовать как судья не обеспечивает устойчивость к изменениям в веб-среде и не гарантирует соответствие действий агента четко сформулированным принципам. Вместо этого, LLM, обученные на данных, отражающих текущие тенденции, могут выдавать субъективные оценки, подверженные влиянию смещений и не учитывающие долгосрочные последствия действий. Таким образом, подход “LLM-as-Judge”, хотя и может быть полезен для быстрой оценки, не предоставляет фундаментального решения для создания веб-агентов, способных к последовательному и обоснованному поведению в динамичной онлайн-среде.

Результаты тестирования на WebPRMBench демонстрируют, что WebArbiter превосходит другие модели по точности (<span class="katex-eq" data-katex-display="false">Avg BoN Acc</span>) при меньшем размере и обеспечивает стабильно высокие результаты во всех средах, подтверждая его эффективность и масштабируемость.
Результаты тестирования на WebPRMBench демонстрируют, что WebArbiter превосходит другие модели по точности (Avg BoN Acc) при меньшем размере и обеспечивает стабильно высокие результаты во всех средах, подтверждая его эффективность и масштабируемость.

WebArbiter: Рассуждение прежде всего в моделировании вознаграждения

WebArbiter представляет собой WebPRM, основанный на логическом выводе, который формулирует моделирование вознаграждения как задачу генерации текста. Вместо традиционных методов, полагающихся на сопоставление с заранее определенными критериями, WebArbiter генерирует текстовое обоснование для оценки действий. Это позволяет модели учитывать сложные и неоднозначные взаимодействия с веб-страницами, улавливая нюансы, которые были бы упущены при использовании простых проверок соответствия. Такой подход обеспечивает более точную и контекстуально-зависимую оценку действий, что критически важно для эффективного обучения агентов, взаимодействующих с веб-средой.

В основе WebArbiter лежит механизм “Принципно-ориентированного рассуждения” (Principle-Guided Reasoning), который формирует принципы оценки действий на основе анализа намерения пользователя и текущего состояния веб-страницы. Этот процесс предполагает извлечение релевантных принципов из запроса пользователя и контекста веб-среды, что позволяет системе формировать более гибкие и точные сигналы вознаграждения. В отличие от простых проверочных списков, данный подход позволяет WebArbiter оценивать действия, учитывая динамически изменяющийся контекст и сложность взаимодействия с веб-сайтом, что повышает надежность и адаптивность системы.

В отличие от традиционных методов моделирования вознаграждения, основанных на сопоставлении с заранее определенными списками критериев, WebArbiter обеспечивает более гибкую и надежную оценку действий. Простые проверки по контрольным спискам часто не учитывают контекст взаимодействия с веб-сайтом и могут приводить к ложным срабатываниям или упущениям. WebArbiter, используя принцип-ориентированное рассуждение, динамически оценивает каждое действие на основе текущего состояния веб-страницы и намерения пользователя, что позволяет формировать более точные и адаптируемые сигналы вознаграждения. Это особенно важно в сложных сценариях взаимодействия, где стандартные методы могут оказаться неэффективными.

Эксперименты показывают, что при увеличении числа оцениваемых вознаграждений <span class="katex-eq" data-katex-display="false">K</span>, WebArbiter демонстрирует масштабируемость, поддерживая высокую точность <span class="katex-eq" data-katex-display="false">BoN</span> (сравнение парных и <span class="katex-eq" data-katex-display="false">BoN</span> представлено на графике).
Эксперименты показывают, что при увеличении числа оцениваемых вознаграждений K, WebArbiter демонстрирует масштабируемость, поддерживая высокую точность BoN (сравнение парных и BoN представлено на графике).

Дистилляция рассуждений: Передача принципов WebArbiter

Для передачи навыков последовательного и логичного рассуждения, основанного на заданных принципах, от мощной базовой модели к WebArbiter используется метод дистилляции рассуждений (Reasoning Distillation). Данный подход предполагает обучение WebArbiter на данных, сгенерированных более крупной и способной моделью — “учителем”. “Учитель” демонстрирует решение задач с четким соблюдением заданных принципов, а WebArbiter обучается воспроизводить эту логику, эффективно перенимая знания и способность к обоснованным выводам. Это позволяет WebArbiter выполнять сложные задачи рассуждения, сохраняя при этом высокую скорость и эффективность, необходимые для интерактивных приложений.

Для дальнейшей оптимизации производительности WebArbiter и смягчения потенциальных предвзятостей используется обучение с подкреплением (Reinforcement Learning, RL). Этот подход позволяет модели учиться на основе обратной связи, получаемой в процессе взаимодействия со средой, что способствует улучшению качества принимаемых решений и адаптации к различным сценариям. В процессе обучения с подкреплением WebArbiter получает вознаграждение или штраф за каждое действие, что позволяет ему постепенно оптимизировать свою стратегию поведения и минимизировать ошибки. Применение RL позволяет WebArbiter не только улучшать точность ответов, но и повышать их релевантность и согласованность с заданными критериями.

В процессе обучения с подкреплением (RL) для WebArbiter применяются методы стабилизации обучения и повышения эффективности использования памяти. Для стабилизации процесса обучения используется регуляризация на основе расхождения Кулбака-Лейблера (KL Divergence Regularization), которая ограничивает отклонение политики от начальной, предотвращая резкие изменения и обеспечивая более плавную сходимость. Для повышения эффективности использования памяти, особенно при работе с большими моделями, применяется Fully Sharded Data Parallelism (FSDP), распределяющая параметры модели между несколькими устройствами. Генерация траекторий (rollout generation) ускоряется за счет использования vLLM, что позволяет эффективно проводить итерации обучения с подкреплением и снижает общие вычислительные затраты.

В условиях неопределенности, WebShepherd ошибочно принимает произвольный запрос на слияние, в то время как WebArbiter анализирует предварительные условия задачи и приоритизирует уточнение посредством поиска.
В условиях неопределенности, WebShepherd ошибочно принимает произвольный запрос на слияние, в то время как WebArbiter анализирует предварительные условия задачи и приоритизирует уточнение посредством поиска.

WebPRMBench: Строгий эталон для оценки веб-агентов

Представлен комплексный многосредовый эталонный набор данных WebPRMBench, предназначенный для всесторонней оценки веб-агентов, взаимодействующих с браузером. В его основе лежит тщательно проверенный людьми набор данных AgentRewardBench, что гарантирует высокую достоверность и надежность получаемых результатов. WebPRMBench включает в себя разнообразные веб-среды, имитирующие реальные пользовательские сценарии, что позволяет комплексно оценить способность агентов решать задачи, требующие взаимодействия с веб-страницами, обработки информации и принятия решений. Данный эталонный набор данных призван стимулировать развитие более эффективных и надежных веб-агентов, способных решать широкий спектр задач в онлайн-среде.

Исследования показали, что WebArbiter демонстрирует стабильное превосходство над базовыми моделями, включая передовую систему GPT-4o, в задачах оценки Web PRM. Данное превосходство подтверждается двумя ключевыми показателями: точностью попарного сравнения (Pairwise Accuracy) и точностью выбора лучшего из N вариантов (Best-of-N Accuracy). Это означает, что WebArbiter не только более часто правильно ранжирует ответы, но и чаще выбирает оптимальный вариант из предложенных, что свидетельствует о его более высокой способности к принятию решений в веб-среде и более глубоком понимании контекста задач.

Исследование демонстрирует значительный прогресс в области веб-агентов благодаря новой модели WebArbiter. В ходе тщательного тестирования, WebArbiter достигла показателя точности Best-of-N в 74.60%, что на 31% превышает результаты ранее существовавших передовых веб-PRM. Этот впечатляющий прирост точности указывает на существенное улучшение способности агента принимать обоснованные решения и эффективно выполнять задачи в различных веб-средах. Достигнутый результат подтверждает эффективность предложенных архитектурных и алгоритмических решений, открывая новые перспективы для разработки более интеллектуальных и надежных веб-агентов.

Анализ корреляции между метриками BoN и Pairwise Accuracy на веб-бенчмарках показывает сильную взаимосвязь, однако BoN характеризуется большей вариативностью и обеспечивает более точную дифференциацию между моделями, особенно в сложных веб-средах.
Анализ корреляции между метриками BoN и Pairwise Accuracy на веб-бенчмарках показывает сильную взаимосвязь, однако BoN характеризуется большей вариативностью и обеспечивает более точную дифференциацию между моделями, особенно в сложных веб-средах.

Исследование, представленное в данной работе, демонстрирует, что создание надежных систем для взаимодействия с сетью требует не просто алгоритмической точности, но и способности к осмысленному рассуждению. WebArbiter, как процесс вознаграждения, основанный на принципах, напоминает искусного садовника, который не просто подрезает ветви, но и понимает, как каждая деталь влияет на общую экосистему. Ключевым является не просто достижение наивысшей точности в конкретной задаче, а создание модели, способной объяснить логику своих действий. Как однажды заметил Клод Шеннон: «Информация — это не только данные, но и способ их интерпретации». Именно этот аспект интерпретации, способность к рассуждению, делает WebArbiter столь эффективным в навигации по сложной среде сети и обеспечивает устойчивость к ошибкам, ведь система, способная к самоанализу, более устойчива к внешним воздействиям.

Что дальше?

Представленная работа, стремясь к созданию модели вознаграждения, основанной на принципах рассуждения, неизбежно сталкивается с парадоксом: чем сложнее система оценки, тем тоньше грань между разумным выбором и самообманом. Поиск “идеального” вознаграждения для веб-агента — это, по сути, попытка создать систему, лишенную необходимости в человеческом вмешательстве. Но система, которая никогда не ошибается, мертва — она лишена способности к адаптации, к обучению на собственных провалах.

Разработка эталонного набора данных WebPRMBench — это, безусловно, важный шаг, однако необходимо помнить, что любой набор данных — это лишь мгновенный снимок реальности, а реальность постоянно меняется. Следующим этапом видится не столько увеличение размера набора данных, сколько разработка систем, способных к самостоятельному обнаружению и исправлению ошибок в процессе обучения, к построению собственной, динамичной модели вознаграждения.

В конечном счете, задача заключается не в создании идеального веб-агента, а в создании системы, способной к сосуществованию с человеком, к совместному решению задач. Ведь самая надежная система — это не та, которая никогда не ломается, а та, которую можно легко починить.


Оригинал статьи: https://arxiv.org/pdf/2601.21872.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-31 13:43