Автор: Денис Аветисян
Исследователи представили WebArbiter — систему, которая помогает веб-агентам принимать более обоснованные решения, оценивая их действия на основе принципов логического мышления.

WebArbiter — это модель оценки веб-процессов (WebPRM), использующая принцип-ориентированное рассуждение для повышения точности и интерпретируемости во время веб-навигации, демонстрирующая передовые результаты на новом бенчмарке WebPRMBench.
Автоматизация сложных задач в интернете с помощью веб-агентов затруднена из-за долгосрочного планирования и необратимости действий. В данной работе, ‘WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents’, представлен WebArbiter — новый подход к моделированию вознаграждения, основанный на принципе обоснованного рассуждения, который формулирует оценку как генерацию текста с аргументацией. Этот подход позволяет получать более надежные и интерпретируемые сигналы вознаграждения, превосходя существующие методы на новом комплексном бенчмарке WebPRMBench, и открывает ли возможность создания веб-агентов, способных к эффективному и осмысленному взаимодействию со сложными веб-приложениями?
За пределами контрольных списков: Хрупкость современных моделей вознаграждения
Существующие модели вознаграждения для веб-процессов (WebPRM), особенно те, что основаны на контрольных списках, демонстрируют ограниченную устойчивость в динамичной веб-среде. Эти системы, полагаясь на жестко заданные критерии, часто не справляются с изменениями в структуре сайтов, обновлением контента или появлением новых элементов интерфейса. В результате, даже незначительные модификации веб-страницы могут привести к резкому снижению эффективности агента, поскольку он перестает распознавать ожидаемые сигналы или успешно выполнять необходимые действия. Такая хрупкость делает WebPRM, основанные на чек-листах, непригодными для работы со сложными и постоянно меняющимися веб-приложениями, требующими адаптивности и способности к обобщению.
Существующие модели вознаграждения для веб-агентов, основанные на скалярных оценках, часто представляют собой “черный ящик”, затрудняя понимание причин, лежащих в основе тех или иных действий. Невозможность детально проанализировать процесс принятия решений агентом снижает доверие к его работе и существенно усложняет отладку в случае возникновения ошибок. Вместо того чтобы просто определить, успешно ли выполнена задача, требуется понимание как агент пришел к данному результату — какие факторы он учитывал, какие шаги предпринял и почему. Отсутствие такой интерпретируемости ограничивает возможности улучшения агента и адаптации его к новым, сложным веб-средам, поскольку невозможно точно определить, какие аспекты его поведения требуют коррекции. Это особенно важно в ситуациях, когда требуется высокая степень надежности и предсказуемости, например, при автоматизации критически важных задач.
Несмотря на кажущуюся простоту подхода, заключающегося в использовании больших языковых моделей (LLM) в качестве оценщиков, данная методика не решает проблему надежной и принципиальной оценки действий веб-агентов. Простое предоставление LLM инструкции действовать как судья не обеспечивает устойчивость к изменениям в веб-среде и не гарантирует соответствие действий агента четко сформулированным принципам. Вместо этого, LLM, обученные на данных, отражающих текущие тенденции, могут выдавать субъективные оценки, подверженные влиянию смещений и не учитывающие долгосрочные последствия действий. Таким образом, подход “LLM-as-Judge”, хотя и может быть полезен для быстрой оценки, не предоставляет фундаментального решения для создания веб-агентов, способных к последовательному и обоснованному поведению в динамичной онлайн-среде.

WebArbiter: Рассуждение прежде всего в моделировании вознаграждения
WebArbiter представляет собой WebPRM, основанный на логическом выводе, который формулирует моделирование вознаграждения как задачу генерации текста. Вместо традиционных методов, полагающихся на сопоставление с заранее определенными критериями, WebArbiter генерирует текстовое обоснование для оценки действий. Это позволяет модели учитывать сложные и неоднозначные взаимодействия с веб-страницами, улавливая нюансы, которые были бы упущены при использовании простых проверок соответствия. Такой подход обеспечивает более точную и контекстуально-зависимую оценку действий, что критически важно для эффективного обучения агентов, взаимодействующих с веб-средой.
В основе WebArbiter лежит механизм “Принципно-ориентированного рассуждения” (Principle-Guided Reasoning), который формирует принципы оценки действий на основе анализа намерения пользователя и текущего состояния веб-страницы. Этот процесс предполагает извлечение релевантных принципов из запроса пользователя и контекста веб-среды, что позволяет системе формировать более гибкие и точные сигналы вознаграждения. В отличие от простых проверочных списков, данный подход позволяет WebArbiter оценивать действия, учитывая динамически изменяющийся контекст и сложность взаимодействия с веб-сайтом, что повышает надежность и адаптивность системы.
В отличие от традиционных методов моделирования вознаграждения, основанных на сопоставлении с заранее определенными списками критериев, WebArbiter обеспечивает более гибкую и надежную оценку действий. Простые проверки по контрольным спискам часто не учитывают контекст взаимодействия с веб-сайтом и могут приводить к ложным срабатываниям или упущениям. WebArbiter, используя принцип-ориентированное рассуждение, динамически оценивает каждое действие на основе текущего состояния веб-страницы и намерения пользователя, что позволяет формировать более точные и адаптируемые сигналы вознаграждения. Это особенно важно в сложных сценариях взаимодействия, где стандартные методы могут оказаться неэффективными.

Дистилляция рассуждений: Передача принципов WebArbiter
Для передачи навыков последовательного и логичного рассуждения, основанного на заданных принципах, от мощной базовой модели к WebArbiter используется метод дистилляции рассуждений (Reasoning Distillation). Данный подход предполагает обучение WebArbiter на данных, сгенерированных более крупной и способной моделью — “учителем”. “Учитель” демонстрирует решение задач с четким соблюдением заданных принципов, а WebArbiter обучается воспроизводить эту логику, эффективно перенимая знания и способность к обоснованным выводам. Это позволяет WebArbiter выполнять сложные задачи рассуждения, сохраняя при этом высокую скорость и эффективность, необходимые для интерактивных приложений.
Для дальнейшей оптимизации производительности WebArbiter и смягчения потенциальных предвзятостей используется обучение с подкреплением (Reinforcement Learning, RL). Этот подход позволяет модели учиться на основе обратной связи, получаемой в процессе взаимодействия со средой, что способствует улучшению качества принимаемых решений и адаптации к различным сценариям. В процессе обучения с подкреплением WebArbiter получает вознаграждение или штраф за каждое действие, что позволяет ему постепенно оптимизировать свою стратегию поведения и минимизировать ошибки. Применение RL позволяет WebArbiter не только улучшать точность ответов, но и повышать их релевантность и согласованность с заданными критериями.
В процессе обучения с подкреплением (RL) для WebArbiter применяются методы стабилизации обучения и повышения эффективности использования памяти. Для стабилизации процесса обучения используется регуляризация на основе расхождения Кулбака-Лейблера (KL Divergence Regularization), которая ограничивает отклонение политики от начальной, предотвращая резкие изменения и обеспечивая более плавную сходимость. Для повышения эффективности использования памяти, особенно при работе с большими моделями, применяется Fully Sharded Data Parallelism (FSDP), распределяющая параметры модели между несколькими устройствами. Генерация траекторий (rollout generation) ускоряется за счет использования vLLM, что позволяет эффективно проводить итерации обучения с подкреплением и снижает общие вычислительные затраты.

WebPRMBench: Строгий эталон для оценки веб-агентов
Представлен комплексный многосредовый эталонный набор данных WebPRMBench, предназначенный для всесторонней оценки веб-агентов, взаимодействующих с браузером. В его основе лежит тщательно проверенный людьми набор данных AgentRewardBench, что гарантирует высокую достоверность и надежность получаемых результатов. WebPRMBench включает в себя разнообразные веб-среды, имитирующие реальные пользовательские сценарии, что позволяет комплексно оценить способность агентов решать задачи, требующие взаимодействия с веб-страницами, обработки информации и принятия решений. Данный эталонный набор данных призван стимулировать развитие более эффективных и надежных веб-агентов, способных решать широкий спектр задач в онлайн-среде.
Исследования показали, что WebArbiter демонстрирует стабильное превосходство над базовыми моделями, включая передовую систему GPT-4o, в задачах оценки Web PRM. Данное превосходство подтверждается двумя ключевыми показателями: точностью попарного сравнения (Pairwise Accuracy) и точностью выбора лучшего из N вариантов (Best-of-N Accuracy). Это означает, что WebArbiter не только более часто правильно ранжирует ответы, но и чаще выбирает оптимальный вариант из предложенных, что свидетельствует о его более высокой способности к принятию решений в веб-среде и более глубоком понимании контекста задач.
Исследование демонстрирует значительный прогресс в области веб-агентов благодаря новой модели WebArbiter. В ходе тщательного тестирования, WebArbiter достигла показателя точности Best-of-N в 74.60%, что на 31% превышает результаты ранее существовавших передовых веб-PRM. Этот впечатляющий прирост точности указывает на существенное улучшение способности агента принимать обоснованные решения и эффективно выполнять задачи в различных веб-средах. Достигнутый результат подтверждает эффективность предложенных архитектурных и алгоритмических решений, открывая новые перспективы для разработки более интеллектуальных и надежных веб-агентов.

Исследование, представленное в данной работе, демонстрирует, что создание надежных систем для взаимодействия с сетью требует не просто алгоритмической точности, но и способности к осмысленному рассуждению. WebArbiter, как процесс вознаграждения, основанный на принципах, напоминает искусного садовника, который не просто подрезает ветви, но и понимает, как каждая деталь влияет на общую экосистему. Ключевым является не просто достижение наивысшей точности в конкретной задаче, а создание модели, способной объяснить логику своих действий. Как однажды заметил Клод Шеннон: «Информация — это не только данные, но и способ их интерпретации». Именно этот аспект интерпретации, способность к рассуждению, делает WebArbiter столь эффективным в навигации по сложной среде сети и обеспечивает устойчивость к ошибкам, ведь система, способная к самоанализу, более устойчива к внешним воздействиям.
Что дальше?
Представленная работа, стремясь к созданию модели вознаграждения, основанной на принципах рассуждения, неизбежно сталкивается с парадоксом: чем сложнее система оценки, тем тоньше грань между разумным выбором и самообманом. Поиск “идеального” вознаграждения для веб-агента — это, по сути, попытка создать систему, лишенную необходимости в человеческом вмешательстве. Но система, которая никогда не ошибается, мертва — она лишена способности к адаптации, к обучению на собственных провалах.
Разработка эталонного набора данных WebPRMBench — это, безусловно, важный шаг, однако необходимо помнить, что любой набор данных — это лишь мгновенный снимок реальности, а реальность постоянно меняется. Следующим этапом видится не столько увеличение размера набора данных, сколько разработка систем, способных к самостоятельному обнаружению и исправлению ошибок в процессе обучения, к построению собственной, динамичной модели вознаграждения.
В конечном счете, задача заключается не в создании идеального веб-агента, а в создании системы, способной к сосуществованию с человеком, к совместному решению задач. Ведь самая надежная система — это не та, которая никогда не ломается, а та, которую можно легко починить.
Оригинал статьи: https://arxiv.org/pdf/2601.21872.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Адаптация моделей к новым данным: квантильная коррекция для нейросетей
- Где «смотрят» большие языковые модели: новый взгляд на визуальное понимание
- Сердце музыки: открытые модели для создания композиций
- Интеллектуальный поиск научных статей: новый подход к исследованию литературы
- Голос в переводе: как нейросети учатся понимать речь
- Игры без модели: новый подход к управлению в условиях неопределенности
- Цифровые двойники: первый опыт обучения
- Ищем закономерности: Новый пакет TSQCA для R
- Эффективная память для больших языковых моделей: новый подход LOOKAT
- Эволюция под контролем: эксперименты с обучением с подкреплением в генетическом программировании
2026-01-31 13:43