Обучение веб-агентов: новый подход к генерации данных

Автор: Денис Аветисян


Исследователи предлагают эффективный метод создания синтетических данных для обучения веб-агентов, позволяющий моделям меньшего размера превосходить более крупные аналоги.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В разработанной системе конвейера «Агент как аннотатор» три роли, ранее выполнявшиеся человеком - разработчик задания, аннотатор и супервизор - заменены модулями на основе больших языковых моделей: генератором персон и заданий, агентом и судьей, при этом для обучения используются только успешные траектории, обеспечивая тем самым автоматизацию и повышение эффективности процесса аннотирования.
В разработанной системе конвейера «Агент как аннотатор» три роли, ранее выполнявшиеся человеком — разработчик задания, аннотатор и супервизор — заменены модулями на основе больших языковых моделей: генератором персон и заданий, агентом и судьей, при этом для обучения используются только успешные траектории, обеспечивая тем самым автоматизацию и повышение эффективности процесса аннотирования.

Использование структурированной дистилляции знаний позволяет создавать высококачественные обучающие данные и улучшать обобщающую способность веб-агентов.

Несмотря на впечатляющие возможности современных больших языковых моделей (LLM) в навигации по веб-сайтам, их высокая стоимость и зависимость от внешних API затрудняют локальное развертывание. В работе ‘Structured Distillation of Web Agent Capabilities Enables Generalization’ представлен фреймворк Agent-as-Annotators, структурирующий процесс генерации синтетических траекторий для веб-агентов посредством имитации ролей аннотаторов. Обученная на синтетических данных модель объемом 9B параметров превзошла по производительности закрытые модели, такие как Claude 3.5 Sonnet и GPT-4o, на бенчмарке WebArena. Возможно ли дальнейшее масштабирование данного подхода для создания еще более эффективных и универсальных веб-агентов, способных решать широкий спектр задач без доступа к внешним ресурсам?


Преодоление Узкого Места в Обучении Веб-Агентов

Традиционное обучение веб-агентов в значительной степени зависит от дорогостоящей ручной разметки данных для создания обучающих наборов. Этот процесс предполагает, что люди вручную помечают веб-страницы, определяя релевантные элементы и действия, необходимые для обучения агента. Несмотря на свою эффективность, ручная разметка требует значительных временных и финансовых затрат, особенно при работе с большими и постоянно меняющимися веб-сайтами. Качество размеченных данных напрямую влияет на производительность агента, поэтому необходим тщательный контроль и валидация, что еще больше увеличивает стоимость. В результате, зависимость от ручной разметки становится серьезным препятствием для масштабирования и адаптации веб-агентов к новым и разнообразным веб-средам, ограничивая их потенциал в решении сложных задач.

Процесс ручной разметки данных для обучения веб-агентов представляет собой существенное препятствие для их широкого внедрения и адаптации к различным онлайн-средам. Трудоемкость и высокая стоимость привлечения специалистов для аннотирования веб-страниц и взаимодействия с ними ограничивают объемы обучающих данных, необходимых для создания действительно надежных и универсальных агентов. Особенно остро эта проблема проявляется при попытке адаптировать агентов к быстро меняющимся веб-сайтам или к новым, ранее не встречавшимся структурам данных, поскольку требуется постоянное обновление размеченных данных. Отсутствие эффективных методов автоматизированной генерации обучающих примеров не позволяет масштабировать процесс обучения и эффективно использовать потенциал веб-агентов в динамичной онлайн-среде.

Ограниченность эффективных методов генерации данных существенно сдерживает производительность веб-агентов в сложных, реальных сценариях. Недостаток разнообразных и достоверных обучающих примеров приводит к тому, что агенты испытывают трудности при адаптации к новым веб-сайтам и выполнении нетривиальных задач. В частности, при столкновении с ранее не встречавшимися элементами интерфейса или динамически изменяющимся контентом, агенты, обученные на ограниченных данных, демонстрируют сниженную точность и надежность. Исследования показывают, что чем более разнообразен и репрезентативен набор данных, тем выше способность агента к обобщению и эффективной работе в условиях реального мира, что подчеркивает критическую важность разработки инновационных подходов к автоматической генерации данных для веб-агентов.

Автоматизированная Генерация Данных с Использованием LLM

Представлен фреймворк ‘Agent-as-Annotators’, предназначенный для автоматизации процесса генерации обучающих данных посредством замены человеческих аннотаторов на модули, основанные на больших языковых моделях (LLM). Данный подход позволяет создавать размеченные данные без непосредственного участия человека, используя LLM для выполнения задач, требующих понимания и интерпретации информации. В рамках фреймворка, LLM выступают в роли автоматизированных аннотаторов, способных генерировать обучающие примеры для различных задач машинного обучения, что потенциально снижает затраты и повышает масштабируемость процесса обучения моделей.

В рамках предложенной системы ‘Agent-as-Annotators’ языковые модели (LLM) используются для автоматизации ключевых этапов обучения агентов. Это включает в себя генерацию задач, которые агент должен выполнять, оценку результатов его работы на основе заранее определенных критериев, и последующую корректировку процесса обучения с целью повышения эффективности. LLM выступают в роли динамических генераторов данных, адаптируя сложность и тип задач в зависимости от текущей производительности агента, что позволяет оптимизировать процесс обучения без участия человека и значительно расширить объем доступных тренировочных данных.

Генератор задач является ключевым компонентом системы и использует фазу исследования (Exploration Phase) для анализа веб-среды перед созданием релевантных заданий. Данная фаза включает в себя сбор информации о структуре веб-сайтов, доступных данных и логике взаимодействия с элементами интерфейса. Целью исследования является определение типов задач, которые могут быть эффективно выполнены агентом, а также сбор данных, необходимых для оценки его производительности. Полученная информация используется для автоматической генерации разнообразных и реалистичных задач, адаптированных к конкретной веб-среде и целям обучения агента. Это позволяет избежать создания нерелевантных или невыполнимых задач, повышая эффективность процесса обучения и снижая потребность в ручной настройке.

Обеспечение Качества: Оценка и Уточнение на Основе LLM

Модуль “Судья” (Judge), представляющий собой еще одну языковую модель (LLM), осуществляет оценку производительности агентов посредством “LLM-оценки”. Для обеспечения согласованности и воспроизводимости результатов используются структурированные “Подсказки для оценки” (Evaluation Hints), которые предоставляют четкие критерии и инструкции для анализа ответов агентов. Эти подсказки определяют ожидаемые характеристики качественного ответа и позволяют модели-судье более объективно оценивать работу агента, минимизируя субъективность и обеспечивая стандартизированный подход к оценке.

Процесс итеративной доработки генерации задач, основанный на обратной связи от оценки, формирует самообучающийся цикл. В рамках этого цикла, результаты оценки, полученные от LLM-модуля “Judge”, используются для автоматической корректировки параметров генерации задач. Изменения в параметрах приводят к созданию новых задач, которые затем снова оцениваются, обеспечивая непрерывное улучшение качества генерируемых задач и, как следствие, повышение эффективности обучения агентов. Этот цикл позволяет оптимизировать процесс обучения без необходимости ручной настройки и контроля, что существенно снижает затраты и повышает масштабируемость.

Для создания масштабного набора данных A3-Synth используется подход, исключающий необходимость в дорогостоящей ручной аннотации. Вместо этого, оценка производительности агентов осуществляется другой языковой моделью (модулем ‘Judge’), использующей структурированные ‘Подсказки для оценки’. Полученные данные об оценках автоматически используются для итеративного улучшения процесса генерации задач, формируя самообучающийся цикл и позволяя синтезировать большие объемы данных без привлечения человека-аннотатора. Данный метод позволяет существенно снизить затраты на создание обучающих данных и масштабировать процесс обучения языковых моделей.

Анализ влияния качества учителя на производительность студента в WebArena показал, что Gemini 3 Pro с умеренным уровнем рассуждений обеспечивает наилучшие результаты (41.5%) при обучении модели Qwen3.5-9B, превосходя другие варианты учителей, включая более ранние модели, использованные для обучения Qwen3-VL-8B.
Анализ влияния качества учителя на производительность студента в WebArena показал, что Gemini 3 Pro с умеренным уровнем рассуждений обеспечивает наилучшие результаты (41.5%) при обучении модели Qwen3.5-9B, превосходя другие варианты учителей, включая более ранние модели, использованные для обучения Qwen3-VL-8B.

Оптимизация Производительности LLM и Масштабирование

В процессе оптимизации производительности больших языковых моделей использовалась модель Gemini 3 Pro в качестве учителя, однако для повышения скорости и эффективности генерации данных был применен метод “ограниченного бюджета на рассуждения”. Данный подход предполагает сознанное ограничение времени и вычислительных ресурсов, выделяемых модели для анализа и формирования ответа, что позволяет значительно ускорить процесс создания обучающих данных. Вместо стремления к абсолютному совершенству ответа, акцент делается на генерацию достаточного количества высококачественных примеров для последующего обучения более компактной модели-ученика. Этот прием позволяет добиться значительной экономии ресурсов и времени, не жертвуя при этом качеством генерируемых данных, что особенно важно при масштабировании обучения и развертывании моделей в реальных условиях.

В качестве модели-ученика используется Qwen3.5-9B, которая значительно выигрывает от данных, сгенерированных автоматизированным конвейером. Применение метода контролируемого обучения — ‘Supervised Fine-tuning’ — позволило эффективно адаптировать модель к поставленным задачам, повышая её производительность и точность. Этот подход позволяет достичь высокого уровня понимания и генерации текста, несмотря на относительно небольшой размер модели — всего 9 миллиардов параметров. Обучение на качественных данных, полученных в результате автоматизации, является ключевым фактором, обеспечивающим конкурентоспособность Qwen3.5-9B по сравнению с более крупными моделями, и открывает новые возможности для создания эффективных и доступных решений в области обработки естественного языка.

Использование «Дерева доступности» позволило значительно повысить эффективность взаимодействия агента с веб-средой, что привело к существенному улучшению показателей выполнения задач. В ходе тестирования на бенчмарке WebArena предложенный подход продемонстрировал результат в 41.5% успешных выполнений, превзойдя показатели GPT-4o (31.5%) и Claude 3.5 Sonnet (36.0%). На бенчмарке WorkArena L1 достигнута эффективность в 51.5%, что на 18.2 процентных пункта выше, чем у базовых моделей. Примечательно, что столь высокие результаты были достигнуты с использованием относительно небольшой модели, содержащей всего 9 миллиардов параметров, что демонстрирует её сопоставимую эффективность с гораздо более крупными аналогами.

В задаче WebArena Shopping Admin модель A3-Qwen3.5-9B (зеленый цвет) эффективно находит и обрабатывает ожидающий заказ всего за два действия, в то время как базовая модель Qwen3.5-9B (красный цвет) требует десять действий и возвращает неверный результат.
В задаче WebArena Shopping Admin модель A3-Qwen3.5-9B (зеленый цвет) эффективно находит и обрабатывает ожидающий заказ всего за два действия, в то время как базовая модель Qwen3.5-9B (красный цвет) требует десять действий и возвращает неверный результат.

Исследование демонстрирует, что даже относительно небольшие модели, обученные на тщательно сгенерированных синтетических данных, могут превосходить более крупные аналоги. Это подтверждает идею о том, что структура определяет поведение системы — хорошо спроектированная архитектура, основанная на принципах «агента как аннотатора», позволяет достичь большей эффективности. Как однажды заметил Винтон Серф: «Интернет — это не просто технология, это способ организации информации». Аналогично, представленный подход показывает, что эффективная организация данных и процессов обучения может значительно улучшить производительность агентов, даже при ограниченных вычислительных ресурсах. Если система кажется сложной, она, вероятно, хрупка — и данная работа предлагает элегантное решение для упрощения процесса обучения веб-агентов.

Что дальше?

Представленная работа демонстрирует элегантность подхода к синтезу данных для обучения веб-агентов, однако, как часто бывает, оптимизация одной части системы неизбежно создает новые точки напряжения. Успех модели с 9 миллиардами параметров, превосходящей более крупные аналоги, не является концом пути, а скорее указывает на необходимость переосмысления метрик оценки. Действительно, что значит “обойти” более крупную модель? Не является ли это просто свидетельством неэффективности существующих бенчмарков, а не истинной оптимизацией?

Будущие исследования должны сосредоточиться не только на генерации данных, но и на архитектуре самой системы обучения. Важно понимать, что данные — это лишь материал, а структура определяет поведение. Необходимо разработать более гибкие и адаптивные архитектуры, способные извлекать максимальную пользу из синтетических данных и эффективно обобщать полученные знания. Проблема, однако, заключается в том, что каждая новая оптимизация вносит дополнительную сложность, и, следовательно, увеличивает вероятность возникновения непредсказуемых последствий.

В конечном итоге, задача состоит не в том, чтобы построить “умного” агента, а в том, чтобы создать систему, способную к самообучению и адаптации в постоянно меняющейся среде. Это требует выхода за рамки текущего подхода, основанного на жестко заданных алгоритмах и ограниченных наборах данных. Необходимо признать, что истинный интеллект — это не способность решать конкретные задачи, а способность учиться на собственном опыте и адаптироваться к новым вызовам.


Оригинал статьи: https://arxiv.org/pdf/2604.07776.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-10 13:56