Самообучающийся агент для автоматизации GUI: новый подход

Автор: Денис Аветисян


Исследователи представили UI-Voyager — систему, способную самостоятельно осваивать управление графическим интерфейсом пользователя, используя опыт неудачных попыток.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Интерфейс UI-Voyager (4B) демонстрирует впечатляющую эффективность в автоматизации Android, достигая 81.0% успеха в выполнении задач (Pass@1), превосходя более крупные модели и устанавливая новый стандарт, превышающий показатели человеческой производительности.
Интерфейс UI-Voyager (4B) демонстрирует впечатляющую эффективность в автоматизации Android, достигая 81.0% успеха в выполнении задач (Pass@1), превосходя более крупные модели и устанавливая новый стандарт, превышающий показатели человеческой производительности.

UI-Voyager использует обучение с подкреплением, самодистилляцию и анализ точек разветвления траекторий для достижения передовых результатов на бенчмарке AndroidWorld.

Несмотря на прогресс в области мультимодальных больших языковых моделей, обучение автономных GUI-агентов остается сложной задачей из-за неэффективного использования неудачных траекторий и проблем с назначением ответственности при разреженных наградах. В данной работе, представленной под названием ‘UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience’, предлагается новый двухэтапный подход к обучению саморазвивающихся мобильных GUI-агентов. Ключевым нововведением является использование метода Rejection Fine-Tuning (RFT) для непрерывной совместной эволюции данных и моделей, а также Group Relative Self-Distillation (GRSD) для построения плотного пошагового обучения на основе успешных траекторий. Достигнутая на бенчмарке AndroidWorld эффективность — 81.0% Pass@1 — превосходит существующие аналоги и демонстрирует производительность, сравнимую с человеческой, — но сможет ли этот подход масштабироваться для решения еще более сложных задач автоматизации GUI?


Растущая потребность в адаптивных GUI-агентах

Растущий спрос на автоматизацию мобильных приложений обуславливает необходимость в создании надежных и адаптивных GUI-агентов. Современные пользователи ожидают бесперебойной работы приложений и быстрого решения задач, что требует автоматизации рутинных процессов, таких как тестирование, ввод данных и взаимодействие с интерфейсом. Однако, из-за постоянных изменений в дизайне приложений и разнообразия устройств, традиционные методы автоматизации часто оказываются неэффективными. Поэтому, для удовлетворения потребностей рынка, разрабатываются интеллектуальные системы, способные адаптироваться к новым условиям и обеспечивать стабильную работу автоматизированных процессов, даже при изменении внешнего вида или функциональности приложения.

Традиционные подходы к автоматизации тестирования мобильных приложений зачастую сталкиваются со значительными трудностями, обусловленными сложностью и изменчивостью современных пользовательских интерфейсов. Разработчики постоянно внедряют новые элементы дизайна, динамически изменяющиеся макеты и разнообразные способы взаимодействия, что делает создание надежных и устойчивых к изменениям автоматизированных тестов особенно сложной задачей. В отличие от статических веб-приложений, мобильные интерфейсы характеризуются высокой степенью адаптивности к различным размерам экранов и ориентациям устройства, что требует от автоматизированных систем способности к адаптации и распознаванию элементов интерфейса в различных контекстах. Кроме того, частое обновление приложений и изменение их функциональности приводят к тому, что разработанные тесты быстро устаревают и требуют постоянной поддержки и переработки, что существенно увеличивает затраты на автоматизацию.

Существующие методы автоматизации графических интерфейсов часто демонстрируют ограниченную способность к обобщению, сталкиваясь с трудностями при выполнении разнообразных задач и адаптации к изменяющимся дизайнам приложений. Традиционные подходы, как правило, жестко привязаны к конкретным элементам интерфейса и последовательностям действий, что делает их неэффективными при незначительных изменениях в приложении или при необходимости выполнения новых операций. Это создает потребность в разработке более интеллектуальных систем, способных к динамическому анализу интерфейса, распознаванию элементов и адаптации к различным сценариям использования. В частности, требуются решения, которые могут самостоятельно обучаться и совершенствоваться, чтобы справляться с постоянно меняющейся средой мобильных приложений и обеспечивать надежную и гибкую автоматизацию.

Обучение UI-Voyager для мобильных GUI задач осуществляется в два этапа: сначала отбираются качественные траектории с помощью правила-основанной проверки (<span class="katex-eq" data-katex-display="false">\pi_{m}</span>), а затем происходит уточнение политики с использованием метода групповой относительной самодистилляции (GRSD), который выявляет точки расхождения успешных и неудачных траекторий на основе SSIM-сопоставления и корректирует ошибочные действия.
Обучение UI-Voyager для мобильных GUI задач осуществляется в два этапа: сначала отбираются качественные траектории с помощью правила-основанной проверки (\pi_{m}), а затем происходит уточнение политики с использованием метода групповой относительной самодистилляции (GRSD), который выявляет точки расхождения успешных и неудачных траекторий на основе SSIM-сопоставления и корректирует ошибочные действия.

MLLM: Новый фундамент взаимодействия с GUI

Мультимодальные большие языковые модели (MLLM) представляют собой перспективную основу для создания интеллектуальных агентов взаимодействия с графическим интерфейсом пользователя (GUI). В отличие от традиционных моделей, которые обрабатывают только текст, MLLM способны одновременно анализировать как визуальную информацию (например, скриншоты GUI), так и текстовые запросы. Это достигается за счет интеграции моделей компьютерного зрения и обработки естественного языка, что позволяет MLLM понимать контекст пользовательского интерфейса и коррелировать визуальные элементы с соответствующими действиями. Такой подход позволяет агентам не только распознавать объекты на экране, но и интерпретировать их функции и взаимосвязи, обеспечивая более эффективное и интуитивное взаимодействие с пользователем.

Многомодальные большие языковые модели (MLLM) позволяют эффективно сопоставлять визуальные элементы графического интерфейса пользователя (GUI) с соответствующими действиями, необходимыми для взаимодействия с ними. Это достигается за счет анализа визуального представления элемента — например, кнопки, текстового поля или иконки — и определения, какое действие связано с этим элементом в контексте приложения. MLLM способны идентифицировать тип элемента, его состояние (активен, неактивен, выбран и т.д.) и текстовую метку, что позволяет им точно определить, какое действие следует выполнить — например, клик, ввод текста, прокрутка или выбор опции. Такое сопоставление позволяет агентам автоматизировать взаимодействие с GUI, выполняя задачи на основе естественного языка, без необходимости явного программирования каждого действия.

Основываясь на визуальном контексте, мультимодальные большие языковые модели (MLLM) позволяют агентам выполнять задачи более естественным и интуитивно понятным способом. Традиционные языковые модели обрабатывают только текстовые инструкции, что требует точного и однозначного формулирования запросов. MLLM, напротив, способны интерпретировать инструкции, связанные с визуальными элементами графического интерфейса, что позволяет пользователям взаимодействовать с системой, используя более свободный и естественный язык. Например, вместо точной команды «нажать кнопку ‘Сохранить'», пользователь может сказать «сохрани этот файл», и MLLM, основываясь на визуальном контексте, определит соответствующую кнопку и выполнит действие. Это значительно упрощает взаимодействие и снижает когнитивную нагрузку на пользователя.

Определение границ возможностей агента: Пространство действий

Пространство действий (Action Space) представляет собой полный набор взаимодействий, которые может выполнять агент в программной среде. Данный набор включает в себя, но не ограничивается, касаниями (taps), смахиваниями (swipes), вводом текста и другими типами операций, доступными в графическом интерфейсе пользователя (GUI). Каждое возможное действие, которое агент способен выполнить, является частью этого пространства, определяя границы его взаимодействия с системой и формируя основу для разработки и обучения.

Четко определенное пространство действий имеет решающее значение для эффективного исследования и решения сложных задач агентом в графическом пользовательском интерфейсе (GUI). Неоднозначность или неполнота в определении доступных действий приводит к неэффективному поиску оптимальных стратегий, увеличению времени обучения и снижению общей производительности агента. Ограниченное или некорректно заданное пространство действий может исключить потенциальные решения задачи, в то время как избыточное количество нерелевантных действий увеличивает сложность обучения и снижает его скорость. Точное определение пространства действий позволяет агенту систематически исследовать возможные варианты и находить наиболее эффективные решения в рамках заданного GUI.

Четко определенное пространство действий позволяет проводить систематическое тестирование и усовершенствование поведения агента. Это достигается путем последовательного применения различных действий из пространства и анализа полученных результатов. Итеративный процесс тестирования и доработки позволяет выявлять ошибки, оптимизировать алгоритмы и повышать эффективность агента в решении поставленных задач. В результате, агент демонстрирует улучшенную производительность и устойчивость к различным условиям и изменениям в пользовательском интерфейсе.

AndroidWorld: Строгий тест для автоматизации GUI

AndroidWorld представляет собой всесторонний эталон, состоящий из 116 разнообразных задач, связанных с взаимодействием с графическим интерфейсом мобильных устройств. Этот эталон разработан для обеспечения реалистичной оценки эффективности агентов, имитирующих действия пользователя. Задачи охватывают широкий спектр сценариев, от простых операций, таких как нажатие кнопки, до сложных многошаговых процедур, требующих последовательного выполнения действий. Разнообразие представленных сценариев позволяет комплексно оценить способность агента к адаптации и решению задач в условиях, максимально приближенных к реальному использованию мобильных приложений. Акцент сделан на проверку способности агента обобщать полученные знания и применять их к новым, ранее не встречавшимся задачам, что делает AndroidWorld ценным инструментом для развития и оценки систем автоматизации GUI.

Комплекс задач AndroidWorld специально разработан для всесторонней проверки возможностей агентов в автоматизации графического интерфейса. От простых действий, таких как открытие приложения, до сложных, многоэтапных процедур, требующих последовательного выполнения нескольких шагов, набор задач подвергает агента серьёзным испытаниям. Именно разнообразие и возрастающая сложность процедур позволяют оценить способность агента к рассуждению, планированию и адаптации к новым ситуациям, выявляя ограничения существующих подходов и стимулируя разработку более интеллектуальных и гибких систем автоматизации.

Модель UI-Voyager продемонстрировала впечатляющие результаты на бенчмарке AndroidWorld, достигнув 81.0%-ной успешности (Pass@1) при выполнении 116 разнообразных задач автоматизации графического интерфейса. Этот показатель превосходит все существующие базовые модели и соответствует уровню производительности человека, который в данном тесте составил 80.0%. Особенно примечательно, что UI-Voyager достигает таких результатов, используя относительно компактную архитектуру всего с 4 миллиардами параметров, что делает её эффективным решением для автоматизации мобильных интерфейсов и открывает возможности для её применения на устройствах с ограниченными ресурсами.

Итеративное самообучение (RFT) значительно повышает эффективность агента, демонстрируя устойчивый рост метрик Pass@1 и Pass@k, в то время как прямое применение алгоритмов обучения с подкреплением к модели Qwen3-VL-4B-Instruct даёт незначительный прирост и требует больших затрат данных.
Итеративное самообучение (RFT) значительно повышает эффективность агента, демонстрируя устойчивый рост метрик Pass@1 и Pass@k, в то время как прямое применение алгоритмов обучения с подкреплением к модели Qwen3-VL-4B-Instruct даёт незначительный прирост и требует больших затрат данных.

Исследование представляет собой элегантный пример применения самообучения и дистилляции знаний, позволяющий агенту UI-Voyager эффективно осваивать сложные задачи автоматизации графического интерфейса. Система, анализируя неудачные траектории, выявляет критические точки и совершенствует свою стратегию. В этом процессе проявляется закономерность, которую точно подметила Барбара Лисков: «Программы должны быть спроектированы так, чтобы изменения в одной части не приводили к неожиданным последствиям в других». UI-Voyager, подобно хорошо спроектированной системе, способен адаптироваться и улучшаться, минимизируя влияние ошибок и оптимизируя процесс обучения через анализ ‘форк-поинтов’ и самодистилляцию.

Что дальше?

Представленная работа демонстрирует эффективность обучения агентов взаимодействия с графическим интерфейсом через анализ неудачных траекторий. Однако, стоит задаться вопросом: а что, если сама концепция «успеха» в AndroidWorld — лишь искусственно заданная метрика? Что произойдёт, если агент, обученный на максимизацию этой метрики, обнаружит обходные пути, не предусмотренные разработчиками, но приводящие к формальному выполнению задачи? И станет ли тогда такая «оптимизация» действительно решением, или лишь эксплуатацией слабости системы?

Самодистилляция, безусловно, улучшает приписывание заслуг, но она же подразумевает неявное принятие определённой иерархии знаний. Что, если агент, получив «уроки» от самого себя, зафиксируется в локальном оптимуме, неспособном к радикальным инновациям? Возможно, стоит исследовать методы обучения, основанные не на самосовершенствовании, а на намеренном внесении хаоса в процесс обучения, чтобы вынудить агента искать решения за пределами известных шаблонов.

И наконец, стоит задуматься о масштабируемости. Способность агента к обучению на мобильных платформах — это лишь первый шаг. А что, если применить эти принципы к более сложным системам, таким как автоматизированные научные открытия или разработка программного обеспечения? Сможет ли агент, научившийся «ломать» AndroidWorld, взломать саму реальность, или же он навсегда останется пленником заданных ограничений?


Оригинал статьи: https://arxiv.org/pdf/2603.24533.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 01:44