Обучение «умных» интерфейсов: новый подход к созданию агентов для работы с графическим ПО

Автор: Денис Аветисян

Исследователи предлагают эффективный метод обучения агентов, способных взаимодействовать с графическим интерфейсом приложений, используя комбинацию контролируемого обучения и обучения с подкреплением.

Используя лишь ограниченный набор существующих траекторий графических интерфейсов, данная работа решает ключевые ограничения существующих конвейеров обучения посредством курации данных, основанной на рассуждениях, связанных с действиями, обучения с подкреплением с учетом действий и консервативного обучения с подкреплением, что приводит к стабильному улучшению результатов на онлайн-бенчмарках.

GUI-Libra — это фреймворк, объединяющий обучение с учетом действий, консервативное обучение с подкреплением и тщательно подобранный набор данных для создания эффективных агентов GUI, демонстрирующих высокую производительность даже при использовании небольших моделей обработки естественного языка.

Несмотря на значительный прогресс в области искусственного интеллекта, обучение нативных GUI-агентов для решения задач долгосрочной навигации по-прежнему отстает от закрытых систем. В работе ‘GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL’ представлен новый подход, направленный на преодоление этих ограничений за счет разработки специализированного рецепта обучения. Ключевой особенностью GUI-Libra является сочетание контролируемого обучения с учетом действий, консервативного обучения с подкреплением и тщательно подобранного набора данных, что позволяет добиться значительного улучшения точности и успешности выполнения задач. Возможно ли дальнейшее повышение эффективности обучения GUI-агентов за счет более глубокой интеграции данных и алгоритмов обучения?

Проблема Глубины Рассуждений в Автоматизации Графических Интерфейсов

Традиционные системы автоматизации графического интерфейса (GUI) испытывают значительные трудности при выполнении сложных, многошаговых взаимодействий. Проблема заключается в поддержании точной логической цепочки рассуждений на протяжении всей последовательности действий. По мере увеличения числа шагов, даже незначительные ошибки в интерпретации состояния интерфейса или понимании целей приводят к кумулятивному эффекту, снижающему надежность автоматизации. Существующие методы, основанные на жестко заданных правилах или шаблонном сопоставлении, оказываются недостаточно гибкими для адаптации к динамически изменяющимся условиям и непредсказуемому поведению приложений, что ограничивает их применимость в реальных сценариях использования.

Визуально-языковые модели (ВЯМ) демонстрируют многообещающие результаты в автоматизации графических интерфейсов, однако их эффективность часто снижается из-за явления, известного как «деградация привязки». Суть этого феномена заключается в постепенной потере точности и связности по мере увеличения длины цепочки рассуждений. Изначально корректно идентифицированные элементы интерфейса и их взаимосвязи могут быть ошибочно интерпретированы на более поздних этапах взаимодействия, что приводит к ошибкам в выполнении задачи. Эта проблема особенно актуальна для сложных, многошаговых операций, где требуется сохранение контекста и точная последовательность действий, ограничивая возможности агентов, использующих ВЯМ, в решении задач, требующих глубокого и последовательного рассуждения.

Ограничение способности агентов к последовательному и логичному мышлению представляет собой значительную проблему в автоматизации графических интерфейсов. По мере усложнения задачи и увеличения количества шагов, необходимых для её выполнения, точность действий агента снижается, что приводит к ошибкам и неуспешному завершению процесса. Эта тенденция к ухудшению результатов особенно заметна при работе с визуально-языковыми моделями, где потеря точности в определении релевантных элементов интерфейса на протяжении всей последовательности действий препятствует надежному выполнению задач, требующих устойчивого и связного рассуждения. Таким образом, поддержание когерентности и точности на протяжении всего процесса автоматизации является ключевым фактором для создания действительно надежных и эффективных агентов, способных справляться со сложными задачами в интерактивных средах.

Для достижения надёжной автоматизации графических интерфейсов необходимо преодолеть проблему деградации привязки, которая ограничивает способность агентов к последовательному и надёжному рассуждению. Эта деградация проявляется в снижении точности интерпретации визуальной информации по мере усложнения и увеличения длительности последовательности действий. Разработка эффективных решений, способных поддерживать контекст и сохранять точность привязки на протяжении всей задачи, является ключевым фактором для создания автоматизированных систем, способных выполнять сложные, многошаговые операции в графических интерфейсах без потери надёжности и точности. Преодоление данной проблемы позволит значительно расширить возможности автоматизации, открывая путь к созданию интеллектуальных агентов, способных эффективно взаимодействовать с графическими интерфейсами в различных сферах применения.

Анализ точности локализации на ScreenSpot-v2 показал, что увеличение длины ответа коррелирует со снижением точности, что подтверждается как для базовых моделей, так и для моделей, обученных с использованием цепочки мыслей (CoT-SFT), и особенно заметно при использовании чрезмерно длинных цепочек рассуждений.

GUI-Libra: Согласование Рассуждений и Действий

GUI-Libra представляет собой надежный фреймворк для автоматизации графического интерфейса, объединяющий обучение с учетом действий (Action-Aware Supervised Fine-Tuning, ASFT) и консервативное обучение с подкреплением (Reinforcement Learning, RL). ASFT используется для непосредственного устранения проблемы ухудшения привязки к реальности, явно сопоставляя цепочки рассуждений с преднамеренными действиями, гарантируя логическую связь каждого шага с общей целью. Консервативное RL, в свою очередь, повышает стабильность обучения и устойчивость системы за счет использования KL-регуляризации и Success-adaptive Negative Gradient Scaling (SNGS). Комбинирование этих подходов позволяет GUI-Libra достигать высокой точности и надежности при автоматизации задач в графическом интерфейсе.

Метод Action-Aware Supervised Fine-Tuning (ASFT) направлен на решение проблемы деградации привязки (grounding degradation) в автоматизации графического интерфейса. ASFT явно сопоставляет цепочки рассуждений с выполняемыми действиями, гарантируя логическую связь каждого шага с общей целью. Это достигается путем обучения модели на данных, где каждое действие сопровождается соответствующим обоснованием, что позволяет агенту понимать не только что нужно сделать, но и почему, улучшая тем самым точность и надежность автоматизации.

Для повышения стабильности обучения и надежности системы автоматизации GUI используется консервативное обучение с подкреплением, включающее в себя KL-регуляризацию и Success-adaptive Negative Gradient Scaling (SNGS). KL-регуляризация ограничивает отклонение политики от начальной, предотвращая резкие изменения и обеспечивая более плавный процесс обучения. SNGS, в свою очередь, динамически масштабирует градиенты на основе успешности действий, уменьшая их величину при неудачах и увеличивая при успехе. Такой подход позволяет агенту более эффективно исследовать пространство действий и избегать нежелательных стратегий, что приводит к повышению общей производительности и устойчивости к различным условиям работы GUI.

Интеграция Action-Aware Supervised Fine-Tuning (ASFT) и консервативного обучения с подкреплением (RL) в GUI-Libra направлена на существенное повышение точности и надёжности агентов автоматизации графического интерфейса. ASFT обеспечивает более точное соответствие между логическими рассуждениями и выполняемыми действиями, минимизируя ошибки, связанные с ухудшением согласованности. Использование KL-регуляризации и Success-adaptive Negative Gradient Scaling (SNGS) в консервативном RL стабилизирует процесс обучения, предотвращая отклонения и обеспечивая устойчивость агента к различным условиям работы и непредсказуемым ситуациям в графическом интерфейсе, что в совокупности приводит к снижению количества неудачных попыток автоматизации и повышению общей производительности.

Обучение GUI-Libra состоит из двух этапов: на первом применяется обучение с подкреплением на основе действий и смешанного контроля с перевзвешиванием токенов, а на втором - GRPO с KL-регуляризацией и масштабированием отрицательного градиента, адаптированным к успеху. — Обучение GUI-Libra состоит из двух этапов: на первом применяется обучение с подкреплением на основе действий и смешанного контроля с перевзвешиванием токенов, а на втором — GRPO с KL-регуляризацией и масштабированием отрицательного градиента, адаптированным к успеху.

Обогащение и Валидация Данных для Надёжности

Обучение GUI-Libra осуществляется на специально сформированном датасете GUI-Libra-81K, содержащем 81 тысячу шагов взаимодействия с графическим интерфейсом. Ключевой особенностью датасета является наличие детальных рассуждений в формате Chain-of-Thought (CoT) для каждого шага, что позволяет модели понимать не только действия пользователя, но и логику, лежащую в основе этих действий. Это обеспечивает широкое покрытие сложных сценариев взаимодействия с GUI и способствует формированию у модели способности к решению разнообразных задач.

Для расширения обучающего набора данных и повышения обобщающей способности модели GUI-Libra используются методы аугментации данных. Эти методы позволяют генерировать дополнительные примеры, варьируя существующие данные, что способствует улучшению устойчивости агента к различным сценариям и условиям. Применяемые техники могут включать незначительные модификации изображений, такие как повороты, масштабирование и изменение яркости, а также генерацию новых, но реалистичных данных, основанных на существующих примерах. Это позволяет модели более эффективно адаптироваться к незнакомым ситуациям и повышает её надёжность при взаимодействии с графическими интерфейсами.

Для обеспечения качества данных в GUI-Libra используются методы фильтрации по согласованию (Agreement Filtering) и выравнивания координат (Coordinate Alignment). Фильтрация по согласованию позволяет отсеивать зашумленные образцы путём анализа согласованности аннотаций, полученных от нескольких аннотаторов. Выравнивание координат корректирует и верифицирует точность ограничивающих рамок (bounding boxes), обеспечивая корректное определение местоположения элементов пользовательского интерфейса на изображениях. Эти процедуры направлены на повышение надежности и точности обучения модели, минимизируя влияние неточных или противоречивых данных.

Тщательные этапы предварительной обработки данных, включающие фильтрацию по согласованию и выравнивание координат, критически важны для повышения устойчивости и надёжности фреймворка GUI-Libra. Применение этих методов позволяет исключить зашумленные примеры и подтвердить точность предсказаний ограничивающих рамок, что напрямую влияет на способность агента к обобщению и корректной работе в различных сценариях взаимодействия с пользовательским интерфейсом. Устранение неточных данных обеспечивает более стабильные и предсказуемые результаты, снижая вероятность ошибок при выполнении сложных GUI-операций.

В GUI-Libra-81K каждый образец данных включает текущее визуальное наблюдение (скриншот) и текстовый контекст (системное сообщение, инструкцию пользователя и историю взаимодействия), а вывод модели состоит из логической цепочки рассуждений (CoT) и структурированного исполняемого действия в формате JSON, включающего тип действия, описание, целевой элемент и аргументы, такие как текст или координаты.

Влияние и Перспективы Развития

Возможность GUI-Libra смягчать проблему «потери привязки к реальности» (grounding degradation) и углублять ход рассуждений открывает принципиально новые горизонты в автоматизации графических интерфейсов. Данная система позволяет агентам успешно справляться со все более сложными задачами, требующими не просто последовательного выполнения действий, но и понимания контекста и логической связи между ними. Устраняя проблему разрыва между рассуждениями и фактическими действиями в интерфейсе, GUI-Libra обеспечивает более надежное и предсказуемое поведение агента, позволяя ему адаптироваться к изменяющимся условиям и находить оптимальные решения даже в сложных сценариях взаимодействия с приложениями.

В основе GUI-Libra лежит принцип выравнивания действий, который обеспечивает устойчивость рассуждений и предсказуемость поведения агента. Этот подход гарантирует, что каждое логическое заключение тесно связано с конкретным действием, направленным на взаимодействие с графическим интерфейсом. Вместо абстрактных умозаключений, система фокусируется на последовательности операций, которые необходимо выполнить для достижения поставленной цели. Такое выравнивание не только снижает вероятность ошибок, вызванных нерелевантными рассуждениями, но и позволяет агенту более эффективно адаптироваться к изменяющимся условиям и непредвиденным ситуациям в процессе автоматизации. В результате, GUI-Libra демонстрирует повышенную надежность и стабильность в выполнении сложных задач, требующих точного и последовательного взаимодействия с пользовательским интерфейсом.

Результаты, полученные на бенчмарке AndroidWorld, демонстрируют впечатляющую эффективность GUI-Libra-8B: модель достигла 42.6% успеха при выполнении задач автоматизации интерфейса. Этот показатель особенно значим, поскольку GUI-Libra-8B превосходит по производительности более крупные языковые модели, что свидетельствует об оптимальности архитектуры и методов обучения, используемых в данной работе. Достижение высокого процента успешных действий подтверждает потенциал модели для решения сложных задач автоматизации мобильных устройств и открывает новые перспективы для создания интеллектуальных агентов, способных взаимодействовать с графическим интерфейсом пользователя на продвинутом уровне.

Исследования показали, что GUI-Libra демонстрирует выдающиеся результаты, достигая наивысшего зарегистрированного показателя Pass@1 на двух ключевых бенчмарках — AndroidControl-v2 и MM-Mind2Web-v2. Данный результат свидетельствует о превосходстве разработанного фреймворка в задачах автоматизации графического интерфейса по сравнению с существующими аналогами. Превышение показателей, достигнутых другими моделями на этих платформах, подтверждает способность GUI-Libra эффективно справляться со сложными сценариями взаимодействия с пользовательским интерфейсом и принимать обоснованные решения для достижения поставленных целей. Высокий показатель Pass@1 указывает на то, что система успешно выполняет поставленные задачи с первого же раза в значительном количестве случаев, что является важным критерием оценки надежности и эффективности автоматизированных агентов.

Данная работа закладывает основу для дальнейших исследований, направленных на интеграцию более сложных методов рассуждения и создание ещё более надежных и интеллектуальных агентов для автоматизации графического интерфейса пользователя. Перспективы включают в себя изучение новых архитектур, способных к более глубокому пониманию контекста и адаптации к изменяющимся условиям. Особый интерес представляет разработка систем, способных к обучению с подкреплением и самостоятельному обнаружению оптимальных стратегий взаимодействия с интерфейсом. Исследования в данной области могут привести к созданию агентов, способных не только выполнять заранее определенные задачи, но и самостоятельно решать сложные проблемы, возникающие в процессе взаимодействия с пользовательским интерфейсом, открывая новые возможности для автоматизации рутинных операций и повышения эффективности работы с мобильными устройствами и компьютерами.

Обучение с подкреплением для заземления демонстрирует стабильное улучшение и высокую предсказуемость результатов на различных бенчмарках, как показано на графиках производительности ScreenSpot-V2 и ScreenSpot-Pro ([a] и [b]), а также на корреляции между оценками на этих бенчмарках ([c]), причем использование KL-регуляризации ([d]) не оказывает существенного влияния на корреляцию Пирсона и Спирмена.

Исследование демонстрирует, что эффективное управление сложностью систем напрямую влияет на их производительность. Как отмечает Г.Х. Харди: «Чистая математика — это не просто набор результатов, а система логически связанных идей». GUI-Libra, представляя собой фреймворк для создания GUI-агентов, воплощает эту идею, объединяя контролируемое обучение с подкреплением и тщательно отобранный набор данных. Подобно тому, как математическая система требует внутренней согласованности, GUI-Libra подчеркивает важность согласованности между различными компонентами для достижения оптимальной работы агента. Фокус на согласованности и структуре позволяет создавать более надежные и предсказуемые системы, даже при использовании относительно небольших языковых моделей.

Куда же дальше?

Представленная работа, несомненно, демонстрирует элегантность подхода к созданию агентов для графических интерфейсов. Однако, подобно любому механизму, требующему тонкой настройки, остаются вопросы, требующие осмысления. Необходимо помнить, что обучение агента — это не просто сборка отдельных компонентов, а понимание всей системы взаимодействия. Данный фреймворк, хотя и эффективен с небольшими языковыми моделями, все еще сталкивается с ограничениями масштабируемости. Что произойдет, когда потребуется управлять более сложными, многослойными интерфейсами, требующими более глубокого понимания контекста?

Проблема курации данных, несмотря на достигнутые успехи, остается центральной. Создание идеального набора обучающих примеров — задача, граничащая с утопией. Необходимо исследовать методы автоматической генерации данных, способные адаптироваться к меняющимся требованиям и избегать предвзятости. Более того, следует обратить внимание на вопрос обобщения — насколько хорошо обученный агент сможет адаптироваться к новым, ранее невиданным интерфейсам? Ведь пересадка «сердца» без понимания «кровотока» всего приложения — рискованное предприятие.

В конечном итоге, будущее исследований лежит в направлении создания агентов, способных к самообучению и адаптации, не требующих постоянного вмешательства человека. Необходимо стремиться к системам, которые не просто выполняют заданные инструкции, но и способны понимать намерения пользователя и предвидеть его потребности. Иначе, рискуем создать лишь сложный инструмент, лишенный истинного интеллекта.

Оригинал статьи: https://arxiv.org/pdf/2602.22190.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-27 00:22

🚀 Квантовые новости