Смартфоны под контролем: новый тест для ИИ-агентов

Автор: Денис Аветисян

Исследователи представили комплексную платформу для оценки способности искусственного интеллекта взаимодействовать со смартфонами, используя звук, видео и изображения одновременно.

В рамках разработанного эталона OmniGUI, агент графического интерфейса взаимодействует со смартфоном, обрабатывая последовательность мультимодальных сигналов - скриншоты, аудио и короткие видеоклипы - для выполнения инструкций, при этом эффективность оценивается по метрикам соответствия типу и точности действий по сравнению с демонстрациями человека. — В рамках разработанного эталона OmniGUI, агент графического интерфейса взаимодействует со смартфоном, обрабатывая последовательность мультимодальных сигналов — скриншоты, аудио и короткие видеоклипы — для выполнения инструкций, при этом эффективность оценивается по метрикам соответствия типу и точности действий по сравнению с демонстрациями человека.

Представлен OmniGUI — эталонный набор данных и протокол оценки GUI-агентов в условиях омни-модального взаимодействия со смартфонами.

Существующие бенчмарки для агентов, взаимодействующих с графическим интерфейсом, в основном полагаются на статические скриншоты, игнорируя динамику реального взаимодействия со смартфоном. В работе ‘OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments’ представлен новый эталонный набор данных и протокол оценки, позволяющий оценить способность агентов понимать и реагировать на непрерывные, взаимосвязанные визуальные, звуковые и видео сигналы. Полученные результаты демонстрируют, что текущие модели испытывают трудности в выполнении действий, требующих синхронной обработки временных и слуховых сигналов, особенно в условиях отвлекающего шума. Какие стратегии позволят создать более надежные и адаптивные агенты для автоматизации взаимодействия со смартфонами в реальных условиях?

Хрупкость Автоматизации: Проблема Реального Взаимодействия

Современные системы автоматизации графического интерфейса пользователя зачастую полагаются на хрупкие эвристические правила, что делает их крайне уязвимыми к изменениям в оформлении или структуре приложений. Такой подход особенно проблематичен при работе с динамическими интерфейсами, где элементы управления и их расположение могут меняться в зависимости от контекста или действий пользователя. В результате, даже незначительные обновления приложений могут привести к полной неработоспособности автоматизированных сценариев, требуя постоянной перенастройки и поддержки. Это ограничивает практическое применение подобных систем в реальных условиях, где интерфейсы постоянно эволюционируют и адаптируются.

Современные системы автоматизации графического интерфейса зачастую демонстрируют недостаточную когнитивную гибкость при взаимодействии со смартфонами в реальных условиях. Особенную сложность представляет обработка многомодального ввода — сочетания визуальной информации, звука и семантического анализа. Существующие алгоритмы, как правило, испытывают затруднения при интерпретации намерений пользователя, если интерфейс приложения меняется, или если ввод осуществляется не только касанием экрана, но и голосовыми командами или жестами. В результате, такие системы часто оказываются неспособными адаптироваться к динамически меняющимся условиям и требуют постоянной перенастройки, что ограничивает их практическое применение в повседневной жизни.

Для эффективного взаимодействия со смартфонами в реальных условиях, крайне необходимы агенты, способные объединять визуальную, слуховую и семантическую информацию для точного определения намерений пользователя. Современные системы часто опираются на отдельные модальности, что приводит к ошибкам при сложных сценариях, где контекст и неявные сигналы играют решающую роль. Агенты, способные анализировать не только то, что видно на экране, но и голосовые команды, а также понимать смысл происходящего, смогут адаптироваться к динамически меняющимся интерфейсам и непредсказуемому поведению пользователя. Такой подход позволит создавать более интуитивные и надежные системы автоматизации, способные решать сложные задачи и предоставлять пользователю действительно полезную помощь.

Ограниченность существующих методов автоматизации графического интерфейса подчеркивает настоятельную потребность в создании более надежных и приспосабливаемых агентов. Современные системы часто оказываются неспособными эффективно функционировать в динамичной среде реальных пользовательских интерфейсов, что приводит к нестабильной работе и ошибкам. Необходимость в адаптивности обусловлена постоянно меняющимися макетами приложений, различными разрешениями экранов и индивидуальными предпочтениями пользователей. Разработка интеллектуальных агентов, способных к самостоятельному обучению и адаптации к новым условиям, представляется ключевым шагом к созданию действительно удобных и эффективных систем автоматизации, способных решать сложные задачи взаимодействия с мобильными устройствами и освободить пользователей от рутинных операций.

Анализ датасета OmniGUI, включающего 709 эпизодов и 2579 шагов взаимодействия с 29 приложениями для смартфонов, показывает распределение данных по приложениям, задачам, основанным на принципах взаимодействия человека и компьютера, а также по уровням мультимодальной зависимости, определяемым доступностью информации в графическом интерфейсе.

OmniGUI: Строгий Мультимодальный Тест

Основой OmniGUI является комплексный набор задач, предназначенных для оценки агентов, способных обрабатывать непрерывные, взаимопереплетенные мультимодальные входные данные в реалистичной среде смартфона. Это означает, что агенты подвергаются воздействию одновременных входных данных, таких как визуальные данные с экрана, тактильные ощущения от касаний, и звуковые сигналы, требуя интеграции и обработки всей этой информации для успешного выполнения задач. Среда эмулирует типичное использование смартфона, включая навигацию по интерфейсу, взаимодействие с приложениями и выполнение специфических действий, что позволяет оценить производительность агента в условиях, максимально приближенных к реальным.

Бенчмарк OmniGUI реализован на базе операционной системы Android и предназначен для оценки способности агентов ориентироваться в графических пользовательских интерфейсах (GUI) и взаимодействовать с ними. В рамках бенчмарка определено строгое пространство действий (Action Space), ограничивающее возможные действия агента и позволяющее проводить количественную оценку его эффективности. Это пространство включает в себя набор дискретных команд, таких как нажатия на элементы интерфейса, прокрутка списков и ввод текста, что позволяет точно измерить способность агента к выполнению конкретных задач в рамках GUI.

В отличие от задач, ограничивающихся распознаванием действий, OmniGUI требует от агентов развитых когнитивных способностей, в частности, временного рассуждения и локализации. Временное рассуждение необходимо для обработки последовательностей действий и понимания их взаимосвязи во времени, поскольку выполнение задач часто зависит от порядка операций. Локализация, в свою очередь, подразумевает определение текущего контекста и позиции агента внутри графического интерфейса, что критически важно для корректного выполнения действий, направленных на конкретные элементы. Таким образом, успех в OmniGUI требует не просто идентификации действий, но и понимания их взаимосвязи во времени и пространстве внутри GUI.

В отличие от существующих бенчмарков, основанных на синтетических наборах данных, OmniGUI использует сценарии, приближенные к реальным условиям использования мобильных устройств. Это позволяет оценить возможности агентов в более сложных и непредсказуемых ситуациях, характерных для взаимодействия пользователя с графическим интерфейсом смартфона. Акцент на реалистичных сценариях требует от агентов не только распознавания действий, но и адаптации к изменениям в визуальном окружении, шуму, а также к неполной или зашумленной информации, что значительно расширяет границы тестирования и способствует развитию более надежных и универсальных GUI-агентов.

Анализ областей компетенций моделей показывает, что они демонстрируют лучшие результаты в задачах статической локализации по сравнению с временным рассуждением и кросс-модальной дискриминацией, при этом производительность снижается по мере усложнения задач и увеличения зависимости от мультимодальных данных <span class="katex-eq" data-katex-display="false"> (AV-Present ightarrow AV-Critical) </span>, что подтверждает необходимость механизмов мультимодального восприятия. — Анализ областей компетенций моделей показывает, что они демонстрируют лучшие результаты в задачах статической локализации по сравнению с временным рассуждением и кросс-модальной дискриминацией, при этом производительность снижается по мере усложнения задач и увеличения зависимости от мультимодальных данных $(AV-Present ightarrow AV-Critical)$ , что подтверждает необходимость механизмов мультимодального восприятия.

Оценка Когнитивных Способностей с Помощью OmniGUI

Оценка агентов в OmniGUI проводится по ключевым когнитивным параметрам, включая семантическое понимание и мгновенную реакцию на преходящие сигналы. Семантическое понимание относится к способности агента интерпретировать значение команд и элементов графического интерфейса, в то время как мгновенная реакция на преходящие сигналы подразумевает способность оперативно обрабатывать и реагировать на временные изменения в визуальном или звуковом окружении. Эти параметры критически важны для успешной автоматизации GUI, поскольку требуют от агента не только распознавания объектов, но и понимания их контекста и динамического изменения состояния.

Оценка в OmniGUI специально сконцентрирована на кросс-модальной дискриминации — способности агента объединять и интерпретировать информацию, поступающую из различных сенсорных каналов. Задачи в бенчмарке разработаны таким образом, чтобы проверить, насколько эффективно система сопоставляет данные, полученные из визуальных и аудиальных источников, для принятия корректных решений. Это включает в себя обработку одновременных стимулов, поступающих по разным модальностям, и интеграцию этих данных для формирования целостного представления о ситуации, необходимого для автоматизации задач графического интерфейса.

Оценка в OmniGUI включает в себя задачи, критически зависящие от аудио- и видеовхода (AV-Critical Tasks), где корректный выбор действия напрямую обусловлен обработкой этих модальностей. В рамках этих задач, агенту необходимо анализировать аудио- или видеоданные для определения необходимого действия в графическом интерфейсе пользователя. Отсутствие или некорректная интерпретация аудио- или видеоинформации приводит к ошибкам в выполнении задачи, что позволяет оценить способность агента к интеграции и использованию мультимодальных данных для автоматизации GUI.

Оценка производительности в OmniGUI осуществляется с использованием метрик Type Match (TM) и Exact Match (EM). Type Match определяет, соответствует ли тип предпринятого действия ожидаемому, в то время как Exact Match требует полного совпадения предпринятого действия с эталонным. На сложных задачах автоматизации графического интерфейса, современные модели демонстрируют общий показатель Exact Match (EM) в 66.4%. Данный показатель отражает способность агентов к точному выполнению задач в условиях, требующих интерпретации и взаимодействия с графическим интерфейсом.

Анализ производительности Gemini 3.0 Pro по различным приложениям, отсортированным по показателю точного соответствия (<span class="katex-eq" data-katex-display="false">EM</span>), демонстрирует, что сложность приложений варьируется относительно средних значений по бенчмарку, при этом объём выборки (эпизоды/шаги) для каждого приложения представлен на правой оси. — Анализ производительности Gemini 3.0 Pro по различным приложениям, отсортированным по показателю точного соответствия ( $EM$ ), демонстрирует, что сложность приложений варьируется относительно средних значений по бенчмарку, при этом объём выборки (эпизоды/шаги) для каждого приложения представлен на правой оси.

Преодоление Помех и Перспективы Развития

Анализ показал, что аудиовизуальные помехи способны существенно снижать эффективность выполнения сложных задач с графическим интерфейсом пользователя. Это выражается в заметном ухудшении точности и скорости работы, что требует разработки надежных механизмов фильтрации входящих сенсорных данных. Неспособность агента эффективно отсеивать отвлекающие факторы приводит к ошибкам при взаимодействии с интерфейсом, особенно в условиях высокой когнитивной нагрузки. В связи с этим, актуальной задачей является создание систем, способных динамически оценивать релевантность поступающей информации и подавлять нежелательные сигналы, обеспечивая стабильную и точную работу в шумной среде.

Исследования подчеркивают критическую важность способности агентов к эффективной фильтрации сенсорной информации и подавлению отвлекающих факторов. В сложных ситуациях, требующих взаимодействия с графическим интерфейсом, перегрузка данными может существенно снизить производительность. Способность выделять релевантные стимулы и игнорировать несущественные является ключевым фактором для обеспечения надежной и эффективной работы агента. Таким образом, разработка механизмов, позволяющих агентам динамически оценивать значимость входящей информации и адаптировать свои стратегии обработки данных, представляется перспективным направлением для повышения их устойчивости и эффективности в реальных условиях.

Платформа OmniGUI представляет собой ценный инструмент для разработки и оценки стратегий, направленных на повышение устойчивости агентов к помехам. Исследования показали, что удаление аудио- и видеовходов в задачах, критичных к аудиовизуальной информации (AV-Critical), приводит к снижению показателя точного соответствия (Exact Match) на 10.5%. Это подчеркивает важность разработки эффективных механизмов фильтрации и приоритезации сенсорных данных для обеспечения надежной работы агентов в сложных условиях. Возможности OmniGUI позволяют исследователям тестировать различные подходы к подавлению отвлекающих факторов и повышению устойчивости агентов к помехам, что делает её незаменимым ресурсом в данной области.

В дальнейшем планируется внедрение механизмов внимания и динамической оценки важности сенсорных данных для повышения эффективности работы в зашумленных средах. Исследования будут направлены на разработку алгоритмов, позволяющих агентам автоматически определять наиболее релевантную информацию и подавлять отвлекающие факторы, подобно тому, как это делает человеческий мозг. Ожидается, что динамическое взвешивание сенсорных каналов — увеличение значимости визуальной информации при ее высокой надежности и снижение при наличии помех — позволит значительно улучшить устойчивость агентов к внешним воздействиям и повысить точность выполнения сложных задач в условиях реального мира. Такой подход позволит создать более адаптивные и надежные системы, способные эффективно функционировать в разнообразных и непредсказуемых условиях.

Анализ ошибок Gemini 3.0 Pro выявил проблемы с обработкой звуковых сигналов (игнорирование кратковременных изменений звука) и с привязкой действий к конкретным координатам на экране, несмотря на общее понимание контекста.

Исследование OmniGUI, представляющее новый набор данных для оценки GUI-агентов, закономерно выявляет ограничения в мультимодальном выполнении действий. Авторы, конечно, надеются на прорыв в области интерактивных сред, но опыт подсказывает: красивые диаграммы и обещания «бесконечной масштабируемости» — это лишь начало долгого пути к реальной стабильности. Как заметил Давид Гильберт: «В математике нет трамплина; нужно карабкаться». То же самое и здесь: за каждым новым набором данных скрывается необходимость в тщательной отладке и преодолении технических сложностей. OmniGUI — это ещё один шаг, и, вероятно, не последний, в бесконечном цикле разработки и улучшения GUI-агентов.

Что дальше?

Представленный бенчмарк, OmniGUI, неизбежно выявит, что существующие «умные» агенты для смартфонов — это, по сути, сложные скрипты, ожидающие идеальных условий. Сейчас это назовут AI и получат инвестиции. Проблема не в алгоритмах, а в окружающей среде: реальный мир — это не аккуратный набор пикселей и звуков, а хаотичный поток данных, в котором даже определение «кнопка» становится философским вопросом. И, разумеется, документация снова соврала о надежности распознавания речи в шумной обстановке.

В ближайшем будущем следует ожидать не прорыва в области «общего» ИИ, а специализации. Агенты будут уметь выполнять узкий круг задач в строго контролируемых условиях, а любые отклонения от нормы приведут к фатальным ошибкам. Начинают подозревать, что они просто повторяют модные слова, когда речь заходит о «кросс-модальном рассуждении». И, конечно, каждый новый уровень сложности обернется экспоненциальным ростом технического долга. Технический долг — это просто эмоциональный долг с коммитами.

В конечном итоге, OmniGUI, как и любой другой бенчмарк, станет лишь временным ориентиром. Сложность системы всегда возвращается к изначальной простоте — помните, когда-то это была простая оболочка для Android. И когда-нибудь, кто-нибудь напишет скрипт, который обойдёт все эти «интеллектуальные» системы, просто потому, что это проще и быстрее.

Оригинал статьи: https://arxiv.org/pdf/2605.18758.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-20 08:57

🚀 Квантовые новости