Смартфоны под контролем: новый тест для ИИ-агентов

Автор: Денис Аветисян


Исследователи представили комплексную платформу для оценки способности искусственного интеллекта взаимодействовать со смартфонами, используя звук, видео и изображения одновременно.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В рамках разработанного эталона OmniGUI, агент графического интерфейса взаимодействует со смартфоном, обрабатывая последовательность мультимодальных сигналов - скриншоты, аудио и короткие видеоклипы - для выполнения инструкций, при этом эффективность оценивается по метрикам соответствия типу и точности действий по сравнению с демонстрациями человека.
В рамках разработанного эталона OmniGUI, агент графического интерфейса взаимодействует со смартфоном, обрабатывая последовательность мультимодальных сигналов — скриншоты, аудио и короткие видеоклипы — для выполнения инструкций, при этом эффективность оценивается по метрикам соответствия типу и точности действий по сравнению с демонстрациями человека.

Представлен OmniGUI — эталонный набор данных и протокол оценки GUI-агентов в условиях омни-модального взаимодействия со смартфонами.

Существующие бенчмарки для агентов, взаимодействующих с графическим интерфейсом, в основном полагаются на статические скриншоты, игнорируя динамику реального взаимодействия со смартфоном. В работе ‘OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments’ представлен новый эталонный набор данных и протокол оценки, позволяющий оценить способность агентов понимать и реагировать на непрерывные, взаимосвязанные визуальные, звуковые и видео сигналы. Полученные результаты демонстрируют, что текущие модели испытывают трудности в выполнении действий, требующих синхронной обработки временных и слуховых сигналов, особенно в условиях отвлекающего шума. Какие стратегии позволят создать более надежные и адаптивные агенты для автоматизации взаимодействия со смартфонами в реальных условиях?


Хрупкость Автоматизации: Проблема Реального Взаимодействия

Современные системы автоматизации графического интерфейса пользователя зачастую полагаются на хрупкие эвристические правила, что делает их крайне уязвимыми к изменениям в оформлении или структуре приложений. Такой подход особенно проблематичен при работе с динамическими интерфейсами, где элементы управления и их расположение могут меняться в зависимости от контекста или действий пользователя. В результате, даже незначительные обновления приложений могут привести к полной неработоспособности автоматизированных сценариев, требуя постоянной перенастройки и поддержки. Это ограничивает практическое применение подобных систем в реальных условиях, где интерфейсы постоянно эволюционируют и адаптируются.

Современные системы автоматизации графического интерфейса зачастую демонстрируют недостаточную когнитивную гибкость при взаимодействии со смартфонами в реальных условиях. Особенную сложность представляет обработка многомодального ввода — сочетания визуальной информации, звука и семантического анализа. Существующие алгоритмы, как правило, испытывают затруднения при интерпретации намерений пользователя, если интерфейс приложения меняется, или если ввод осуществляется не только касанием экрана, но и голосовыми командами или жестами. В результате, такие системы часто оказываются неспособными адаптироваться к динамически меняющимся условиям и требуют постоянной перенастройки, что ограничивает их практическое применение в повседневной жизни.

Для эффективного взаимодействия со смартфонами в реальных условиях, крайне необходимы агенты, способные объединять визуальную, слуховую и семантическую информацию для точного определения намерений пользователя. Современные системы часто опираются на отдельные модальности, что приводит к ошибкам при сложных сценариях, где контекст и неявные сигналы играют решающую роль. Агенты, способные анализировать не только то, что видно на экране, но и голосовые команды, а также понимать смысл происходящего, смогут адаптироваться к динамически меняющимся интерфейсам и непредсказуемому поведению пользователя. Такой подход позволит создавать более интуитивные и надежные системы автоматизации, способные решать сложные задачи и предоставлять пользователю действительно полезную помощь.

Ограниченность существующих методов автоматизации графического интерфейса подчеркивает настоятельную потребность в создании более надежных и приспосабливаемых агентов. Современные системы часто оказываются неспособными эффективно функционировать в динамичной среде реальных пользовательских интерфейсов, что приводит к нестабильной работе и ошибкам. Необходимость в адаптивности обусловлена постоянно меняющимися макетами приложений, различными разрешениями экранов и индивидуальными предпочтениями пользователей. Разработка интеллектуальных агентов, способных к самостоятельному обучению и адаптации к новым условиям, представляется ключевым шагом к созданию действительно удобных и эффективных систем автоматизации, способных решать сложные задачи взаимодействия с мобильными устройствами и освободить пользователей от рутинных операций.

Анализ датасета OmniGUI, включающего 709 эпизодов и 2579 шагов взаимодействия с 29 приложениями для смартфонов, показывает распределение данных по приложениям, задачам, основанным на принципах взаимодействия человека и компьютера, а также по уровням мультимодальной зависимости, определяемым доступностью информации в графическом интерфейсе.
Анализ датасета OmniGUI, включающего 709 эпизодов и 2579 шагов взаимодействия с 29 приложениями для смартфонов, показывает распределение данных по приложениям, задачам, основанным на принципах взаимодействия человека и компьютера, а также по уровням мультимодальной зависимости, определяемым доступностью информации в графическом интерфейсе.

OmniGUI: Строгий Мультимодальный Тест

Основой OmniGUI является комплексный набор задач, предназначенных для оценки агентов, способных обрабатывать непрерывные, взаимопереплетенные мультимодальные входные данные в реалистичной среде смартфона. Это означает, что агенты подвергаются воздействию одновременных входных данных, таких как визуальные данные с экрана, тактильные ощущения от касаний, и звуковые сигналы, требуя интеграции и обработки всей этой информации для успешного выполнения задач. Среда эмулирует типичное использование смартфона, включая навигацию по интерфейсу, взаимодействие с приложениями и выполнение специфических действий, что позволяет оценить производительность агента в условиях, максимально приближенных к реальным.

Бенчмарк OmniGUI реализован на базе операционной системы Android и предназначен для оценки способности агентов ориентироваться в графических пользовательских интерфейсах (GUI) и взаимодействовать с ними. В рамках бенчмарка определено строгое пространство действий (Action Space), ограничивающее возможные действия агента и позволяющее проводить количественную оценку его эффективности. Это пространство включает в себя набор дискретных команд, таких как нажатия на элементы интерфейса, прокрутка списков и ввод текста, что позволяет точно измерить способность агента к выполнению конкретных задач в рамках GUI.

В отличие от задач, ограничивающихся распознаванием действий, OmniGUI требует от агентов развитых когнитивных способностей, в частности, временного рассуждения и локализации. Временное рассуждение необходимо для обработки последовательностей действий и понимания их взаимосвязи во времени, поскольку выполнение задач часто зависит от порядка операций. Локализация, в свою очередь, подразумевает определение текущего контекста и позиции агента внутри графического интерфейса, что критически важно для корректного выполнения действий, направленных на конкретные элементы. Таким образом, успех в OmniGUI требует не просто идентификации действий, но и понимания их взаимосвязи во времени и пространстве внутри GUI.

В отличие от существующих бенчмарков, основанных на синтетических наборах данных, OmniGUI использует сценарии, приближенные к реальным условиям использования мобильных устройств. Это позволяет оценить возможности агентов в более сложных и непредсказуемых ситуациях, характерных для взаимодействия пользователя с графическим интерфейсом смартфона. Акцент на реалистичных сценариях требует от агентов не только распознавания действий, но и адаптации к изменениям в визуальном окружении, шуму, а также к неполной или зашумленной информации, что значительно расширяет границы тестирования и способствует развитию более надежных и универсальных GUI-агентов.

Анализ областей компетенций моделей показывает, что они демонстрируют лучшие результаты в задачах статической локализации по сравнению с временным рассуждением и кросс-модальной дискриминацией, при этом производительность снижается по мере усложнения задач и увеличения зависимости от мультимодальных данных <span class="katex-eq" data-katex-display="false"> (AV-Present ightarrow AV-Critical) </span>, что подтверждает необходимость механизмов мультимодального восприятия.
Анализ областей компетенций моделей показывает, что они демонстрируют лучшие результаты в задачах статической локализации по сравнению с временным рассуждением и кросс-модальной дискриминацией, при этом производительность снижается по мере усложнения задач и увеличения зависимости от мультимодальных данных (AV-Present ightarrow AV-Critical) , что подтверждает необходимость механизмов мультимодального восприятия.

Оценка Когнитивных Способностей с Помощью OmniGUI

Оценка агентов в OmniGUI проводится по ключевым когнитивным параметрам, включая семантическое понимание и мгновенную реакцию на преходящие сигналы. Семантическое понимание относится к способности агента интерпретировать значение команд и элементов графического интерфейса, в то время как мгновенная реакция на преходящие сигналы подразумевает способность оперативно обрабатывать и реагировать на временные изменения в визуальном или звуковом окружении. Эти параметры критически важны для успешной автоматизации GUI, поскольку требуют от агента не только распознавания объектов, но и понимания их контекста и динамического изменения состояния.

Оценка в OmniGUI специально сконцентрирована на кросс-модальной дискриминации — способности агента объединять и интерпретировать информацию, поступающую из различных сенсорных каналов. Задачи в бенчмарке разработаны таким образом, чтобы проверить, насколько эффективно система сопоставляет данные, полученные из визуальных и аудиальных источников, для принятия корректных решений. Это включает в себя обработку одновременных стимулов, поступающих по разным модальностям, и интеграцию этих данных для формирования целостного представления о ситуации, необходимого для автоматизации задач графического интерфейса.

Оценка в OmniGUI включает в себя задачи, критически зависящие от аудио- и видеовхода (AV-Critical Tasks), где корректный выбор действия напрямую обусловлен обработкой этих модальностей. В рамках этих задач, агенту необходимо анализировать аудио- или видеоданные для определения необходимого действия в графическом интерфейсе пользователя. Отсутствие или некорректная интерпретация аудио- или видеоинформации приводит к ошибкам в выполнении задачи, что позволяет оценить способность агента к интеграции и использованию мультимодальных данных для автоматизации GUI.

Оценка производительности в OmniGUI осуществляется с использованием метрик Type Match (TM) и Exact Match (EM). Type Match определяет, соответствует ли тип предпринятого действия ожидаемому, в то время как Exact Match требует полного совпадения предпринятого действия с эталонным. На сложных задачах автоматизации графического интерфейса, современные модели демонстрируют общий показатель Exact Match (EM) в 66.4%. Данный показатель отражает способность агентов к точному выполнению задач в условиях, требующих интерпретации и взаимодействия с графическим интерфейсом.

Анализ производительности Gemini 3.0 Pro по различным приложениям, отсортированным по показателю точного соответствия (<span class="katex-eq" data-katex-display="false">EM</span>), демонстрирует, что сложность приложений варьируется относительно средних значений по бенчмарку, при этом объём выборки (эпизоды/шаги) для каждого приложения представлен на правой оси.
Анализ производительности Gemini 3.0 Pro по различным приложениям, отсортированным по показателю точного соответствия (EM), демонстрирует, что сложность приложений варьируется относительно средних значений по бенчмарку, при этом объём выборки (эпизоды/шаги) для каждого приложения представлен на правой оси.

Преодоление Помех и Перспективы Развития

Анализ показал, что аудиовизуальные помехи способны существенно снижать эффективность выполнения сложных задач с графическим интерфейсом пользователя. Это выражается в заметном ухудшении точности и скорости работы, что требует разработки надежных механизмов фильтрации входящих сенсорных данных. Неспособность агента эффективно отсеивать отвлекающие факторы приводит к ошибкам при взаимодействии с интерфейсом, особенно в условиях высокой когнитивной нагрузки. В связи с этим, актуальной задачей является создание систем, способных динамически оценивать релевантность поступающей информации и подавлять нежелательные сигналы, обеспечивая стабильную и точную работу в шумной среде.

Исследования подчеркивают критическую важность способности агентов к эффективной фильтрации сенсорной информации и подавлению отвлекающих факторов. В сложных ситуациях, требующих взаимодействия с графическим интерфейсом, перегрузка данными может существенно снизить производительность. Способность выделять релевантные стимулы и игнорировать несущественные является ключевым фактором для обеспечения надежной и эффективной работы агента. Таким образом, разработка механизмов, позволяющих агентам динамически оценивать значимость входящей информации и адаптировать свои стратегии обработки данных, представляется перспективным направлением для повышения их устойчивости и эффективности в реальных условиях.

Платформа OmniGUI представляет собой ценный инструмент для разработки и оценки стратегий, направленных на повышение устойчивости агентов к помехам. Исследования показали, что удаление аудио- и видеовходов в задачах, критичных к аудиовизуальной информации (AV-Critical), приводит к снижению показателя точного соответствия (Exact Match) на 10.5%. Это подчеркивает важность разработки эффективных механизмов фильтрации и приоритезации сенсорных данных для обеспечения надежной работы агентов в сложных условиях. Возможности OmniGUI позволяют исследователям тестировать различные подходы к подавлению отвлекающих факторов и повышению устойчивости агентов к помехам, что делает её незаменимым ресурсом в данной области.

В дальнейшем планируется внедрение механизмов внимания и динамической оценки важности сенсорных данных для повышения эффективности работы в зашумленных средах. Исследования будут направлены на разработку алгоритмов, позволяющих агентам автоматически определять наиболее релевантную информацию и подавлять отвлекающие факторы, подобно тому, как это делает человеческий мозг. Ожидается, что динамическое взвешивание сенсорных каналов — увеличение значимости визуальной информации при ее высокой надежности и снижение при наличии помех — позволит значительно улучшить устойчивость агентов к внешним воздействиям и повысить точность выполнения сложных задач в условиях реального мира. Такой подход позволит создать более адаптивные и надежные системы, способные эффективно функционировать в разнообразных и непредсказуемых условиях.

Анализ ошибок Gemini 3.0 Pro выявил проблемы с обработкой звуковых сигналов (игнорирование кратковременных изменений звука) и с привязкой действий к конкретным координатам на экране, несмотря на общее понимание контекста.
Анализ ошибок Gemini 3.0 Pro выявил проблемы с обработкой звуковых сигналов (игнорирование кратковременных изменений звука) и с привязкой действий к конкретным координатам на экране, несмотря на общее понимание контекста.

Исследование OmniGUI, представляющее новый набор данных для оценки GUI-агентов, закономерно выявляет ограничения в мультимодальном выполнении действий. Авторы, конечно, надеются на прорыв в области интерактивных сред, но опыт подсказывает: красивые диаграммы и обещания «бесконечной масштабируемости» — это лишь начало долгого пути к реальной стабильности. Как заметил Давид Гильберт: «В математике нет трамплина; нужно карабкаться». То же самое и здесь: за каждым новым набором данных скрывается необходимость в тщательной отладке и преодолении технических сложностей. OmniGUI — это ещё один шаг, и, вероятно, не последний, в бесконечном цикле разработки и улучшения GUI-агентов.

Что дальше?

Представленный бенчмарк, OmniGUI, неизбежно выявит, что существующие «умные» агенты для смартфонов — это, по сути, сложные скрипты, ожидающие идеальных условий. Сейчас это назовут AI и получат инвестиции. Проблема не в алгоритмах, а в окружающей среде: реальный мир — это не аккуратный набор пикселей и звуков, а хаотичный поток данных, в котором даже определение «кнопка» становится философским вопросом. И, разумеется, документация снова соврала о надежности распознавания речи в шумной обстановке.

В ближайшем будущем следует ожидать не прорыва в области «общего» ИИ, а специализации. Агенты будут уметь выполнять узкий круг задач в строго контролируемых условиях, а любые отклонения от нормы приведут к фатальным ошибкам. Начинают подозревать, что они просто повторяют модные слова, когда речь заходит о «кросс-модальном рассуждении». И, конечно, каждый новый уровень сложности обернется экспоненциальным ростом технического долга. Технический долг — это просто эмоциональный долг с коммитами.

В конечном итоге, OmniGUI, как и любой другой бенчмарк, станет лишь временным ориентиром. Сложность системы всегда возвращается к изначальной простоте — помните, когда-то это была простая оболочка для Android. И когда-нибудь, кто-нибудь напишет скрипт, который обойдёт все эти «интеллектуальные» системы, просто потому, что это проще и быстрее.


Оригинал статьи: https://arxiv.org/pdf/2605.18758.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-20 08:57