Мобильные Агенты: Новые Горизонты Тестирования

Автор: Денис Аветисян

Исследователи представляют MobileWorld — комплексную платформу для оценки автономных мобильных агентов, способных взаимодействовать с пользователем и использовать внешние инструменты.

Мобильная среда включает в себя задачи, выходящие за рамки традиционного взаимодействия с графическим интерфейсом, такие как проактивное уточнение информации у симулированного пользователя посредством GPT-4.1-агента и использование инструментов из репозитория GitHub для получения данных, необходимых для выполнения задач через GUI, причём оценка завершенности происходит посредством кэша обратных вызовов приложения и инспекции базы данных соответственно.

MobileWorld — это новый бенчмарк, предназначенный для реалистичной оценки мобильных GUI-агентов в задачах с длинным горизонтом планирования и требующих взаимодействия с пользователем и инструментами MCP.

Существующие эталоны для оценки мобильных агентов, такие как AndroidWorld, демонстрируют насыщение и не отражают реальной сложности использования смартфонов. В данной работе представлена платформа ‘MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments’ — новый, более сложный эталон, включающий 201 задачу в 20 приложениях, и имитирующий долгосрочные взаимодействия, общение с пользователем и использование внешних инструментов. Полученные результаты показывают существенное снижение производительности современных моделей по сравнению с AndroidWorld, что подчеркивает необходимость разработки более надежных и интеллектуальных мобильных агентов. Какие стратегии и архитектуры позволят преодолеть эти ограничения и создать действительно автономные мобильные системы?

За пределами существующих эталонов: рождение MobileWorld

Существующие эталоны автоматизации графического интерфейса мобильных устройств, такие как AndroidWorld, постепенно достигают насыщения, что приводит к снижению возможности разграничения эффективности различных агентов. По мере того, как агенты достигают высоких показателей успешности на этих эталонах, их способность демонстрировать реальные улучшения в сложности и адаптивности становится менее очевидной. Это затрудняет объективную оценку прогресса в области разработки интеллектуальных мобильных агентов и подчеркивает необходимость новых, более сложных эталонов, способных выявить истинные различия в производительности и стимулировать дальнейшие исследования в этой области. Насыщение существующих эталонов ограничивает возможности для инноваций и ставит под вопрос значимость дальнейших улучшений в рамках текущих метрик.

Существующие эталоны автоматизации мобильных графических интерфейсов, такие как AndroidWorld, часто страдают от недостаточной сложности, обусловленной предельно четкими и однозначными инструкциями для агентов. Эта проблема усугубляется невозможностью для агентов использовать внешние инструменты или ресурсы для решения поставленных задач. В реальности, взаимодействие человека с мобильным устройством редко бывает абсолютно ясным — инструкции часто подразумевают контекст, требуют интерпретации или предполагают использование дополнительных приложений и сервисов. Отсутствие подобных элементов в традиционных эталонах ограничивает возможности оценки истинного интеллекта и адаптивности агентов, не позволяя им демонстрировать способность к рассуждению, планированию и эффективному использованию доступных ресурсов в непредсказуемых ситуациях.

Новый эталон MobileWorld принципиально отличается от существующих, преодолевая ограничения, связанные с отсутствием взаимодействия агента с пользователем и невозможностью использования внешних инструментов. В отличие от предыдущих бенчмарков, MobileWorld предполагает динамический диалог между агентом и человеком, где инструкции могут быть неполными или неоднозначными, требуя от агента уточняющих вопросов и адаптации к изменяющимся условиям. Кроме того, в рамках этого эталона активно используется Model Context Protocol (MCP), позволяющий агенту обращаться к внешним сервисам и инструментам для решения задач, что значительно повышает сложность и реалистичность сценариев. Такой подход позволяет оценить способность агентов не только выполнять четко определенные команды, но и эффективно взаимодействовать с пользователем и использовать доступные ресурсы для достижения цели.

Новый эталон MobileWorld демонстрирует существенный прирост сложности задач по сравнению с AndroidWorld, что подтверждается общим процентом успешного выполнения в 51.7% при использовании передовой системы агентов. Данный показатель свидетельствует о том, что MobileWorld ставит перед системами автоматизации более реалистичные и многогранные вызовы, требующие от них не только выполнения простых инструкций, но и адаптации к неявностям, а также умения взаимодействовать с пользователем для уточнения задач. Такой подход позволяет оценить истинный потенциал агентов в мобильной среде и выявить области для дальнейших исследований и усовершенствований в области искусственного интеллекта и автоматизации мобильных интерфейсов.

Сравнение современных моделей агентов для мобильных GUI на платформе MobileWorld при ограничении в 50 шагов показывает, что предложенный подход обеспечивает наилучший показатель успешности в различных категориях задач, включая взаимодействие с GUI, взаимодействие с пользователем и задачи с расширением MCP.

Планировщик-Исполнитель: оркестровка разумных действий

В архитектуре системы используется схема «Планировщик-Исполнитель», где компонент «Планировщик» отвечает за интерпретацию получаемых инструкций и определение последовательности действий для их выполнения в мобильной среде. Компонент «Исполнитель» непосредственно выполняет эти действия, взаимодействуя с мобильным устройством. Такое разделение позволяет отделить процесс принятия решений (планирования) от процесса непосредственного взаимодействия с пользовательским интерфейсом, обеспечивая гибкость и масштабируемость системы. Планировщик генерирует план действий, а исполнитель преобразует этот план в конкретные команды для управления мобильным устройством.

В рамках данной архитектуры реализована возможность запроса уточнений у пользователя посредством действия ‘Ask_User Action’. Это позволяет агенту, столкнувшись с неоднозначными или неполными инструкциями, инициировать диалог с пользователем для получения необходимой информации. Механизм предполагает, что при обнаружении неясностей, агент формирует запрос, направленный на прояснение неточностей, и ожидает ответа от пользователя, прежде чем продолжить выполнение задачи. Это повышает надежность и эффективность работы агента в ситуациях, когда исходные инструкции недостаточно конкретны или содержат двусмысленности.

Исполнитель в рамках данной архитектуры отвечает за выполнение стандартных операций с графическим интерфейсом мобильного устройства, включающих нажатия, прокрутку и ввод текста. Этот набор операций формирует надежное и расширяемое пространство действий (action space), позволяя агенту взаимодействовать с мобильным приложением. Реализация обеспечивает абстракцию от конкретных деталей реализации интерфейса, что упрощает адаптацию к различным приложениям и версиям операционных систем. Все операции стандартизированы и представлены в виде дискретных действий, доступных для выбора и последовательного выполнения.

Архитектура системы обеспечивает интеграцию крупных мультимодальных моделей, таких как GPT-5 и Qwen3-VL, в качестве основных движков логического вывода. Эти модели обрабатывают инструкции и генерируют планы действий, которые затем передаются исполнительному модулю. Поддержка таких моделей позволяет системе понимать и интерпретировать сложные запросы, включающие как текстовые, так и визуальные данные, а также адаптироваться к различным сценариям взаимодействия с мобильным окружением. Использование больших языковых моделей обеспечивает расширенные возможности рассуждения и принятия решений, необходимые для выполнения сложных задач.

Мобильная платформа MobileWorld состоит из хост-машины, управляющей агентами и взаимодействующей с пользователем, и изолированной Docker-среды, содержащей эмулированную Android-экосистему и инструменты для оценки выполнения задач.

Строгая оценка и метрики производительности

Для обеспечения воспроизводимости и достоверности результатов используется методика “Детерминированной оценки” (Deterministic Evaluation), предполагающая проведение тестирования в строго контролируемой среде. Это достигается путем стандартизации начальных условий, входных данных и последовательности действий для каждого выполняемого задания. Детерминированная оценка гарантирует, что при повторном выполнении одного и того же задания в идентичных условиях, будут получены одинаковые результаты, исключая влияние случайных факторов и обеспечивая объективную оценку производительности системы.

Для оценки производительности и эффективности системы используются два ключевых показателя: «Успешность» и «Количество шагов для завершения». Показатель «Успешность» представляет собой долю успешно завершенных задач от общего их числа и выражается в процентах. «Количество шагов для завершения» отражает среднее число действий, необходимых пользователю для выполнения конкретной задачи. Более низкое значение этого показателя указывает на более эффективный пользовательский интерфейс и упрощенный рабочий процесс. Отслеживание этих метрик позволяет проводить количественный анализ и сравнивать производительность системы в различных сценариях и на разных платформах.

Анализ показывает, что выполнение задач в среде MobileWorld в среднем требует 27.8 шагов, что существенно превышает показатель для AndroidWorld, где для того же требуется 14.3 шага. Данное различие указывает на более высокую сложность задач, выполняемых в MobileWorld, что может быть обусловлено различиями в архитектуре приложений, объеме данных или требуемой последовательностью действий для достижения конечного результата. Увеличение числа шагов напрямую влияет на время выполнения и потенциальную вероятность ошибок при взаимодействии с пользовательским интерфейсом.

Анализ показывает, что 62.2% задач в среде MobileWorld требуют взаимодействия между несколькими приложениями (cross-application workflows). Этот показатель значительно превышает аналогичный показатель для AndroidWorld, где лишь 9.5% задач включают переключение между приложениями. Разница в 52.7 процентных пункта указывает на более сложный характер задач в MobileWorld, требующий от системы более продвинутых возможностей для управления контекстом и передачи данных между приложениями.

Для обеспечения воспроизводимости и стабильности оценочных процедур используется контейнеризация на базе Docker. Данная технология позволяет создать изолированное окружение для тестирования, гарантируя, что результаты не зависят от конфигурации хост-системы или предустановленного программного обеспечения. Каждая тестовая итерация выполняется в отдельном контейнере, что исключает конфликты зависимостей и обеспечивает консистентность результатов между различными тестовыми прогонами и машинами. Использование Docker также упрощает процесс развертывания и масштабирования оценочной инфраструктуры, позволяя быстро создавать и удалять тестовые окружения по мере необходимости.

В отличие от AndroidWorld, MobileWorld характеризуется более низким успехом современных моделей, увеличенной продолжительностью задач, большим количеством межприложенческих взаимодействий и значительным снижением производительности новых моделей.

К более универсальным мобильным GUI-агентам

Сочетание среды MobileWorld и архитектуры «Планировщик-Исполнитель» позволяет агентам эффективно решать сложные задачи, требующие как управления графическим интерфейсом, так и взаимодействия с пользователем. Данный подход обеспечивает возможность разбиения сложной цели на последовательность более простых действий, которые агент может планировать и последовательно выполнять. Используя MobileWorld в качестве реалистичной платформы для тестирования, а «Планировщик-Исполнитель» — в качестве основы для организации действий, агенты демонстрируют способность не просто автоматизировать рутинные операции, но и адаптироваться к изменяющимся условиям, запрашивать необходимую информацию у пользователя и эффективно использовать полученные ответы для достижения поставленной цели. Такая интеграция открывает перспективы для создания интеллектуальных мобильных помощников, способных решать широкий спектр задач в реальном времени.

В основе разработанных мобильных агентов лежат визуальные языковые модели (VLM), что позволяет им значительно превзойти возможности простой автоматизации. Вместо выполнения заранее запрограммированных действий, агенты способны понимать визуальную информацию на экране смартфона и взаимодействовать с интерфейсом подобно человеку. Это достигается благодаря способности VLM не только распознавать элементы пользовательского интерфейса, такие как кнопки и текстовые поля, но и интерпретировать их назначение и контекст. Такой подход открывает путь к созданию более интуитивных и гибких агентов, способных адаптироваться к различным ситуациям и выполнять сложные задачи, требующие понимания визуального окружения и естественного взаимодействия с пользователем. В результате, агенты становятся не просто исполнителями команд, а полноценными помощниками, способными к осмысленному взаимодействию с мобильными устройствами.

Встроенная в MobileWorld сложность задач проявляется в том, что более чем в 22% случаев требуется взаимодействие агента с пользователем, что имитирует реальные сценарии использования мобильных приложений. Кроме того, почти 20% задач дополнены использованием протокола Model Context Protocol (MCP), позволяющего агенту обращаться к внешним инструментам и расширяя его функциональные возможности. Такой подход к созданию эталонного набора задач подчеркивает стремление к разработке агентов, способных не просто автоматизировать простые действия, а эффективно решать комплексные задачи, требующие адаптации к меняющимся условиям и взаимодействия с пользователем, что является важным шагом к созданию действительно интеллектуальных мобильных помощников.

Использование протокола контекстной модели (Model Context Protocol, MCP) значительно расширяет функциональные возможности мобильных GUI-агентов, предоставляя им доступ к внешним инструментам и сервисам. Вместо работы в замкнутой среде, агент, оснащенный MCP, способен взаимодействовать с различными приложениями и ресурсами, что позволяет решать более сложные и разнообразные задачи. Такой подход открывает возможности для адаптации к меняющимся условиям и интеграции с другими системами, делая агента более универсальным и эффективным в реальных сценариях использования. Возможность обращения к внешним инструментам не только повышает производительность, но и позволяет агенту обучаться и совершенствоваться, используя новые источники информации и функциональности.

Данный подход знаменует собой существенный прогресс в создании более надёжных и адаптивных мобильных GUI-агентов, способных решать задачи, приближенные к реальным условиям. Разработка ориентирована на выход за рамки простой автоматизации, позволяя агентам не только выполнять заданные действия, но и эффективно взаимодействовать с пользователем и внешними инструментами. Благодаря интеграции с такими протоколами, как Model Context Protocol, агенты получают возможность расширять функциональность и адаптироваться к меняющимся условиям, что критически важно для успешного функционирования в динамичной мобильной среде. Такой подход открывает перспективы для создания интеллектуальных помощников, способных выполнять сложные задачи, требующие как управления графическим интерфейсом, так и взаимодействия с человеком, что делает его важным шагом на пути к более совершенным мобильным приложениям и сервисам.

Исследование, представленное в статье, демонстрирует стремление к созданию реалистичных сред для оценки мобильных GUI-агентов. Авторы подчеркивают важность учета взаимодействия агента с пользователем и интеграции внешних инструментов — аспектов, часто упускаемых из виду в существующих бенчмарках. Этот подход к оценке, ориентированный на долгосрочные задачи и сложную динамику, напоминает слова Роберта Тарьяна: «Структура программы отражает структуру проблемы, а не наоборот». Ведь MobileWorld — это не просто набор тестов, а попытка отразить сложность реальных сценариев использования, где каждый выбор архитектуры агента предопределяет его способность справляться с непредсказуемостью и адаптироваться к меняющимся условиям.

Куда Ведет Дорога?

Представленная работа, стремясь к более реалистичной оценке мобильных GUI-агентов, неизбежно обнажила суть проблемы: само понятие «бенчмарка» — это попытка обуздать хаос, зафиксировать эфемерное. Система, лишенная возможности ошибаться, — мертва. MobileWorld, как и любой искусственно созданный ландшафт, лишь отсрочивает неизбежное столкновение с непредсказуемостью реального мира. Интеграция с внешними инструментами, взаимодействие с пользователем — это не решение, а лишь усложнение, добавление новых векторов для будущих сбоев.

Истинный прогресс, вероятно, лежит не в создании идеальных бенчмарков, а в принятии несовершенства. Вместо стремления к детерминированной оценке, необходимо сосредоточиться на разработке систем, способных к самовосстановлению, к адаптации к неожиданным ситуациям. В конечном итоге, ценность агента определяется не его способностью выполнять задачи в контролируемой среде, а его умением справляться с неизбежными ошибками и непредсказуемостью взаимодействия с человеком.

В идеальном решении не остаётся места для людей. Следующий шаг — не улучшение MobileWorld, а осознание того, что любая искусственная среда — это лишь бледная тень реальности, и что истинная проверка интеллекта — это способность агента существовать и развиваться в условиях полной неопределенности.

Оригинал статьи: https://arxiv.org/pdf/2512.19432.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-23 23:51

🚀 Квантовые новости