Автор: Денис Аветисян
Исследователи представляют MobileWorld — комплексную платформу для оценки автономных мобильных агентов, способных взаимодействовать с пользователем и использовать внешние инструменты.

MobileWorld — это новый бенчмарк, предназначенный для реалистичной оценки мобильных GUI-агентов в задачах с длинным горизонтом планирования и требующих взаимодействия с пользователем и инструментами MCP.
Существующие эталоны для оценки мобильных агентов, такие как AndroidWorld, демонстрируют насыщение и не отражают реальной сложности использования смартфонов. В данной работе представлена платформа ‘MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments’ — новый, более сложный эталон, включающий 201 задачу в 20 приложениях, и имитирующий долгосрочные взаимодействия, общение с пользователем и использование внешних инструментов. Полученные результаты показывают существенное снижение производительности современных моделей по сравнению с AndroidWorld, что подчеркивает необходимость разработки более надежных и интеллектуальных мобильных агентов. Какие стратегии и архитектуры позволят преодолеть эти ограничения и создать действительно автономные мобильные системы?
За пределами существующих эталонов: рождение MobileWorld
Существующие эталоны автоматизации графического интерфейса мобильных устройств, такие как AndroidWorld, постепенно достигают насыщения, что приводит к снижению возможности разграничения эффективности различных агентов. По мере того, как агенты достигают высоких показателей успешности на этих эталонах, их способность демонстрировать реальные улучшения в сложности и адаптивности становится менее очевидной. Это затрудняет объективную оценку прогресса в области разработки интеллектуальных мобильных агентов и подчеркивает необходимость новых, более сложных эталонов, способных выявить истинные различия в производительности и стимулировать дальнейшие исследования в этой области. Насыщение существующих эталонов ограничивает возможности для инноваций и ставит под вопрос значимость дальнейших улучшений в рамках текущих метрик.
Существующие эталоны автоматизации мобильных графических интерфейсов, такие как AndroidWorld, часто страдают от недостаточной сложности, обусловленной предельно четкими и однозначными инструкциями для агентов. Эта проблема усугубляется невозможностью для агентов использовать внешние инструменты или ресурсы для решения поставленных задач. В реальности, взаимодействие человека с мобильным устройством редко бывает абсолютно ясным — инструкции часто подразумевают контекст, требуют интерпретации или предполагают использование дополнительных приложений и сервисов. Отсутствие подобных элементов в традиционных эталонах ограничивает возможности оценки истинного интеллекта и адаптивности агентов, не позволяя им демонстрировать способность к рассуждению, планированию и эффективному использованию доступных ресурсов в непредсказуемых ситуациях.
Новый эталон MobileWorld принципиально отличается от существующих, преодолевая ограничения, связанные с отсутствием взаимодействия агента с пользователем и невозможностью использования внешних инструментов. В отличие от предыдущих бенчмарков, MobileWorld предполагает динамический диалог между агентом и человеком, где инструкции могут быть неполными или неоднозначными, требуя от агента уточняющих вопросов и адаптации к изменяющимся условиям. Кроме того, в рамках этого эталона активно используется Model Context Protocol (MCP), позволяющий агенту обращаться к внешним сервисам и инструментам для решения задач, что значительно повышает сложность и реалистичность сценариев. Такой подход позволяет оценить способность агентов не только выполнять четко определенные команды, но и эффективно взаимодействовать с пользователем и использовать доступные ресурсы для достижения цели.
Новый эталон MobileWorld демонстрирует существенный прирост сложности задач по сравнению с AndroidWorld, что подтверждается общим процентом успешного выполнения в 51.7

Планировщик-Исполнитель: оркестровка разумных действий
В архитектуре системы используется схема «Планировщик-Исполнитель», где компонент «Планировщик» отвечает за интерпретацию получаемых инструкций и определение последовательности действий для их выполнения в мобильной среде. Компонент «Исполнитель» непосредственно выполняет эти действия, взаимодействуя с мобильным устройством. Такое разделение позволяет отделить процесс принятия решений (планирования) от процесса непосредственного взаимодействия с пользовательским интерфейсом, обеспечивая гибкость и масштабируемость системы. Планировщик генерирует план действий, а исполнитель преобразует этот план в конкретные команды для управления мобильным устройством.
В рамках данной архитектуры реализована возможность запроса уточнений у пользователя посредством действия ‘Ask_User Action’. Это позволяет агенту, столкнувшись с неоднозначными или неполными инструкциями, инициировать диалог с пользователем для получения необходимой информации. Механизм предполагает, что при обнаружении неясностей, агент формирует запрос, направленный на прояснение неточностей, и ожидает ответа от пользователя, прежде чем продолжить выполнение задачи. Это повышает надежность и эффективность работы агента в ситуациях, когда исходные инструкции недостаточно конкретны или содержат двусмысленности.
Исполнитель в рамках данной архитектуры отвечает за выполнение стандартных операций с графическим интерфейсом мобильного устройства, включающих нажатия, прокрутку и ввод текста. Этот набор операций формирует надежное и расширяемое пространство действий (action space), позволяя агенту взаимодействовать с мобильным приложением. Реализация обеспечивает абстракцию от конкретных деталей реализации интерфейса, что упрощает адаптацию к различным приложениям и версиям операционных систем. Все операции стандартизированы и представлены в виде дискретных действий, доступных для выбора и последовательного выполнения.
Архитектура системы обеспечивает интеграцию крупных мультимодальных моделей, таких как GPT-5 и Qwen3-VL, в качестве основных движков логического вывода. Эти модели обрабатывают инструкции и генерируют планы действий, которые затем передаются исполнительному модулю. Поддержка таких моделей позволяет системе понимать и интерпретировать сложные запросы, включающие как текстовые, так и визуальные данные, а также адаптироваться к различным сценариям взаимодействия с мобильным окружением. Использование больших языковых моделей обеспечивает расширенные возможности рассуждения и принятия решений, необходимые для выполнения сложных задач.

Строгая оценка и метрики производительности
Для обеспечения воспроизводимости и достоверности результатов используется методика “Детерминированной оценки” (Deterministic Evaluation), предполагающая проведение тестирования в строго контролируемой среде. Это достигается путем стандартизации начальных условий, входных данных и последовательности действий для каждого выполняемого задания. Детерминированная оценка гарантирует, что при повторном выполнении одного и того же задания в идентичных условиях, будут получены одинаковые результаты, исключая влияние случайных факторов и обеспечивая объективную оценку производительности системы.
Для оценки производительности и эффективности системы используются два ключевых показателя: «Успешность» и «Количество шагов для завершения». Показатель «Успешность» представляет собой долю успешно завершенных задач от общего их числа и выражается в процентах. «Количество шагов для завершения» отражает среднее число действий, необходимых пользователю для выполнения конкретной задачи. Более низкое значение этого показателя указывает на более эффективный пользовательский интерфейс и упрощенный рабочий процесс. Отслеживание этих метрик позволяет проводить количественный анализ и сравнивать производительность системы в различных сценариях и на разных платформах.
Анализ показывает, что выполнение задач в среде MobileWorld в среднем требует 27.8 шагов, что существенно превышает показатель для AndroidWorld, где для того же требуется 14.3 шага. Данное различие указывает на более высокую сложность задач, выполняемых в MobileWorld, что может быть обусловлено различиями в архитектуре приложений, объеме данных или требуемой последовательностью действий для достижения конечного результата. Увеличение числа шагов напрямую влияет на время выполнения и потенциальную вероятность ошибок при взаимодействии с пользовательским интерфейсом.
Анализ показывает, что 62.2
Для обеспечения воспроизводимости и стабильности оценочных процедур используется контейнеризация на базе Docker. Данная технология позволяет создать изолированное окружение для тестирования, гарантируя, что результаты не зависят от конфигурации хост-системы или предустановленного программного обеспечения. Каждая тестовая итерация выполняется в отдельном контейнере, что исключает конфликты зависимостей и обеспечивает консистентность результатов между различными тестовыми прогонами и машинами. Использование Docker также упрощает процесс развертывания и масштабирования оценочной инфраструктуры, позволяя быстро создавать и удалять тестовые окружения по мере необходимости.

К более универсальным мобильным GUI-агентам
Сочетание среды MobileWorld и архитектуры «Планировщик-Исполнитель» позволяет агентам эффективно решать сложные задачи, требующие как управления графическим интерфейсом, так и взаимодействия с пользователем. Данный подход обеспечивает возможность разбиения сложной цели на последовательность более простых действий, которые агент может планировать и последовательно выполнять. Используя MobileWorld в качестве реалистичной платформы для тестирования, а «Планировщик-Исполнитель» — в качестве основы для организации действий, агенты демонстрируют способность не просто автоматизировать рутинные операции, но и адаптироваться к изменяющимся условиям, запрашивать необходимую информацию у пользователя и эффективно использовать полученные ответы для достижения поставленной цели. Такая интеграция открывает перспективы для создания интеллектуальных мобильных помощников, способных решать широкий спектр задач в реальном времени.
В основе разработанных мобильных агентов лежат визуальные языковые модели (VLM), что позволяет им значительно превзойти возможности простой автоматизации. Вместо выполнения заранее запрограммированных действий, агенты способны понимать визуальную информацию на экране смартфона и взаимодействовать с интерфейсом подобно человеку. Это достигается благодаря способности VLM не только распознавать элементы пользовательского интерфейса, такие как кнопки и текстовые поля, но и интерпретировать их назначение и контекст. Такой подход открывает путь к созданию более интуитивных и гибких агентов, способных адаптироваться к различным ситуациям и выполнять сложные задачи, требующие понимания визуального окружения и естественного взаимодействия с пользователем. В результате, агенты становятся не просто исполнителями команд, а полноценными помощниками, способными к осмысленному взаимодействию с мобильными устройствами.
Встроенная в MobileWorld сложность задач проявляется в том, что более чем в 22
Использование протокола контекстной модели (Model Context Protocol, MCP) значительно расширяет функциональные возможности мобильных GUI-агентов, предоставляя им доступ к внешним инструментам и сервисам. Вместо работы в замкнутой среде, агент, оснащенный MCP, способен взаимодействовать с различными приложениями и ресурсами, что позволяет решать более сложные и разнообразные задачи. Такой подход открывает возможности для адаптации к меняющимся условиям и интеграции с другими системами, делая агента более универсальным и эффективным в реальных сценариях использования. Возможность обращения к внешним инструментам не только повышает производительность, но и позволяет агенту обучаться и совершенствоваться, используя новые источники информации и функциональности.
Данный подход знаменует собой существенный прогресс в создании более надёжных и адаптивных мобильных GUI-агентов, способных решать задачи, приближенные к реальным условиям. Разработка ориентирована на выход за рамки простой автоматизации, позволяя агентам не только выполнять заданные действия, но и эффективно взаимодействовать с пользователем и внешними инструментами. Благодаря интеграции с такими протоколами, как Model Context Protocol, агенты получают возможность расширять функциональность и адаптироваться к меняющимся условиям, что критически важно для успешного функционирования в динамичной мобильной среде. Такой подход открывает перспективы для создания интеллектуальных помощников, способных выполнять сложные задачи, требующие как управления графическим интерфейсом, так и взаимодействия с человеком, что делает его важным шагом на пути к более совершенным мобильным приложениям и сервисам.
Исследование, представленное в статье, демонстрирует стремление к созданию реалистичных сред для оценки мобильных GUI-агентов. Авторы подчеркивают важность учета взаимодействия агента с пользователем и интеграции внешних инструментов — аспектов, часто упускаемых из виду в существующих бенчмарках. Этот подход к оценке, ориентированный на долгосрочные задачи и сложную динамику, напоминает слова Роберта Тарьяна: «Структура программы отражает структуру проблемы, а не наоборот». Ведь MobileWorld — это не просто набор тестов, а попытка отразить сложность реальных сценариев использования, где каждый выбор архитектуры агента предопределяет его способность справляться с непредсказуемостью и адаптироваться к меняющимся условиям.
Куда Ведет Дорога?
Представленная работа, стремясь к более реалистичной оценке мобильных GUI-агентов, неизбежно обнажила суть проблемы: само понятие «бенчмарка» — это попытка обуздать хаос, зафиксировать эфемерное. Система, лишенная возможности ошибаться, — мертва. MobileWorld, как и любой искусственно созданный ландшафт, лишь отсрочивает неизбежное столкновение с непредсказуемостью реального мира. Интеграция с внешними инструментами, взаимодействие с пользователем — это не решение, а лишь усложнение, добавление новых векторов для будущих сбоев.
Истинный прогресс, вероятно, лежит не в создании идеальных бенчмарков, а в принятии несовершенства. Вместо стремления к детерминированной оценке, необходимо сосредоточиться на разработке систем, способных к самовосстановлению, к адаптации к неожиданным ситуациям. В конечном итоге, ценность агента определяется не его способностью выполнять задачи в контролируемой среде, а его умением справляться с неизбежными ошибками и непредсказуемостью взаимодействия с человеком.
В идеальном решении не остаётся места для людей. Следующий шаг — не улучшение MobileWorld, а осознание того, что любая искусственная среда — это лишь бледная тень реальности, и что истинная проверка интеллекта — это способность агента существовать и развиваться в условиях полной неопределенности.
Оригинал статьи: https://arxiv.org/pdf/2512.19432.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Нейронные Операторы в Энергетике: Новый Подход к Моделированию
- Фотонные квантовые вычисления: на пути к практической реализации
- Квантовая оптимизация без ограничений: Новый подход к масштабируемым алгоритмам
- Быстрая генерация текста: от авторегрессии к диффузионным моделям
- Квантовый сенсор: Оптимизация для быстрых и точных измерений
- Адаптивная Квантизация: Новый Подход к Сжатию Больших Языковых Моделей
- Квантовые ядра в работе: новый взгляд на классификацию данных
- Ранговая оптимизация без градиента: Новые границы эффективности
- Синергия лекарств: поиск комбинаций с помощью квантовых вычислений
- Искусство отбора данных: Новый подход к обучению генеративных моделей
2025-12-23 23:51