Испытание для мобильных помощников: новый бенчмарк VenusBench-Mobile

Автор: Денис Аветисян

Ученые представили VenusBench-Mobile — сложный набор тестов, позволяющий оценить возможности мобильных агентов, взаимодействующих с графическим интерфейсом.

VenusBench-Mobile выявляет существенные пробелы в текущих моделях при решении реалистичных задач и демонстрирует недостатки в восприятии, памяти и устойчивости.

Существующие онлайн-бенчмарки для мобильных GUI-агентов зачастую не отражают реальное разнообразие и нестабильность пользовательского опыта. В данной работе представлен VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics — новый, сложный бенчмарк, предназначенный для оценки универсальных мобильных GUI-агентов в реалистичных, ориентированных на пользователя условиях. Результаты масштабного тестирования современных агентов выявили значительные отставания от предыдущих бенчмарков, указывая на пробелы в восприятии, памяти и устойчивости к изменениям окружения. Сможет ли VenusBench-Mobile стать надежной основой для разработки более надежных и эффективных мобильных GUI-агентов, способных к полноценному взаимодействию с реальным миром?

Неизбежность Сбоя: Вызовы Автоматизации Мобильных Интерфейсов

Современные системы автоматизированного тестирования мобильных интерфейсов часто сталкиваются с трудностями при работе в реальных условиях эксплуатации. Проблемой является изменчивость мобильных приложений и непредсказуемость действий пользователей. Незначительные изменения в дизайне, обновленные версии приложений, различия в моделях устройств и даже индивидуальные особенности использования приводят к тому, что ранее работающие скрипты автоматизации перестают функционировать корректно. Кроме того, существующие системы часто не способны интерпретировать намерения пользователя, что приводит к неэффективному и ненадежному тестированию. Автоматизация, не учитывающая контекст и поведение реальных пользователей, может давать ложноположительные результаты и упускать из виду критические ошибки в работе приложения.

Существующие эталоны для оценки автоматизации мобильных интерфейсов, такие как AndroidWorld, зачастую не отражают реальную сложность пользовательского взаимодействия, что приводит к завышенным показателям успешности агентов. Эти эталоны, как правило, оперируют упрощенными сценариями и не учитывают вариативность, присущую реальным мобильным приложениям и пользовательским намерениям. В результате, агент, успешно проходящий тесты на AndroidWorld, может столкнуться со значительными трудностями при работе с более сложными и динамичными интерфейсами, что ставит под сомнение его реальную надежность и способность к адаптации. Таким образом, необходимо разрабатывать более комплексные и реалистичные эталоны, способные адекватно оценить истинную устойчивость агентов автоматизации к непредсказуемости реального мира.

Для успешной навигации по мобильным пользовательским интерфейсам необходимы агенты, обладающие сложными способностями к рассуждению и адаптации. В отличие от простых скриптов, имитирующих действия пользователя, такие агенты должны понимать контекст взаимодействия, предвидеть возможные изменения в интерфейсе и динамически корректировать свои действия. Например, при поиске информации в приложении, агент должен уметь различать различные типы результатов, адаптироваться к изменениям в структуре списка и даже учитывать возможные ошибки или задержки в работе приложения. Эта способность к комплексному анализу и гибкой адаптации критически важна для создания надежных и эффективных систем автоматизации мобильных интерфейсов, способных справляться с реальными условиями использования и разнообразными сценариями взаимодействия.

VenusBench-Mobile: Моделирование Намерений Пользователя

VenusBench-Mobile использует подход к разработке задач, основанный на моделировании намерений пользователя (User-Intent-Driven Task Design), что позволяет максимально приблизить тестирование к реальным сценариям использования мобильных устройств. В отличие от традиционных бенчмарков, фокусирующихся на изолированных операциях, VenusBench-Mobile генерирует задачи, исходя из предполагаемых целей пользователя, например, «забронировать столик в ресторане» или «найти информацию о погоде». Этот подход требует от агентов не только выполнения технических операций, но и понимания контекста и принятия решений, соответствующих намерениям пользователя, что делает оценку более реалистичной и релевантной для практического применения.

В отличие от существующих бенчмарков, VenusBench-Mobile характеризуется повышенной сложностью и вариативностью графического пользовательского интерфейса (GUI). Данный подход позволяет более реалистично моделировать пользовательские сценарии и выявлять ограничения современных агентов. Результаты тестирования передовых агентов на VenusBench-Mobile демонстрируют средний уровень успешного выполнения задач, составляющий всего 36.9%, что указывает на существенные пробелы в их способности к адаптации и эффективному взаимодействию со сложными GUI-средами.

В основе VenusBench-Mobile лежит использование мобильных GUI-агентов для автоматизированного выполнения задач в графическом интерфейсе мобильных устройств. Эти агенты представляют собой программные инструменты, предназначенные для взаимодействия с элементами интерфейса — нажатиями, прокруткой, вводом текста — подобно пользователю. Платформа обеспечивает стандартизированную среду для оценки производительности и надежности таких агентов, позволяя проводить сравнительный анализ различных подходов к автоматизации мобильных приложений и обеспечивая воспроизводимость результатов тестирования. Стандартизация включает в себя унифицированный API для взаимодействия с агентами и четко определенные критерии успешного выполнения задач.

Диагностика Слабых Мест: Разоблачение Ограничений Агентов

Схема аннотирования, ориентированная на возможности агента, позволяет проводить детальный анализ его производительности, выявляя конкретные недостатки. Вместо обобщенных оценок, система разбивает случаи неудач на базовые проблемы, относящиеся к категориям ‘Восприятие’, ‘Память’ и ‘Принятие решений’. Такой подход обеспечивает точное определение областей, требующих улучшения, и позволяет оценить вклад каждой отдельной способности в общую эффективность агента. Результаты анализа, представленные в виде аннотированных данных, служат основой для целенаправленной отладки и оптимизации поведения агента.

Схема аннотации, ориентированная на возможности, позволяет детализированно анализировать эффективность агента, выявляя конкретные недостатки. В рамках этой схемы, неудачи классифицируются по трем основным категориям: ‘Восприятие’ (Perception), отвечающее за сбор и интерпретацию данных об окружающей среде; ‘Память’ (Memory), определяющая способность агента хранить и извлекать релевантную информацию; и ‘Принятие решений’ (Decision-Making), включающее в себя логику выбора оптимальных действий на основе доступных данных и целей. Такая детализация позволяет точно определить, в какой из этих областей агент демонстрирует наибольшие трудности, что необходимо для целенаправленной оптимизации и повышения общей производительности.

Анализ результатов диагностики выявил крайне низкий процент успешного выполнения задач в категориях ‘GSA’ (2.5%) и ‘GUIM’ (4.2%). Данные показатели свидетельствуют о существенных проблемах в соответствующих областях функциональности агента и требуют немедленной оптимизации. Кроме того, общий показатель успешной стабильной работы (‘Stability Pass Rate’) составляет всего 15%, что указывает на недостаточную устойчивость системы к различным входным данным и потенциальную непредсказуемость поведения в реальных условиях эксплуатации.

Измерение Эффективности и Надежности: Цена Адаптации

В рамках VenusBench-Mobile особое внимание уделяется оценке стабильности работы моделей в различных условиях, что измеряется показателем “Стабильность прохождения” (Stability Pass Rate). Этот показатель позволяет определить, насколько последовательно модель выдает корректные результаты при незначительных изменениях входных данных или окружения. Результаты тестирования демонстрируют, что даже наиболее продвинутые модели показывают относительно низкий уровень стабильности, достигая в среднем лишь 15%. Это указывает на значительные трудности в создании надежных и предсказуемых систем искусственного интеллекта, способных эффективно функционировать в реальных, динамично меняющихся условиях. Низкий показатель стабильности подчеркивает необходимость дальнейших исследований и разработок, направленных на повышение устойчивости и надежности моделей искусственного интеллекта.

В рамках оценки эффективности и надежности моделей, VenusBench-Mobile отслеживает потребление токенов как показатель вычислительных затрат. Исследования показали, что модель UI-Venus-72B потребляет значительно больше токенов — около 850.0K — по сравнению с UI-Venus-7B, для которой этот показатель составляет 447.4K. Разница в потреблении токенов подчеркивает, что более крупные модели, хотя и могут демонстрировать повышенную производительность в определенных задачах, требуют существенно больших вычислительных ресурсов, что важно учитывать при развертывании и оптимизации таких систем для мобильных устройств.

Анализ потребления токенов в процессе выполнения задач на VenusBench-Mobile выявил значительные различия между моделями. В частности, модель MA3 в среднем потребляет 438.7 токенов на каждый шаг, что существенно превышает аналогичный показатель для GUI-Owl-7B, работающей независимо. Этот повышенный расход токенов указывает на вычислительные издержки, связанные со сложными циклами рассуждений, характерными для MA3. Общая средняя успешность прохождения тестов на VenusBench-Mobile составляет 36.9%, что демонстрирует заметный отрыв от более простых бенчмарков, таких как AndroidWorld, и подчеркивает необходимость оптимизации моделей для достижения большей эффективности и надежности при решении задач, требующих комплексного анализа и многошагового планирования.

Представленный труд демонстрирует, что оценка мобильных GUI-агентов требует не просто измерения скорости или точности, но и понимания их способности адаптироваться к сложным, реалистичным сценариям взаимодействия с пользователем. VenusBench-Mobile выявляет существенные пробелы в восприятии, памяти и устойчивости существующих моделей. Это напоминает о том, что система — это не статичная конструкция, а развивающаяся экосистема. Как однажды заметил Давид Гильберт: «Вся математика скрыта в ее символах, и всякий, кто понимает эти символы, обладает ключом к ее пониманию». Аналогично, для создания надежных мобильных агентов необходимо глубокое понимание не только алгоритмов, но и контекста, в котором они функционируют, и способности системы «прощать» ошибки.

Что дальше?

Представленный анализ мобильных GUI-агентов, зафиксированный в VenusBench-Mobile, обнажает не столько недостатки текущих моделей, сколько закономерные ограничения подхода, основанного на стремлении к иллюзорной «идеальности». Система, способная безупречно выполнять заранее определенные задачи, — это система, лишенная способности адаптироваться к непредсказуемости реального мира. Каждая «диагностируемая способность» — лишь фрагмент сложной экосистемы взаимодействия, и попытка изолировать и «оптимизировать» её — все равно что пытаться починить живой организм, разбирая его на отдельные органы.

Истинным вызовом является не создание «умных» агентов, а проектирование систем, способных достойно справляться со сбоями. Отказ в восприятии, потеря контекста, неверная интерпретация — это не ошибки, а акты очищения, необходимые для поддержания динамического равновесия. Идеальное решение — это стерильное пространство, в котором не остается места для человеческой изобретательности и спонтанности.

Будущее исследований, вероятно, лежит в переходе от оценки «способностей» к анализу механизмов восстановления после сбоев. Вместо того чтобы стремиться к абсолютной точности, следует сосредоточиться на создании систем, способных учиться на собственных ошибках и адаптироваться к меняющимся условиям. В конечном итоге, ценность агента определяется не его способностью идеально выполнять задачи, а его способностью достойно переживать неизбежные неудачи.

Оригинал статьи: https://arxiv.org/pdf/2604.06182.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-09 13:25

🚀 Квантовые новости