Обучение агентов: Видео как ключ к освоению компьютера

Автор: Денис Аветисян


Новый подход к моделированию вознаграждений позволяет компьютерным агентам эффективно учиться, наблюдая за действиями человека на экране.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
На рисунке представлено сравнение показателей временного пересечения (tIoU) различных моделей на тестовом наборе ExeVR-Bench, демонстрирующее различия в их способности точно отслеживать объекты во времени.
На рисунке представлено сравнение показателей временного пересечения (tIoU) различных моделей на тестовом наборе ExeVR-Bench, демонстрирующее различия в их способности точно отслеживать объекты во времени.

Исследование представляет метод обучения на основе анализа видео, пространственной и временной фильтрации, и состязательного перевода инструкций для повышения надежности и производительности.

Несмотря на растущие возможности компьютерных агентов, оценка успешности выполнения пользовательских инструкций остается сложной задачей. В работе ‘Video-Based Reward Modeling for Computer-Use Agents’ предложен новый подход к обучению моделей вознаграждения, основанный на анализе видеозаписей действий агента, с использованием пространственно-временной фильтрации и генерации негативных примеров посредством состязательного перевода инструкций. Разработанная модель вознаграждения ExeVRM демонстрирует превосходство над проприетарными аналогами, такими как GPT-5.2 и Gemini-3 Pro, в оценке траекторий на различных платформах. Способна ли данная методика видео-оценки стать масштабируемым и универсальным инструментом для оценки компьютерных агентов нового поколения?


Вызов автоматической оценки задач: Трудности и перспективы

Автоматическая оценка выполнения компьютерных задач является ключевым требованием для создания надежных и адаптивных искусственных интеллектов, однако эта задача представляется удивительно сложной. В отличие от узкоспециализированных систем, способных решать четко определенные проблемы, оценка действий пользователя в интерактивной среде требует понимания не только формальной корректности, но и намерений, контекста и даже возможных ошибок, которые не приводят к немедленному сбою. Эффективная автоматическая оценка должна учитывать вариативность пользовательского поведения, способность находить оптимальные решения разными путями и отличать незначительные неточности от принципиальных ошибок, что требует разработки новых алгоритмов и методов машинного обучения, способных к более глубокому пониманию и интерпретации действий.

Традиционные методы автоматической оценки выполнения задач пользователями часто оказываются неспособны выявлять незначительные ошибки или понимать истинные намерения, стоящие за действиями. Эти системы, как правило, полагаются на строгое соответствие заданным шагам или ожидаемым результатам, не учитывая контекст, вариативность человеческого поведения или творческие подходы к решению проблемы. Например, система может пометить действие как ошибочное, даже если пользователь достиг той же цели иным, но не предусмотренным алгоритмом способом. Такая неспособность к пониманию намерений приводит к ложным срабатываниям, снижает надежность оценки и препятствует развитию действительно интеллектуальных агентов, способных к гибкому и адаптивному взаимодействию с человеком.

Отрицательные примеры синтезируются посредством состязательного перевода инструкций с использованием языковой модели GPT-5.2.
Отрицательные примеры синтезируются посредством состязательного перевода инструкций с использованием языковой модели GPT-5.2.

Создание ExeVR-53k: Основа для видео-вознаграждения

Мы разработали ExeVR-53k — масштабный набор данных, состоящий из 53 000 видеозаписей действий пользователей в компьютерной среде. Этот набор данных предназначен для обучения и оценки моделей искусственного интеллекта, способных понимать и воспроизводить последовательности действий, выполняемых в операционных системах. ExeVR-53k предоставляет обширную базу для анализа сложных взаимодействий с компьютерным интерфейсом и служит платформой для разработки более надежных и универсальных систем автоматизации и обучения.

Для создания набора данных ExeVR-53k использовался подход, основанный на развертывании агентов в виртуальной среде OSWorld и записи их действий. Агенты выполняли различные задачи в операционной системе, а все взаимодействия, включая действия мыши и клавиатуры, а также визуальные данные, фиксировались для последующей обработки и формирования обучающих примеров. Этот метод позволил собрать обширный объем данных, отражающих реальное использование компьютера и представляющих разнообразные сценарии взаимодействия с операционной системой.

В процессе создания ExeVR-53k мы использовали метод Adversarial Instruction Translation (состязательного перевода инструкций) для генерации сложных сценариев взаимодействия с операционной системой. Этот подход заключается в автоматической модификации инструкций, задаваемых агентам, с целью создания ситуаций, требующих от модели более глубокого понимания контекста и способности к адаптации. Изначальные инструкции намеренно усложняются или содержат неоднозначности, что заставляет агента проявлять повышенную устойчивость к нештатным ситуациям и улучшает его обобщающую способность. Таким образом, метод позволяет обучать модели, способные эффективно функционировать в более реалистичных и сложных условиях, повышая их надежность и робастность.

Распределение задач в наборе данных ExeVR-53k демонстрирует разнообразие решаемых проблем.
Распределение задач в наборе данных ExeVR-53k демонстрирует разнообразие решаемых проблем.

Траектории как ключ к пониманию: Представление и обработка видео

Разработанное нами унифицированное представление видео на основе траекторий движения позволяет проводить целенаправленный анализ видеоданных. Данное представление формируется путем отслеживания и записи траекторий объектов или ключевых точек в кадре, что обеспечивает структурированное описание видеоконтента. В отличие от анализа полных кадров, фокусировка на траекториях позволяет выделить значимые элементы и их динамику, упрощая задачи распознавания действий, отслеживания объектов и понимания сцены. Это представление является основой для последующей обработки и анализа, обеспечивая эффективное извлечение информации из видеопотока.

Сегментация траекторий является ключевым этапом извлечения репрезентативных ключевых кадров, формирующих основу визуального ввода для последующей обработки. Процесс заключается в разделении записанных траекторий движения на значимые сегменты, каждый из которых соответствует определенному действию или фазе действия. Выделенные сегменты используются для определения моментов времени, в которых необходимо извлечь ключевые кадры, обеспечивая сжатое и информативное представление видеопоследовательности. Качество сегментации напрямую влияет на эффективность визуального анализа, поскольку неточности в определении границ сегментов могут привести к извлечению нерелевантных или неполных ключевых кадров, снижая общую производительность системы.

Для оптимизации полученного видеопредставления использовалась процедура спатиотемпорального отсечения токенов (Spatiotemporal Token Pruning), направленная на снижение избыточности данных. Данная процедура включает в себя два этапа: пространственное отсечение токенов (Spatial Token Pruning, STP), которое уменьшает количество пространственно избыточных признаков, и темпоральное отсечение токенов (Temporal Token Pruning, TTP), направленное на сокращение временной избыточности в последовательности признаков. Комбинированное применение STP и TTP позволяет существенно уменьшить объем данных, необходимых для представления видео, при минимальной потере информации, критичной для последующего анализа.

Сравнение стратегий STP и TTP демонстрирует различия в их подходах к решению задачи.
Сравнение стратегий STP и TTP демонстрирует различия в их подходах к решению задачи.

ExeVRM: Модель оценки видео для задач компьютерной деятельности

ExeVRM представляет собой модель оценки на основе видео выполнения задач, разработанную путем тонкой настройки фундаментальной модели Qwen3-VL. В основе ExeVRM лежит архитектура Qwen3-VL, которая была адаптирована и обучена для анализа видеозаписей пользовательских действий при работе с компьютером. Процесс тонкой настройки позволяет модели эффективно оценивать успешность выполнения задач, представленных в видеоформате, путем выявления ключевых визуальных признаков и сопоставления их с ожидаемыми результатами. Использование предварительно обученной модели Qwen3-VL обеспечивает высокую производительность и эффективность обучения, позволяя ExeVRM быстро адаптироваться к задаче оценки выполнения компьютерных задач.

Модель ExeVRM обучалась на наборе данных ExeVR-53k, содержащем 53 тысячи видеозаписей выполнения компьютерных задач. Обучение проводилось с целью оценки успешности выполнения этих задач непосредственно по видеоматериалам. Набор данных ExeVR-53k включает в себя разнообразные сценарии взаимодействия с компьютером, что позволяет модели оценивать широкий спектр пользовательских действий и определять, достигнута ли поставленная цель в каждом конкретном случае. Использование видеоданных в качестве входных данных позволяет ExeVRM анализировать не только конечный результат, но и процесс выполнения задачи, что повышает точность оценки.

При всесторонней оценке, модель ExeVRM достигла точности 84.7% и полноты 87.7% на бенчмарке ExeVR-Bench, демонстрируя превосходство над сильными проприетарными и открытыми аналогами. В частности, ExeVRM превзошла модель Seed-2.0 Pro (точность 80.3%, полнота 74.7%) и GPT-5.2 (точность 75.0%, полнота 66.5%) по обоим показателям, подтверждая её эффективность в оценке успешности выполнения задач на основе видеозаписей действий пользователя.

В рамках оценки ExeVRM, метрика Temporal Intersection over Union (tIoU) была использована для более точного определения временных границ успешного выполнения действий в видео. Результаты показывают, что ExeVRM превосходит другие модели в определении корректного времени, когда задача была успешно выполнена, что подтверждается более высокими значениями tIoU по сравнению с аналогами. Это указывает на улучшенную способность модели к временной атрибуции, позволяющей более точно связывать конкретные моменты в видео с успешным выполнением определенных шагов задачи.

Исследование демонстрирует, что обучение компьютерных агентов требует не просто распознавания действий, но и понимания их последовательности и контекста. Авторы предлагают элегантный подход к моделированию вознаграждений, используя видеозаписи выполнения задач и оптимизируя процесс обучения с помощью пространственно-временной обрезки. Это напоминает о важности гармонии между формой и функцией — каждый элемент интерфейса, каждая деталь алгоритма должна работать в унисон, чтобы достичь желаемого результата. Как однажды заметил Дэвид Марр: «Понимание представления требует понимания процесса». Именно это стремление к глубокому пониманию лежит в основе представленной работы, позволяя агентам не просто выполнять инструкции, но и адаптироваться к новым ситуациям и учиться на своих ошибках. Использование состязательного перевода инструкций особенно важно, поскольку позволяет создавать надежные данные для обучения, что критически важно для достижения стабильной и эффективной работы агента.

Что дальше?

Представленная работа, несомненно, демонстрирует элегантность подхода к моделированию вознаграждений, но, как часто бывает, решение одной задачи неизбежно обнажает новые грани сложности. Повышение устойчивости к незнакомым графическим интерфейсам и вариациям в пользовательском поведении остаётся критически важным. Использование лишь визуальной информации, хотя и эффективно, оставляет нерешенной задачу интеграции с более широким контекстом — пониманием семантики действий, а не только их визуальным представлением. Следующим шагом представляется разработка гибридных моделей, объединяющих визуальное восприятие с символическим рассуждением.

Особенно интересно представляется возможность применения принципов, заложенных в данной работе, к задачам, выходящим за рамки автоматизации GUI. Моделирование вознаграждений на основе исполнения действий может оказаться полезным в обучении роботов сложным манипуляциям, требующим не только достижения цели, но и соблюдения определённого стиля или эстетики выполнения. По сути, речь идет о создании агентов, способных не только делать, но и делать красиво.

В конечном итоге, успех подобных исследований будет определяться не столько достижением новых рекордов производительности, сколько способностью создать системы, которые интуитивно понятны и предсказуемы для человека. Элегантность интерфейса — это форма уважения к пользователю, и это принцип, который следует помнить при дальнейшем развитии данного направления.


Оригинал статьи: https://arxiv.org/pdf/2603.10178.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-15 08:30