Автор: Денис Аветисян
Новая разработка позволяет значительно расширить возможности компьютерных агентов, обучая их человеческим приемам работы с интерфейсами и автоматизируя сложные задачи.

Представлена структурированная библиотека навыков CUA-Skill и агентский фреймворк, использующие процедурные знания для повышения эффективности и масштабируемости автоматизации рабочего стола.
Автономные агенты, способные эффективно взаимодействовать с компьютерными системами, остаются сложной задачей, уступая человеку в масштабируемости и надежности. В данной работе представлена система ‘CUA-Skill: Develop Skills for Computer Using Agent’, предлагающая структурированную библиотеку навыков и фреймворк для агентов, кодирующих знания о работе с компьютером в виде повторно используемых навыков и графов композиции. Это позволяет значительно повысить успешность выполнения задач и устойчивость в автоматизации настольных приложений. Какие перспективы открывает подобный подход для создания интеллектуальных помощников и автоматизации сложных рабочих процессов?
Автоматизация компьютера: Вызов и иллюзии прогресса
Несмотря на значительный прогресс в области искусственного интеллекта, надежная автоматизация повседневных компьютерных задач по-прежнему представляет собой серьезную проблему. Это связано с тем, что, в отличие от узкоспециализированных систем, успешно применяемых в контролируемых средах, реальные пользовательские интерфейсы характеризуются высокой степенью изменчивости и непредсказуемости. Даже кажущиеся простыми действия, такие как заполнение формы или поиск информации, требуют от автоматизированной системы способности адаптироваться к различным визуальным элементам, динамически меняющемуся контенту и неожиданным ошибкам. Таким образом, сложность не заключается в отсутствии вычислительной мощности, а в необходимости создания систем, способных эффективно ориентироваться в хаотичной и неструктурированной среде, характерной для взаимодействия человека с компьютером.
Традиционные методы автоматизации компьютерных задач сталкиваются с существенными трудностями из-за врожденной сложности и изменчивости графических пользовательских интерфейсов. В отличие от предсказуемых программных интерфейсов, GUI характеризуются визуальным разнообразием, динамически меняющимися элементами и неявными сигналами, требующими от автоматизированных систем не только распознавания объектов, но и понимания их контекста. Каждое приложение, и даже различные версии одного и того же приложения, может предъявлять уникальные визуальные шаблоны и способы взаимодействия, что делает создание универсальных алгоритмов автоматизации крайне сложной задачей. Простое сопоставление изображений или поиск по ключевым словам часто оказывается недостаточным, поскольку незначительные изменения в дизайне или расположении элементов могут привести к сбоям в работе автоматизированного агента. В результате, системы, основанные на жестко заданных правилах, демонстрируют низкую устойчивость к изменениям и требуют постоянной адаптации и перенастройки.
Автоматизация рутинных компьютерных задач сталкивается с серьезным препятствием: недостаточно просто научить агента выполнять отдельные действия. Для надежной работы необходимо, чтобы он сохранял информацию о предыдущих шагах и адаптировался к меняющимся условиям. Простое реагирование на стимулы, характерное для традиционных подходов, оказывается недостаточным, поскольку реальные пользовательские интерфейсы динамичны и непредсказуемы. Агент должен уметь сопоставлять текущую ситуацию с накопленным опытом, чтобы правильно интерпретировать происходящее и выбирать оптимальную стратегию действий, что требует принципиально новой архитектуры, способной к долгосрочному хранению и анализу информации о контексте выполнения задач.
Для надежной автоматизации компьютерных задач требуется принципиально новая архитектура, выходящая за рамки простых механизмов «стимул-реакция». Традиционные подходы, основанные на последовательном выполнении команд в ответ на конкретные действия пользователя, оказываются неэффективными перед лицом динамически меняющихся графических интерфейсов и непредсказуемых ситуаций. Вместо этого необходимы системы, способные сохранять контекст предыдущих действий, запоминать историю взаимодействия и адаптироваться к новым условиям, подобно человеческому мышлению. Такая архитектура предполагает наличие компонентов, отвечающих за долговременную память, планирование и принятие решений на основе накопленного опыта, что позволяет агенту действовать более гибко и эффективно, преодолевая ограничения стандартных автоматизированных процессов.

CUA-Skill: Библиотека переиспользуемых навыков
CUA-Skill представляет собой библиотеку переиспользуемых ‘Навыков’ (Skills), кодифицирующих знания о взаимодействии человека с компьютером. Каждый Навык инкапсулирует минимальное намерение пользователя, например, «выделить текст», «сохранить файл» или «открыть окно». Эти Навыки сформулированы как атомарные единицы действий, что позволяет их комбинировать и адаптировать для решения более сложных задач. Основой является декомпозиция пользовательских действий на элементарные шаги, что обеспечивает гибкость и возможность повторного использования в различных контекстах и приложениях. В отличие от макросов или скриптов, каждый Skill строго ориентирован на конкретное, четко определенное намерение пользователя.
Каждый Skill в архитектуре CUA-Skill сопряжен с параметризованными графами выполнения и композиции, что обеспечивает адаптацию к различным контекстам. Граф выполнения определяет конкретную последовательность действий GUI или исполняемых скриптов, необходимых для реализации Skill, при этом параметры позволяют изменять поведение в зависимости от текущей ситуации. Граф композиции описывает, как отдельные Skill могут быть объединены в более сложные рабочие процессы, используя параметры для управления потоком выполнения и адаптации к конкретным задачам пользователя. Такая параметризация и графическое представление позволяют повторно использовать Skill в различных сценариях, минимизируя необходимость в ручной настройке и обеспечивая гибкость системы.
Архитектура CUA-Skill использует ‘Граф Композиции Навыков’ (Skill Composition Graph) для определения последовательности и взаимосвязей между отдельными ‘Навыками’ (Skills), формируя таким образом более сложные рабочие процессы. Этот граф представляет собой структурированное описание того, как базовые навыки комбинируются и взаимодействуют друг с другом для достижения конкретной пользовательской цели. Он определяет порядок выполнения навыков, условия перехода между ними и передачу данных между ними, обеспечивая гибкость и возможность повторного использования отдельных компонентов в различных контекстах. Фактически, граф композиции является абстрактным представлением рабочего процесса, независимым от конкретной реализации.
Граф исполнения навыка (Skill Execution Graph) представляет собой конкретную реализацию рабочих процессов, определенных графом композиции навыка. Он преобразует абстрактные описания действий в последовательность операций, выполняемых либо через взаимодействия с графическим пользовательским интерфейсом (GUI), такие как нажатия кнопок и ввод данных, либо посредством выполнения исполняемых скриптов. Это позволяет системе автоматизировать сложные задачи, используя заранее определенные навыки и их комбинации, при этом обеспечивая гибкость в адаптации к различным окружениям и контекстам выполнения.

Планирование и извлечение информации для надежной автоматизации
Планировщик на основе большой языковой модели (LLM) осуществляет выбор и конфигурирование соответствующих навыков (Skills) для выполнения задач. Этот процесс основывается на анализе естественного языка инструкций, полученных от пользователя, и текущего контекста, включающего информацию о состоянии среды и прогрессе выполнения задачи. LLM Planner определяет необходимые навыки для достижения поставленной цели, настраивает их параметры в соответствии с контекстом и генерирует последовательность действий, обеспечивающих эффективное и надежное выполнение задачи. Выбор навыков осуществляется динамически, что позволяет адаптироваться к изменяющимся условиям и требованиям.
Процесс планирования, дополненный поиском информации (Retrieval-Augmented Planning), предполагает интеграцию этапов планирования и выполнения действий за счет извлечения релевантных данных из двух источников: текущего окружения и модуля памяти. Из окружения извлекается актуальная информация о состоянии системы и доступных ресурсах. Модуль памяти предоставляет доступ к истории выполнения задач и накопленным знаниям, что позволяет агенту адаптировать планы и принимать обоснованные решения в динамически меняющейся среде. Такое переплетение планирования и получения информации обеспечивает более эффективное и надежное выполнение автоматизированных задач.
Модуль памяти обеспечивает хранение информации о ходе выполнения задач и исторических данных, что позволяет агенту обучаться на основе прошлого опыта и корректировать свои убеждения с течением времени. Для этого используется графовая база знаний (Knowledge Graph), представляющая собой структурированное представление информации, где узлы соответствуют сущностям, а ребра — отношениям между ними. Граф знаний позволяет агенту не только запоминать факты о выполненных задачах, но и выводить новые знания на основе существующих, а также устанавливать связи между различными задачами и событиями, повышая эффективность планирования и принятия решений. Регулярное обновление и расширение графа знаний происходит по мере поступления новой информации из окружающей среды и результатов выполнения действий.
Механизм “GUI Grounding” обеспечивает точную привязку лингвистических инструкций к конкретным элементам графического интерфейса пользователя (GUI). Это достигается посредством анализа визуальных характеристик элементов GUI — их положения, размеров, текста и других атрибутов — и сопоставления этих данных с семантическим содержанием инструкций на естественном языке. В результате, система способна однозначно идентифицировать целевые элементы на экране, даже при неоднозначных или неполных формулировках инструкций, что позволяет корректно выполнять действия, такие как нажатия, ввод текста или выбор опций, тем самым связывая язык и действие.

Производительность и перспективы развития
Для оценки возможностей CUA-Skill была проведена проверка на платформе ‘WindowsAgentArena’ — специализированном бенчмарке, предназначенном для тестирования агентов, способных выполнять задачи в операционной системе Windows. Данная платформа позволяет комплексно оценить способность агента надежно взаимодействовать с графическим интерфейсом, имитируя действия пользователя и решая поставленные задачи. Использование ‘WindowsAgentArena’ позволило получить объективные данные о производительности CUA-Skill в реальных условиях, приближенных к повседневным компьютерным операциям, и сравнить его эффективность с другими существующими подходами в области разработки компьютерных агентов.
Исследования показали, что CUA-Skill демонстрирует высокую надёжность при выполнении сложных задач в среде WindowsAgentArena, достигая передового показателя успешности в 57.5% при оценке в формате «лучший из трёх». Этот результат свидетельствует о значительном прогрессе в области создания компьютерных агентов, способных эффективно взаимодействовать с операционной системой Windows и выполнять многоэтапные операции. Достигнутая успешность подтверждает эффективность подхода, основанного на повторно используемых навыках и планировании с расширением поиска, что позволяет агенту адаптироваться к различным сценариям и успешно справляться с поставленными задачами.
Полученные результаты демонстрируют существенный прогресс по сравнению с существующими подходами в области создания автономных агентов, способных взаимодействовать с операционной системой Windows. Успех CUA-Skill обусловлен использованием повторно используемых навыков и планированием, дополненным поиском релевантной информации. Такой подход позволяет агенту эффективно адаптироваться к различным задачам, используя накопленный опыт и быстро находя оптимальные решения даже в сложных ситуациях. Использование предварительно обученных навыков значительно ускоряет процесс обучения и повышает надежность выполнения задач, что делает CUA-Skill перспективной платформой для разработки интеллектуальных систем автоматизации.
Исследования показали, что CUA-Skill демонстрирует выдающиеся результаты в генерации траекторий выполнения задач, достигая успеха в 76.4% случаев. Этот показатель значительно превосходит производительность существующих систем, таких как Ultra-CUA и Operator, опережая их в 1.7 — 3.6 раза. Высокая эффективность в генерации траекторий свидетельствует о способности CUA-Skill эффективно планировать последовательность действий для достижения поставленной цели, что является ключевым фактором для успешного выполнения сложных задач на операционной системе Windows.
Дальнейшие исследования направлены на расширение библиотеки доступных навыков агента, что позволит ему решать еще более широкий спектр задач. Особое внимание уделяется повышению способности агента адаптироваться к неожиданным ситуациям и непредвиденным обстоятельствам, возникающим в процессе работы. Разрабатываются механизмы, позволяющие агенту не только распознавать новые сценарии, но и эффективно реагировать на них, используя существующие навыки и быстро обучаясь на основе получаемой обратной связи от пользователя. Предполагается, что такая адаптивность значительно повысит надежность и универсальность агента, делая его незаменимым помощником в различных областях применения.

Работа над CUA-Skill, как и большинство проектов автоматизации, неизбежно напоминает попытку приручить хаос. Создание библиотеки переиспользуемых навыков — это, конечно, благородная цель, но всегда найдется крайний случай, приложение, разработанное с явным пренебрежением к здравому смыслу, которое потребует нетривиальных решений. Кен Томпсон однажды заметил: «Программирование — это искусство объяснять компьютеру, что делать». В контексте CUA-Skill это особенно верно: нужно не просто научить машину выполнять действия, но и предвидеть все возможные отклонения от нормы. И, как показывает практика, этих отклонений всегда больше, чем можно было предположить. Система, способная адаптироваться к непредсказуемости пользовательского интерфейса, — это уже достижение, даже если она иногда падает стабильно.
Что дальше?
Представленная работа, как и все попытки обуздать цифровой хаос, предлагает структурированный подход к автоматизации. Библиотека навыков, безусловно, облегчает жизнь агенту, но не стоит забывать, что любое «удобство» — лишь отсрочка неизбежной головной боли. Продакшен всегда найдёт способ использовать предсказуемые паттерны для генерации совершенно непредсказуемых ошибок. И тогда все эти тщательно выверенные навыки превратятся в набор инструкций для усугубления бедствия.
Перспективы, конечно, есть. Расширение библиотеки, адаптация к новым интерфейсам, интеграция с более «умными» языковыми моделями… Но за каждым шагом вперёд скрывается экспоненциальный рост сложности. Улучшение навыков композиции — это хорошо, но что, если задача требует импровизации? Или, что ещё хуже, решения, которое выглядит элегантно в теории, но ломается при первом же столкновении с реальным пользователем?
В конечном счёте, всё это — лишь ещё один уровень абстракции, призванный скрыть первобытный хаос, царящий внутри любой операционной системы. И пусть эта библиотека навыков послужит напоминанием о том, что автоматизация — это не победа над сложностью, а умение с ней жить. Мы не чиним продакшен — мы просто продлеваем его страдания.
Оригинал статьи: https://arxiv.org/pdf/2601.21123.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Адаптация моделей к новым данным: квантильная коррекция для нейросетей
- Сердце музыки: открытые модели для создания композиций
- Где «смотрят» большие языковые модели: новый взгляд на визуальное понимание
- Эффективная память для больших языковых моделей: новый подход LOOKAT
- Игры в коалиции: где стабильность распадается на части.
- Эволюция под контролем: эксперименты с обучением с подкреплением в генетическом программировании
- Доказательство устойчивости веб-агента: проактивное свертывание контекста для задач с горизонтом в бесконечность.
- Доказательства просят: Как искусственный интеллект помогает отличать правду от вымысла
- Интеллектуальный поиск научных статей: новый подход к исследованию литературы
- Голос в переводе: как нейросети учатся понимать речь
2026-02-01 08:24