Долгосрочная память для умных агентов: новый подход к сложным задачам

Автор: Денис Аветисян

Исследователи представили новый бенчмарк и механизм памяти, позволяющие агентам, взаимодействующим с графическим интерфейсом, эффективно запоминать и использовать информацию на протяжении длительных периодов времени.

Представленная работа демонстрирует AndroTMem - систему, включающую в себя комплексный бенчмарк <span class="katex-eq" data-katex-display="false">AndroTMem-Bench</span> для долгосрочного тестирования Android GUI, выявляющую, что снижение производительности при увеличении горизонта планирования обусловлено, главным образом, нехваткой памяти, и решаемую посредством Anchored State Memory (ASM) - механизма хранения промежуточных состояний, связанных причинно-следственной связью, для повышения эффективности агентов GUI в долгосрочной перспективе. — Представленная работа демонстрирует AndroTMem — систему, включающую в себя комплексный бенчмарк $AndroTMem-Bench$ для долгосрочного тестирования Android GUI, выявляющую, что снижение производительности при увеличении горизонта планирования обусловлено, главным образом, нехваткой памяти, и решаемую посредством Anchored State Memory (ASM) — механизма хранения промежуточных состояний, связанных причинно-следственной связью, для повышения эффективности агентов GUI в долгосрочной перспективе.

В статье представлен бенчмарк AndroTMem и механизм anchored state memory (ASM), позволяющий моделировать причинно-следственные связи между состояниями и повышать эффективность выполнения сложных задач в Android GUI.

Вопреки распространенному мнению, эффективное удержание и использование долгосрочной памяти остается серьезной проблемой для агентов, взаимодействующих с графическим интерфейсом пользователя в задачах, требующих множества последовательных действий. В настоящей работе, ‘AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents’, представлен новый диагностический фреймворк AndroTMem и механизм Anchored State Memory (ASM), демонстрирующие, что явное моделирование причинно-следственных связей между промежуточными состояниями значительно повышает производительность в сложных задачах. Эксперименты на базе разработанного бенчмарка AndroTMem-Bench показали улучшение показателя Task Completion Rate на 5-30.16% по сравнению с традиционными подходами. Сможет ли предложенный подход к организации памяти стать основой для создания более надежных и эффективных агентов, способных к самостоятельному решению сложных задач в реальном мире?

Преодоление Вызовов Долгосрочного Взаимодействия

Автоматизированные агенты графического интерфейса (GUI), предназначенные для выполнения задач в цифровой среде, сталкиваются со значительными трудностями при взаимодействии, требующем последовательного запоминания и применения информации на протяжении длительных цепочек действий. В отличие от простых, одношаговых операций, сложные задачи, состоящие из множества взаимосвязанных этапов, предъявляют повышенные требования к сохранению контекста и актуальности данных. Неспособность эффективно управлять этой «долгосрочной памятью» приводит к ошибкам, снижению производительности и, в конечном итоге, к неспособности агента успешно завершить поставленную задачу. Проблема усугубляется экспоненциальным ростом вычислительных затрат при увеличении длительности последовательности действий, что делает традиционные методы неэффективными и ограничивает возможности создания по-настоящему автономных и полезных агентов.

Традиционные методы управления агентами сталкиваются с серьезными ограничениями при обработке продолжительных последовательностей действий. Поддержание актуального состояния агента на протяжении множества шагов, особенно в задачах, требующих более трех десятков операций, приводит к экспоненциальному росту вычислительных затрат и, как следствие, к увеличению вероятности ошибок. Каждый новый шаг требует повторной обработки всей предыдущей информации, что делает процесс неэффективным и ресурсоемким. Эта проблема особенно остро проявляется в сложных задачах, где даже незначительная ошибка в сохранении состояния может привести к полной неудаче всей операции, лишая агента возможности успешно завершить поставленную задачу и эффективно взаимодействовать с окружающей средой.

Успешное выполнение задач с “длинным горизонтом”, средняя продолжительность которых в бенчмарке AndroTMem-Bench составляет 32.1 шага, а максимальная достигает 65, является ключевым фактором в создании действительно полезных и автономных агентов. Способность сохранять контекст и последовательно выполнять большое количество действий без потери информации необходима для автоматизации сложных процессов, таких как помощь в повседневных задачах или управление сложными системами. Агенты, неспособные к эффективной работе с задачами, требующими длительной последовательности действий, остаются ограниченными в своих возможностях и не могут полноценно заменить человека в сложных сценариях. Разработка методов, позволяющих агентам успешно ориентироваться в таких задачах, открывает путь к созданию действительно интеллектуальных систем, способных к самостоятельному обучению и адаптации.

В задачах с графическим интерфейсом, требующих долгосрочного планирования, традиционные методы отслеживания истории действий часто приводят к ошибкам из-за потери релевантного состояния, неверной привязки, смещения контекста и отсутствия подтверждения прогресса, в то время как архитектура ASM сохраняет структурированные промежуточные состояния, обеспечивая принятие верных решений.

Якорная Память Состояний: Каузальный Подход

Память на основе якорей состояний (ASM) структурирует историю взаимодействия, организуя её в “якоря состояний”, связанные причинно-следственными связями. Вместо хранения всей последовательности действий, ASM выделяет и сохраняет только значимые состояния, представляющие собой ключевые моменты взаимодействия с окружением. Каждый якорь состояния содержит информацию о конкретном состоянии системы и о действиях, которые привели к этому состоянию, а также о последствиях этих действий. Такая организация позволяет агенту эффективно восстанавливать контекст прошлых взаимодействий и использовать его для принятия решений в текущей ситуации, избегая необходимости анализа всей истории.

В отличие от методов, основанных на сохранении всей истории взаимодействий («Raw History») или создании обобщенных сводок («Coarse Summary»), Anchored State Memory (ASM) фокусируется на приоритезации релевантной информации. Такой подход позволяет существенно снизить вычислительную нагрузку, поскольку агент не обрабатывает избыточные данные. Вместо хранения всей последовательности действий, ASM оперирует только с ключевыми состояниями и причинно-следственными связями между ними, что повышает эффективность использования памяти и ускоряет процесс принятия решений.

Механизм Anchored State Memory (ASM) повышает эффективность агентов, работающих с графическим интерфейсом, за счет организации истории взаимодействий на основе причинно-следственных связей между состояниями. Это позволяет агентам более точно извлекать и использовать прошлый опыт для решения текущих задач. В результате, наблюдается повышение показателя успешного выполнения задач (Task Completion Rate, TCR) в диапазоне от 5% до 30.16%, а также улучшение соответствия действий агента ожидаемым (Action Matching Score, AMS) на 4.93%-24.66% в различных тестовых средах GUI.

Сравнение стратегий использования истории взаимодействия агента (Raw History, Coarse Summary и Anchored State Memory) демонстрирует их влияние на производительность в различных диапазонах шагов взаимодействия.

AndroTMem: Бенчмарк для Оценки Памяти Взаимодействий

Фреймворк AndroTMem, включающий в себя эталонный набор тестов AndroTMem-Bench, представляет собой строгую методологию для оценки способности GUI-агентов сохранять и использовать информацию на протяжении длительных взаимодействий. Данный фреймворк обеспечивает стандартизированную процедуру тестирования, позволяющую количественно оценить эффективность различных подходов к управлению памятью в контексте сложных, многошаговых задач, требующих сохранения состояния и учета предшествующих действий. AndroTMem-Bench состоит из набора GUI-задач, разработанных для проверки способности агента к долгосрочному запоминанию и использованию релевантной информации, необходимой для успешного выполнения поставленной цели.

Для количественной оценки производительности агентов в сложных, сохраняющих состояние задачах в рамках AndroTMem-Bench используются метрики «Коэффициент завершения задачи» (Task Completion Rate, TCR) и «Соответствие действий» (Action Matching Score, AMS). TCR измеряет долю успешно выполненных задач, в то время как AMS оценивает соответствие действий агента ожидаемым действиям для достижения цели. На данном бенчмарке модель Gemini-3-Flash продемонстрировала результат в 55.21% по TCR и 46.14% по AMS, что позволяет сравнивать производительность различных GUI-агентов в задачах, требующих сохранения контекста и долгосрочной памяти.

Бенчмарк AndroTMem специально разработан для оценки производительности агентов в сценариях, характеризующихся выраженной причинно-следственной связью между действиями и их последствиями. Традиционные методы оценки, не учитывающие долгосрочные зависимости между состояниями интерфейса и действиями пользователя, демонстрируют ограниченную эффективность в подобных условиях. Это проявляется в снижении точности выполнения задач и неспособности агентов эффективно адаптироваться к изменяющимся состояниям GUI, что подтверждается результатами тестов, показывающими низкие показатели успешности в сложных, многоэтапных сценариях, требующих сохранения и использования информации о предыдущих взаимодействиях.

Статистический анализ AndroTMem-Bench демонстрирует разнообразие комбинаций приложений, распределение длины шага в зависимости от типа задачи, общую длину траекторий (сравнение с предыдущими бенчмарками), частоту использования приложений, пропорции типов действий и разнообразие действий для каждой задачи.

Устранение Режимов Отказа в Задачах с Длинным Горизонтом

В процессе взаимодействия с графическими пользовательскими интерфейсами (GUI) агенты часто сталкиваются с определенными типами сбоев. К ним относятся “Потеря состояния”, когда агент перестает отслеживать ключевую информацию о текущей ситуации; “Неправильная привязка состояния”, возникающая при ошибочном соотнесении элементов интерфейса с их значениями; “Дрейф контекста”, приводящий к потере понимания общей цели задачи; и, наконец, “Неподтвержденный прогресс”, когда агент считает, что продвигается к цели, хотя на самом деле этого не происходит. Эти распространенные ошибки подчеркивают необходимость разработки более надежных методов представления состояния и причинно-следственного анализа для создания агентов, способных эффективно выполнять сложные задачи в интерактивной среде.

Неудачи, возникающие при решении сложных задач искусственным интеллектом, подчеркивают критическую важность точного представления состояния системы и надежного причинно-следственного анализа. Именно способность агента правильно интерпретировать текущую ситуацию и понимать последствия своих действий является фундаментом для успешного выполнения долгосрочных задач. Неточности в представлении состояния, даже незначительные, могут привести к каскаду ошибок, а неспособность установить причинно-следственные связи препятствует адаптации к изменяющимся условиям. Таким образом, разработка алгоритмов, обеспечивающих корректное представление информации и эффективный анализ взаимосвязей, является ключевым направлением в создании надежных и интеллектуальных агентов, способных действовать в сложных и динамичных средах.

Понимание выявленных ограничений в работе агентов, таких как потеря состояния, неправильная привязка состояний, смещение контекста и неподтвержденный прогресс, открывает возможности для создания более устойчивых и надежных систем искусственного интеллекта. Исследователи активно разрабатывают новые методы представления состояния и алгоритмы причинно-следственного анализа, направленные на смягчение этих проблем. Успешное преодоление этих трудностей позволит агентам эффективно решать сложные задачи, требующие долгосрочного планирования и адаптации к изменяющейся среде, что значительно расширит область применения искусственного интеллекта в различных сферах, от автоматизации до научных исследований.

Исследование, представленное в данной работе, акцентирует внимание на важности моделирования причинно-следственных связей между промежуточными состояниями агента при решении сложных задач во взаимодействии с графическим интерфейсом. Это созвучно принципам, которые отстаивал Дэвид Марр. Как он однажды заметил: «Вы должны понимать, что происходит на каждом уровне представления, чтобы понять, как работает система». Именно такое понимание позволяет создать действительно надежного агента, способного не просто «работать на тестах», но и демонстрировать устойчивую производительность в долгосрочной перспективе, эффективно используя накопленный опыт и избегая ошибок, возникающих из-за недостаточного понимания причинно-следственных связей. Предложенный механизм Anchored State Memory (ASM) представляет собой шаг к реализации этой концепции, позволяя агенту выстраивать более четкую и непротиворечивую модель мира.

Что дальше?

Представленный труд, несомненно, демонстрирует важность явного моделирования причинно-следственных связей между промежуточными состояниями для достижения успеха в долгосрочных задачах. Однако, наивное расширение предложенного подхода столкнется с экспоненциальным ростом сложности, что неизбежно потребует разработки более элегантных методов представления и управления знаниями. Простое увеличение объема «якоренной памяти» не является решением; истинная красота алгоритма проявляется не в трюках, а в непротиворечивости его границ и предсказуемости.

Будущие исследования должны сосредоточиться на разработке методов автоматического извлечения причинно-следственных связей из необработанных данных взаимодействия. Необходимо перейти от ручного определения этих связей к алгоритмам, способным самостоятельно обнаруживать и верифицировать их корректность. Интересным направлением представляется применение принципов байесовского вывода для оценки вероятности причинно-следственных связей с учетом неопределенности данных.

В конечном счете, задача создания действительно разумного агента, способного к долгосрочному планированию и обучению, требует не просто хранения информации о прошлом, а глубокого понимания лежащих в основе принципов. Истинное решение, вероятно, потребует интеграции представленного подхода с более общими моделями знания и рассуждений, основанными на формальной логике и теории вероятностей. Иначе, мы рискуем создать лишь сложный автомат, имитирующий разум, но лишенный его сущности.

Оригинал статьи: https://arxiv.org/pdf/2603.18429.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-20 16:39

🚀 Квантовые новости