Доказательство устойчивости веб-агента: проактивное свертывание контекста для задач с горизонтом в бесконечность.

Автор: Денис Аветисян


Динамика расширения контекста AgentFold демонстрирует экспоненциальный рост, что указывает на его способность эффективно адаптироваться и включать всё больше релевантной информации в процесс решения задач.
Динамика расширения контекста AgentFold демонстрирует экспоненциальный рост, что указывает на его способность эффективно адаптироваться и включать всё больше релевантной информации в процесс решения задач.

В эпоху, когда возможности веб-агентов для решения сложных задач ограничены неминуемым насыщением контекста, возникает фундаментальное противоречие: как сохранить релевантность информации на протяжении длительных взаимодействий, не увязнув в шуме и не теряя критически важные детали? В своей работе ‘AgentFold: Long-Horizon Web Agents with Proactive Context Management’, авторы осмеливаются поставить под сомнение устоявшееся представление о пассивном накоплении контекста, предлагая радикально новый подход к управлению памятью агента. Если традиционные методы неизбежно жертвуют точностью ради масштабируемости, а упрощенные стратегии суммирования рискуют потерять ключевые инсайты, то возможно ли создать агента, способного не просто хранить информацию, но и активно формировать свой собственный, динамически адаптируемый ‘ландшафт’ знаний, чтобы эффективно решать задачи, требующие действительно долгосрочной перспективы?

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Истинная Элегантность Контекста: Преодоление Ограничений Традиционных Агентов

Традиционные агенты, использующие, например, методологию ReAct, часто сталкиваются с трудностями при решении задач, требующих долгосрочного планирования. Суть проблемы заключается в их подходе к управлению контекстом – добавлении всей информации последовательно, без какой-либо фильтрации или обобщения. Этот принцип, казалось бы, простой, быстро приводит к насыщению контекста, что существенно затрудняет способность агента эффективно рассуждать и действовать в процессе продолжительного взаимодействия.

Увеличение размера контекстного окна представляется очевидным решением, однако оно носит лишь временный характер. Простое расширение объема памяти не решает фундаментальной неэффективности удержания всей предшествующей информации. Каждая добавленная деталь, даже незначительная, создает когнитивную нагрузку, снижая скорость и точность анализа. Это подобно перегрузке вычислительной системы избыточными данными – производительность падает, а вероятность ошибки возрастает.

Агент AgentFold-30B-A3B демонстрирует выдающиеся результаты на сложных долгосрочных эталонных тестах, сопоставимые или превосходящие показатели агентов со значительно большими моделями, что стало возможным благодаря проактивному сжатию контекста, которое поддерживает его лаконичность – всего 7 тысяч токенов после 100 ходов взаимодействия и позволяет масштабироваться до 500 ходов.
Агент AgentFold-30B-A3B демонстрирует выдающиеся результаты на сложных долгосрочных эталонных тестах, сопоставимые или превосходящие показатели агентов со значительно большими моделями, что стало возможным благодаря проактивному сжатию контекста, которое поддерживает его лаконичность – всего 7 тысяч токенов после 100 ходов взаимодействия и позволяет масштабироваться до 500 ходов.

Авторы данной работы утверждают, что истинная эффективность проявляется в гармонии симметрии и необходимости, где каждая операция имеет смысл и место. Поддержание лаконичного и структурированного контекста – не просто техническая задача, но и вопрос принципиального подхода к организации интеллектуальной деятельности. Сохранение только релевантной информации, отсеивание избыточного шума и обобщение ключевых фактов – вот что позволяет агенту оставаться сосредоточенным, действовать быстро и принимать обоснованные решения даже в самых сложных ситуациях. В этом заключается суть предлагаемой архитектуры AgentFold, направленной на создание интеллектуальной системы, способной эффективно работать с долгосрочными задачами и преодолевать ограничения традиционных подходов.

Архитектура AgentFold: Проактивное Управление Контекстом как Основа Интеллекта

В контексте современных LLM-агентов, способность эффективно обрабатывать и синтезировать информацию из сети является краеугольным камнем прогресса. Однако, фундаментальное ограничение заключается в неизбежном насыщении контекста при решении долгосрочных задач. Авторы данной работы представляют AgentFold – принципиально новую архитектуру, разработанную для преодоления этой проблемы.

Центральной инновацией AgentFold является использование многомасштабных сводок состояний (Multi-Scale State Summaries). Это не просто хранилище истории взаимодействий, а тщательно курируемая, многоуровневая репрезентация прошлых событий, динамически балансирующая между полнотой и лаконичностью. Такой подход позволяет агенту сохранять контекстную релевантность даже при значительном увеличении длительности взаимодействия.

Архитектура AgentFold включает в себя два основных компонента контекста: многомасштабные сводки состояний (несколько сжатых блоков, сохраняющих предыдущую информацию) и запись последнего взаимодействия, при этом AgentFold формирует ответ из четырех блоков: размышления, сжатия, объяснения и вызова инструмента, который приводит к добавлению ответа инструмента, а директива сжатия имеет два режима работы: детальное сжатие одного шага с сохранением полезной информации и глубокое сжатие нескольких шагов с грубым резюме, особенно когда эти шаги завершают подзадачу и промежуточные детали не критичны для дальнейшего решения задачи.
Архитектура AgentFold включает в себя два основных компонента контекста: многомасштабные сводки состояний (несколько сжатых блоков, сохраняющих предыдущую информацию) и запись последнего взаимодействия, при этом AgentFold формирует ответ из четырех блоков: размышления, сжатия, объяснения и вызова инструмента, который приводит к добавлению ответа инструмента, а директива сжатия имеет два режима работы: детальное сжатие одного шага с сохранением полезной информации и глубокое сжатие нескольких шагов с грубым резюме, особенно когда эти шаги завершают подзадачу и промежуточные детали не критичны для дальнейшего решения задачи.

Ключевым элементом управления контекстом является директива сжатия (Folding Directive). Эта директива позволяет AgentFold интеллектуально обновлять сводки состояний, определяя, какую информацию следует сохранить, сжать или отбросить. Выбор стратегии сжатия не является случайным, а основан на оценке релевантности информации для текущей и будущих задач. Авторы подчеркивают, что этот проактивный подход к управлению контекстом позволяет AgentFold поддерживать возможности рассуждения даже при значительном увеличении длительности взаимодействия. В частности, возможность выборочного сохранения информации позволяет избежать потери критически важных деталей, а своевременное отбрасывание нерелевантных данных предотвращает перегрузку контекста.

Авторы демонстрируют, что данный механизм позволяет агенту не просто накапливать информацию, но и активно формировать «когнитивное пространство», оптимальное для решения поставленной задачи. Этот подход, в отличие от пассивного накопления данных, позволяет AgentFold сохранять высокую эффективность даже при решении сложных, долгосрочных задач, требующих глубокого анализа и синтеза информации.

Стратегии Сжатия: Гранулярная Конденсация и Глубокая Консолидация как Инструменты Эффективности

В основе архитектуры AgentFold лежит принцип активного управления контекстом, а не пассивного накопления информации. Исследователи реализовали два ключевых стратегии «сжатия» – гранулярную конденсацию и глубокую консолидацию – для обеспечения оптимального баланса между сохранением детализированной истории и поддержанием общей когерентности рассуждений.

Гранулярная конденсация фокусируется на преобразовании информации об отдельных шагах в новые сводки состояния. Это позволяет уточнять недавнюю историю, избавляясь от избыточности и сохраняя только наиболее релевантные детали. Подобный подход напоминает математическую операцию дифференцирования – выделение мгновенного изменения состояния системы.

Глубокая консолидация, напротив, предназначена для объединения нескольких предыдущих шагов в более общую сводку. Этот процесс позволяет AgentFold поддерживать долгосрочную осведомленность о контексте, жертвуя деталями ради общей картины. Здесь можно провести аналогию с интеграцией – суммированием изменений состояния во времени для получения общей величины. Оба этих механизма, управляемые директивой «сжатия» (Folding Directive), обеспечивают сбалансированное представление как недавних, так и отдаленных событий.

На примере конкретного случая демонстрируется работа AgentFold: после серии неудачных попыток (шаги 6-16) агент замечает, что данное направление может быть тупиковым, сжимает эти промежуточные шаги в одно заключение, планирует переключиться на другие направления поиска и определяет новые поисковые запросы.
На примере конкретного случая демонстрируется работа AgentFold: после серии неудачных попыток (шаги 6-16) агент замечает, что данное направление может быть тупиковым, сжимает эти промежуточные шаги в одно заключение, планирует переключиться на другие направления поиска и определяет новые поисковые запросы.

Следует отметить, что выбор между гранулярной конденсацией и глубокой консолидацией – это не произвольное решение, а результат логического анализа текущего состояния задачи и истории рассуждений. Исследователи подчеркивают, что эти стратегии не являются компромиссом между эффективностью и точностью, а скорее элегантным решением, позволяющим оптимизировать процесс поиска и синтеза информации.

Генерация Данных и Адаптация Модели: Создание Оптимальной Среды для Обучения

Для эффективной адаптации AgentFold к сложным задачам исследователи разработали специализированный конвейер генерации траекторий обучения, названный Fold-Generator. Этот конвейер не просто создает сценарии; он обеспечивает разнообразие ситуаций, необходимых для полноценного обучения агента. Применение наивных методов генерации данных чревато включением некачественных примеров, способных исказить процесс обучения. Поэтому, в структуру Fold-Generator интегрирован механизм отбраковки (Rejection Sampling). Этот механизм, подобно строгому фильтру, отсеивает суб-оптимальные примеры, гарантируя, что только наиболее качественные данные попадут в обучающую выборку. Оптимизация без анализа – самообман и ловушка для неосторожного разработчика.

Полученные данные, прошедшие строгий контроль качества, используются для тонкой настройки (Supervised Fine-Tuning) открытой языковой модели Qwen3-30B-A3B. Выбор этой модели обусловлен её архитектурными особенностями и потенциалом для адаптации к специфическим требованиям AgentFold. Процесс тонкой настройки направлен на оптимизацию производительности модели в рамках архитектуры AgentFold, что позволяет достичь значительно более высоких результатов по сравнению с использованием неадаптированной модели.

Анализ масштабируемости количества ходов взаимодействия (вызовов инструментов) демонстрирует значительный потенциал AgentFold для неустанной и надежной работы в течение сотен шагов для пользователей.
Анализ масштабируемости количества ходов взаимодействия (вызовов инструментов) демонстрирует значительный потенциал AgentFold для неустанной и надежной работы в течение сотен шагов для пользователей.

Сочетание тщательно разработанного конвейера генерации данных и процесса тонкой настройки позволяет создать мощный агент, способный эффективно решать сложные задачи, требующие не только глубокого понимания контекста, но и способности к стратегическому планированию и адаптации к меняющимся условиям. Результаты, представленные в работе, демонстрируют, что предложенный подход открывает новые возможности для создания интеллектуальных агентов, способных к устойчивой и эффективной работе в сложных и динамичных средах.

Результаты и Перспективы: Оценка Производительности и Направления Будущих Исследований

Результаты экспериментов демонстрируют, что AgentFold демонстрирует выдающиеся показатели на эталонных тестах, таких как BrowseComp и GAIA, подтверждая его способность эффективно находить информацию и выполнять общие задачи. Особенное внимание заслуживает его производительность на задачах, требующих длительного планирования и рассуждений. Проактивное управление контекстом позволяет AgentFold превосходить традиционные методы, демонстрируя значительное улучшение когнитивных способностей.

Сложность алгоритма измеряется не количеством строк, а пределом масштабируемости и асимптотической устойчивостью. Именно поэтому, способность AgentFold сохранять когерентность и релевантность контекста на протяжении длительных взаимодействий является принципиальным достижением. В отличие от систем, страдающих от экспоненциального роста объема информации, AgentFold активно структурирует и конденсирует данные, обеспечивая стабильную производительность даже в сложных сценариях.

Данная работа открывает захватывающие возможности для создания более надёжных и эффективных AI-агентов, способных решать сложные, реальные задачи. Способность к динамическому управлению контекстом представляет собой фундаментальный шаг к созданию систем, которые могут адаптироваться к изменяющимся условиям и эффективно использовать имеющиеся ресурсы. Это особенно важно для приложений, требующих долгосрочного планирования и принятия решений.

Будущие исследования будут сосредоточены на совершенствовании стратегий «сжатия» контекста и изучении областей применения в таких областях, как робототехника и персонализированная помощь. Перспективы использования AgentFold в робототехнических системах особенно интересны, поскольку способность к эффективному управлению контекстом может значительно повысить автономность и надежность роботов. Кроме того, возможность предоставления персонализированной помощи, основанной на глубоком понимании потребностей пользователя, открывает широкие возможности для создания интеллектуальных помощников нового поколения.

Исследователи также планируют изучить возможность интеграции AgentFold с другими AI-системами, такими как системы компьютерного зрения и обработки естественного языка, чтобы создать более универсальные и интеллектуальные AI-агенты. Это позволит создать системы, способные понимать мир вокруг себя и взаимодействовать с ним естественным и интуитивно понятным образом.

Исследование, представленное авторами, демонстрирует стремление к созданию агентов, способных к долгосрочному планированию и взаимодействию с веб-средой. В этом контексте, особенно ярко отзывается мысль Ады Лавлейс: «Пусть N стремится к бесконечности — что останется устойчивым?». Эта фраза, в применении к AgentFold, подразумевает необходимость в архитектуре, способной сохранять суть задачи даже при усложнении контекста и увеличении горизонтов планирования. Проактивное управление контекстом, реализованное в AgentFold, как раз и направлено на поддержание этой устойчивости, отбрасывая несущественное и фокусируясь на ключевых аспектах задачи. Авторы, по сути, стремятся создать алгоритм, который будет доказуемо стабилен даже при неограниченном росте сложности, а не просто «работать» на ограниченном наборе тестов.

Что дальше?

Исследователи, представив AgentFold, безусловно, сделали шаг вперед в области веб-агентов, способных к решению задач с горизонтом планирования, простирающимся во времени. Однако, не стоит забывать, что «проактивное свертывание контекста» – это, по сути, тщательно замаскированная эвристика. Она позволяет агенту функционировать, но не гарантирует математической корректности в любой, даже слегка отличающейся, ситуации. Успех метода в значительной степени зависит от умения правильно определять «масштабные сводки состояния» – а это, как известно, искусство, а не наука.

Будущие исследования должны сосредоточиться не на улучшении эффективности эвристик, а на поиске принципиально новых подходов к представлению и обработке контекста. Возможно, стоит обратить внимание на методы, заимствованные из области формальной верификации, или на создание агентов, способных самостоятельно доказывать корректность своих действий. В противном случае, мы рискуем создать системы, которые будут успешно «решать» задачи на тестовых примерах, но неизбежно потерпят крах в реальном мире.

Иронично, но истинная элегантность в этой области заключается не в сложности архитектуры, а в простоте и доказуемости базовых принципов. Задача состоит не в том, чтобы создать агента, который выглядит разумным, а в том, чтобы создать систему, чье поведение можно предсказать и объяснить математически. И тогда, возможно, мы сможем приблизиться к созданию действительно интеллектуальных агентов.


Оригинал статьи: https://arxiv.org/pdf/2510.24699.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-10-29 17:41