Память агента: Обучение без задач

Автор: Денис Аветисян

Новый подход позволяет создавать эффективную «память» для интеллектуальных агентов, используя контролируемую практику и валидацию качества до развертывания.

Предварительная подготовка процедурной памяти посредством самогенерируемой синтетической практики позволяет системе эффективно преодолеть проблему «холодного старта» и обеспечить широкое покрытие инструментов до начала взаимодействия с пользователем, в отличие от методов, требующих предварительных человеческих задач или накопления опыта в процессе эксплуатации, что демонстрируется более высокой производительностью и полным покрытием инструментов уже после начальной подготовки, в то время как альтернативные подходы требуют значительно большего количества задач для достижения сопоставимых результатов.

В статье представлена методика Preping для конструирования повторно используемой памяти агента посредством синтетической практики и валидатора, обеспечивающих повышение производительности и снижение проблем «холодного старта».

Обычно, создание памяти для агентов требует предварительно собранных данных или взаимодействия с реальной средой после развертывания, что создает проблему «холодного старта». В данной работе, посвященной ‘PREPING: Building Agent Memory without Tasks’, предлагается новый подход к построению процедурной памяти агента до начала выполнения целевых задач, используя исключительно синтетическую практику. В основе предложенного фреймворка Preping лежит управляемое построение памяти посредством генерации задач и валидации траекторий, что позволяет достичь производительности, сопоставимой с методами, использующими готовые данные или онлайн-обучение, при значительно меньших затратах на развертывание. Сможет ли такой подход к предварительному обучению агентов существенно снизить зависимость от больших объемов размеченных данных и ускорить адаптацию к новым условиям?

Превосходство над Случайностью: Проактивная Память как Основа Интеллекта

Современные языковые модели, функционирующие в качестве агентов, зачастую испытывают трудности при решении сложных задач, что обусловлено ограниченными возможностями по сохранению и извлечению необходимой информации. Ограничения касаются не только объема памяти, но и эффективности организации знаний. В процессе выполнения задач, агенты могут «забывать» ключевые детали или испытывать затруднения с поиском релевантной информации из накопленного опыта, что приводит к ошибкам и снижению общей производительности. Данная проблема особенно актуальна при взаимодействии с динамически меняющимися условиями и при выполнении задач, требующих долгосрочного планирования и учета множества факторов. Отсутствие надежной системы сохранения и быстрого доступа к знаниям становится серьезным препятствием на пути к созданию действительно интеллектуальных и автономных агентов.

Традиционные подходы к формированию памяти в языковых моделях зачастую являются реактивными, то есть память строится непосредственно в процессе выполнения задачи. Это ограничивает способность агента адаптироваться к новым ситуациям и эффективно решать сложные проблемы. В отличие от систем, которые формируют знания “на лету”, реактивный подход предполагает, что информация собирается и структурируется только тогда, когда это необходимо для текущего действия. Такой метод может приводить к задержкам в обработке информации, неполноте знаний и трудностям с обобщением опыта, поскольку агент не обладает заранее сформированным контекстом и не может предвидеть будущие потребности в информации. В результате, эффективность агента существенно снижается при столкновении с неожиданными или меняющимися обстоятельствами.

Предварительное конструирование памяти, осуществляемое до начала взаимодействия с задачей, представляется ключевым фактором для обеспечения надежной работы интеллектуальных агентов. В отличие от реактивных подходов, когда память формируется по мере выполнения задачи, проактивная стратегия позволяет агенту заранее структурировать и хранить релевантные знания, создавая своего рода «базу данных опыта». Это позволяет значительно повысить скорость и точность принятия решений, особенно в сложных и динамичных ситуациях, где оперативное извлечение информации критически важно. Такой подход имитирует когнитивные процессы, наблюдаемые у живых организмов, и позволяет агенту не просто реагировать на текущие события, но и предвидеть возможные сценарии, что существенно повышает его адаптивность и эффективность.

Метод Preping формирует процедурную память перед развертыванием посредством синтетического цикла практики, включающего предложение задач, их выполнение в среде, валидацию полученных траекторий и обновление памяти, где память предлагателя <span class="katex-eq" data-katex-display="false">M_{prop}</span> определяет, что практиковать дальше, а валидатор отбирает надежные траектории для формирования памяти решателя <span class="katex-eq" data-katex-display="false">M_{sol}</span>. — Метод Preping формирует процедурную память перед развертыванием посредством синтетического цикла практики, включающего предложение задач, их выполнение в среде, валидацию полученных траекторий и обновление памяти, где память предлагателя $M_{prop}$ определяет, что практиковать дальше, а валидатор отбирает надежные траектории для формирования памяти решателя $M_{sol}$ .

Преппинг: Формирование Проактивной Памяти для Интеллектуальных Агентов

Метод Preping представляет собой структуру для предварительного создания переиспользуемой памяти агента, осуществляемую до его развертывания. В отличие от реактивных подходов, полагающихся на накопление опыта в процессе работы, Preping позволяет сформировать базовый объем знаний до начала взаимодействия с реальной средой. Это позволяет снизить зависимость от случайных или нерелевантных данных, которые могут ухудшить производительность агента, и обеспечивает более надежную и предсказуемую работу, особенно в условиях ограниченных ресурсов или непредсказуемой среды. Предварительное конструирование памяти позволяет агенту быстрее адаптироваться и эффективно решать задачи, поскольку он уже обладает необходимым контекстом и знаниями.

Метод преппинга использует подход, основанный на синтетической практике под руководством “пропозера” — генерации задач для целенаправленного формирования базы знаний до развертывания агента. В процессе этой практики, “пропозер” создает искусственные сценарии и задачи, направленные на тренировку и расширение компетенций агента в конкретных областях. Это позволяет создать прочный фундамент знаний, необходимый для эффективной работы в реальных условиях, в отличие от реактивных подходов, полагающихся на обучение в процессе эксплуатации. Создание базы знаний происходит до начала работы агента, что обеспечивает более предсказуемую и контролируемую производительность.

Процесс валидации при допуске в память агента обеспечивает включение только релевантного и полезного опыта. Данный процесс включает в себя проверку каждой новой «памяти» на соответствие заранее определенным критериям полезности и релевантности задаче. Обычно используются такие метрики, как точность ответа, степень новизны информации и соответствие текущему контексту. Не прошедшие валидацию данные отбрасываются, предотвращая накопление в памяти агента избыточной или неточной информации, что повышает эффективность и надежность его работы. Этот механизм позволяет агенту формировать более структурированную и полезную базу знаний, оптимизированную для конкретных задач.

Принцип Работы Preping: Пропозер, Решатель и Валидация

Компонент Proposer генерирует синтетические задачи на основе существующей памяти Proposer (Proposer Memory) и документации об окружении. Этот процесс заключается в создании разнообразного набора тренировочных данных, использующих информацию, содержащуюся в накопленных знаниях агента и описаниях его среды. Генерация задач осуществляется с целью охвата широкого спектра возможных ситуаций и сценариев, что позволяет обучать агента более эффективно и повышать его адаптивность к новым, ранее не встречавшимся задачам. Разнообразие тренировочных данных критически важно для предотвращения переобучения и обеспечения обобщающей способности агента.

Компонент Solver выполняет сгенерированные задачи непосредственно в целевой среде. В процессе выполнения Solver предоставляет данные о результатах, включая информацию об успешности, затраченных ресурсах и возникших ошибках. Эти данные служат основой для оценки валидности и полезности задачи компонентом Validator. Предоставленная информация позволяет Validator определить, является ли задача выполнимой в данной среде и соответствует ли она поставленным целям, что необходимо для дальнейшей оптимизации и обучения агента.

Итеративный процесс генерации задач, их выполнения и последующей валидации является ключевым механизмом улучшения памяти агента и формирования надежной базы знаний. На каждом цикле, новый набор задач создается, а затем выполняется в целевой среде. Результаты выполнения анализируются валидатором, который оценивает их корректность и полезность. Полученная обратная связь используется для корректировки и расширения памяти агента, что позволяет ему более эффективно решать будущие задачи и адаптироваться к изменяющимся условиям. Постепенное уточнение знаний на основе цикла «предложение-выполнение-проверка» обеспечивает устойчивость и надежность работы агента в долгосрочной перспективе.

Метод Task-Seeded Preping позволяет инициализировать процесс обучения агента, используя уже решенные задачи. Вместо начала с пустой базы знаний, агент получает набор примеров успешного выполнения задач, что значительно ускоряет процесс обучения и повышает эффективность первичного исследования среды. Это особенно полезно в сложных средах, где самостоятельное обнаружение и решение задач может потребовать значительных временных затрат. Использование предобученных задач позволяет агенту быстрее адаптироваться и начать решать более сложные задачи, опираясь на накопленный опыт.

Экспериментальное Подтверждение: Результаты на Различных Бенчмарках

В ходе тестирования на сложных бенчмарках, таких как AppWorld, BFCL v3 и MCP-Universe, Preping демонстрирует стабильное превосходство над базовыми моделями. Результаты показывают, что Preping систематически достигает более высоких показателей эффективности в задачах, требующих сложного планирования и использования инструментов, по сравнению с существующими подходами к обучению и выводу. Данное превосходство подтверждается на различных LLM, включая DeepSeek-V3.2, GPT-5.1, GPT-OSS-120B и Qwen3-235B-A22B, что свидетельствует об обобщающей способности предложенного подхода.

В ходе тестирования на бенчмарке AppWorld, Preping продемонстрировал показатель завершения задач (Task Goal Completion) на уровне 83.7%, а также показатель завершения сценариев (Scenario Goal Completion) в 70.2%. Данные результаты превосходят показатели, достигнутые базовыми моделями в аналогичных условиях, что свидетельствует о более высокой эффективности Prepping в решении задач, представленных в бенчмарке AppWorld.

В ходе тестирования было установлено, что использование Preping позволило увеличить показатель успешного выполнения задач (Task Goal Completion) на 17.1 процентных пункта и показатель успешного выполнения сценариев (BFCL v3) на 19.3 процентных пункта по сравнению с базовыми моделями. Данный прирост эффективности демонстрирует значительное улучшение производительности системы в сложных сценариях и подтверждает эффективность подхода Preping к оптимизации процесса выполнения задач и сценариев.

При использовании Preping в сочетании с инициализацией ACE на бенчмарке AppWorld достигнута скорость завершения задач (Task Goal Completion rate) в 76.3%. Данный показатель отражает процент успешно выполненных задач, оцениваемых в рамках AppWorld, и демонстрирует эффективность комбинированного подхода Prepping и ACE в задачах, требующих последовательного выполнения действий и достижения поставленных целей. Результат получен на основе оценки производительности модели в условиях, характерных для AppWorld, и позволяет оценить способность системы к решению сложных задач в реалистичной среде.

В ходе тестирования на платформах AppWorld и BFCL v3, Preping продемонстрировал снижение затрат времени на развертывание в 2.99 раза по сравнению с ACE-Online на AppWorld и в 2.23 раза на BFCL v3. Данный показатель отражает повышение эффективности процесса развертывания и, как следствие, сокращение ресурсов, необходимых для запуска системы на новых платформах или в новых условиях.

Использование протокола контекста модели (MCP) в данной системе позволяет значительно повысить эффективность работы с инструментами. MCP обеспечивает структурированное взаимодействие между языковой моделью и внешними инструментами, что позволяет более точно определять, когда и как использовать эти инструменты для достижения поставленной задачи. Это приводит к улучшению результатов в сценариях, требующих использования инструментов, поскольку система способна более эффективно планировать и выполнять действия, необходимые для решения задачи, за счет эффективного обмена контекстной информацией между моделью и инструментами.

Оценка производительности Preping с использованием различных больших языковых моделей (LLM) — DeepSeek-V3.2, GPT-5.1, GPT-OSS-120B и Qwen3-235B-A22B — демонстрирует общую применимость данного подхода к широкому спектру архитектур и размеров LLM. Результаты показывают, что Prepping не зависит от конкретной модели, успешно интегрируясь и повышая производительность независимо от базовой LLM, что подтверждает его универсальность и потенциал для использования в различных сценариях и с различными моделями.

В рамках повышения адаптивности фреймворка были исследованы альтернативные методы построения памяти. Использование Direct Memory позволяет напрямую сохранять и извлекать релевантную информацию из контекста, в то время как Guided Exploration применяет стратегии целенаправленного поиска для расширения базы знаний. Метод ACE (Adaptive Context Enhancement) сочетает в себе элементы обоих подходов, динамически адаптируя процесс построения памяти к конкретной задаче и контексту, что способствует повышению эффективности и гибкости фреймворка в различных сценариях.

Анализ динамики итераций компонентов AppWorld показывает их вклад в общую производительность системы.

Перспективы Развития: К Более Надежным и Адаптивным Агентам

Предложенный подход, названный Preping, представляет собой существенный прогресс в создании более устойчивых и адаптивных агентов на основе больших языковых моделей. В отличие от традиционных методов, где агенты часто сталкиваются с трудностями в незнакомых ситуациях, Prepping позволяет им активно готовиться к потенциальным изменениям в окружающей среде. Этот процесс включает в себя создание и оценку множества гипотетических сценариев, что позволяет агенту заранее разработать стратегии реагирования. Таким образом, Prepping не просто улучшает способность агента решать текущие задачи, но и значительно повышает его устойчивость к неожиданностям и способность адаптироваться к новым условиям, открывая путь к созданию более надежных и универсальных интеллектуальных систем.

Предстоящие исследования направлены на расширение возможностей разработанной платформы, с целью её адаптации к более сложным и разнообразным средам и задачам. Ученые планируют протестировать систему в условиях, имитирующих реальные сценарии, включающие непредсказуемые факторы и необходимость принятия решений в условиях неопределенности. Особое внимание будет уделено масштабируемости архитектуры, позволяющей эффективно обрабатывать возрастающие объемы данных и поддерживать взаимодействие с большим количеством агентов. Ожидается, что успешное масштабирование позволит создавать интеллектуальных помощников, способных решать задачи, требующие высокого уровня адаптивности и когнитивных способностей, открывая новые горизонты для применения искусственного интеллекта в различных областях, от автоматизации производства до управления сложными системами.

Для дальнейшего повышения эффективности интеллектуальных агентов особое внимание уделяется разработке методов непрерывного обучения и усовершенствования памяти непосредственно в процессе эксплуатации. Исследования направлены на создание систем, способных адаптироваться к меняющимся условиям и накапливать опыт в реальном времени, не требуя переобучения или вмешательства человека. Это предполагает внедрение алгоритмов, позволяющих агенту извлекать уроки из новых данных, корректировать свои стратегии и оптимизировать использование памяти для хранения наиболее релевантной информации. Подобный подход позволит агентам не только справляться со сложными задачами, но и повышать свою производительность с течением времени, становясь более надежными и эффективными в динамичной среде.

Принципы, лежащие в основе Prepping, обладают значительным потенциалом для расширения возможностей в других областях искусственного интеллекта. Методология, направленная на повышение надежности и адаптивности агентов, может быть успешно применена в робототехнике, где требуется взаимодействие с динамично меняющейся средой и принятие решений в условиях неопределенности. В обучении с подкреплением, Prepping позволит создавать алгоритмы, способные более эффективно исследовать пространство состояний и находить оптимальные стратегии. Интеграция этих принципов может привести к созданию интеллектуальных систем, способных к непрерывному обучению, адаптации к новым задачам и более эффективному решению сложных проблем, открывая новые горизонты для развития искусственного интеллекта в целом.

Исследование представляет подход Preping, фокусирующийся на создании надежной базы знаний для агентов до их фактического развертывания. Этот процесс напоминает о важности долговечности и адаптации систем к изменяющимся условиям. Бертранд Рассел однажды заметил: «Всё течёт, всё меняется». Аналогично, агенты, построенные с использованием Preping, демонстрируют повышенную устойчивость к новым задачам благодаря предварительной практике и валидации. Такой подход позволяет смягчить проблему «холодного старта», обеспечивая более плавный переход к эффективной работе, а значит, и более долговечное функционирование системы в целом. Очевидно, что медленные, контролируемые изменения, как и предлагается в Preping, способствуют сохранению устойчивости агента во времени.

Куда же дальше?

Представленная работа, несомненно, закладывает основу для конструирования памяти агентов до их фактического развертывания. Однако, сама концепция «предварительной подготовки» лишь отодвигает неизбежность старения системы. Каждый успешно пройденный синтетический сценарий — это лишь отсрочка момента, когда реальный мир, со своей хаотичной непредсказуемостью, обнажит слабости предварительно созданной памяти. Каждый «баг» — это момент истины на временной кривой, свидетельствующий о несоответствии между идеализированной моделью и окружающей средой.

Очевидным направлением для дальнейших исследований представляется разработка механизмов самоадаптации памяти. Вместо статической, предварительно сконструированной структуры, агентам потребуется способность к динамическому обновлению и переоценке своих знаний, основанной на опыте взаимодействия с реальным миром. Технический долг, накопленный в процессе «предварительной подготовки», станет закладкой прошлого, которую придется оплачивать настоящим, в виде повышенных вычислительных затрат на адаптацию и переобучение.

В конечном итоге, успех этой области не будет определяться объемом и качеством предварительно созданной памяти, а способностью систем к изящному и эффективному старению. Ведь все системы стареют — вопрос лишь в том, делают ли они это достойно, сохраняя при этом способность к обучению и адаптации даже в условиях постоянного изменения окружающей среды.

Оригинал статьи: https://arxiv.org/pdf/2605.13880.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-15 07:36

🚀 Квантовые новости