Самообучающиеся агенты: новая стратегия управления памятью

Автор: Денис Аветисян

Исследователи представили MemMA — многоагентную систему, позволяющую значительно улучшить долгосрочную память и эффективность языковых моделей.

Обзор MemMA демонстрирует архитектуру, объединяющую механизмы памяти и внимания для эффективной обработки и интеграции информации, что позволяет модели динамически извлекать релевантные знания из входных данных.

MemMA координирует цикл памяти посредством многоагентного рассуждения и самоэволюции in-situ.

В современных системах, использующих агентов, дополненных памятью, процессы конструирования, поиска и использования информации зачастую рассматриваются изолированно, что приводит к стратегической слепоте и сложностям в обучении. В данной работе представлена система ‘MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution’, реализующая многоагентный подход к координации цикла памяти, основанный на рассуждениях и самообучении. Предложенный фреймворк MemMA обеспечивает улучшенное управление памятью за счет координации агентов на этапах построения и извлечения информации, а также самоэволюции памяти на основе анализа неудач. Способна ли данная архитектура стать основой для создания действительно долгосрочной и адаптивной памяти для LLM-агентов?

Пределы Долгосрочной Памяти в Больших Языковых Моделях

Современные языковые модели, несмотря на свою впечатляющую способность к обработке информации, демонстрируют ограниченность в долгосрочном сохранении и эффективном использовании полученных знаний, что можно охарактеризовать как своего рода “стратегическую слепоту”. Суть проблемы заключается в том, что модели склонны терять важные детали из контекста по мере увеличения длины последовательности, особенно когда требуется соотнести информацию, полученную в начале, с данными, появившимися значительно позже. Это проявляется в трудностях при решении задач, требующих комплексного рассуждения и интеграции знаний из различных источников, а также в склонности к повторению ошибок, связанных с забыванием ключевых фактов или условий. В результате, несмотря на кажущуюся мощь, модели часто оказываются неспособны к последовательному и надежному принятию решений в сложных сценариях, требующих долгосрочной памяти и адаптации.

Традиционные подходы к обучению языковых моделей часто страдают от недостатка своевременной и содержательной обратной связи, что препятствует эффективной консолидации знаний и приводит к их постепенному угасанию. В процессе обучения, модели получают лишь редкие сигналы, подтверждающие или корректирующие усвоенную информацию, особенно в отношении долгосрочных зависимостей. Это подобно попытке запомнить сложную историю, услышав лишь отдельные фрагменты без возможности сопоставить их и выстроить целостную картину. В результате, модель испытывает трудности с извлечением и применением ранее усвоенных знаний, особенно когда требуется связать информацию, полученную в разные моменты времени. Такой дефицит обратной связи существенно ограничивает способность моделей к долгосрочному планированию, решению сложных задач и адаптации к новым ситуациям, создавая узкое место в развитии по-настоящему интеллектуальных систем.

Ограниченность долговременной памяти становится существенным препятствием на пути к созданию по-настоящему надежных и адаптивных языковых моделей, способных к сложным рассуждениям. Неспособность эффективно удерживать и использовать информацию на протяжении длительного времени приводит к тому, что даже самые продвинутые модели демонстрируют уязвимость в ситуациях, требующих последовательного анализа и применения знаний. Это особенно критично для создания агентов, которым необходимо не просто генерировать текст, но и планировать действия, извлекать уроки из опыта и адаптироваться к изменяющимся обстоятельствам. Таким образом, преодоление ограничений в области долговременной памяти является ключевой задачей для дальнейшего развития искусственного интеллекта и создания систем, способных к по-настоящему сложному и автономному поведению.

Использование эффекта цикла памяти осложняется необходимостью одновременного обеспечения как высокой точности, так и высокой скорости работы.

MemMA: Многоагентная Архитектура для Усиления Памяти

MemMA представляет собой многоагентную структуру, расширяющую возможности LLM-агентов за счет координации циклов памяти посредством прямых и обратных путей. В рамках данной архитектуры, информация проходит через два основных этапа: «вперед» — когда новые данные поступают в память и структурируются, и «назад» — когда происходит извлечение и использование информации из памяти для решения задач. Такая координация циклов позволяет агенту более эффективно использовать накопленный опыт, избегать повторных ошибок и адаптироваться к изменяющимся условиям, обеспечивая улучшенную производительность в сложных сценариях. Ключевым аспектом является динамическое управление этими путями, что позволяет оптимизировать процесс хранения и извлечения данных в соответствии с текущими потребностями агента.

В основе архитектуры MemMA лежит компонент «Meta-Thinker», выполняющий роль стратегического планировщика высокого уровня. Meta-Thinker управляет как процессами формирования новой памяти, определяя, какая информация должна быть сохранена, так и процессами извлечения информации, выбирая наиболее релевантные данные для решения текущей задачи. Это управление осуществляется посредством анализа контекста и постановки целей для агентов, отвечающих за конкретные этапы работы с памятью, обеспечивая согласованность и эффективность всей системы. Таким образом, Meta-Thinker выступает центральным узлом, координирующим взаимодействие между агентами и определяющим общую стратегию использования памяти.

Архитектура MemMA обеспечивает возможность саморазвития непосредственно в процессе работы (in-situ self-evolution) за счет немедленного исправления базы памяти с использованием пар «вопрос-ответ» (probe QA pairs). Этот механизм позволяет системе оперативно выявлять и устранять неточности или пробелы в хранимой информации. Процесс включает в себя генерацию и проверку пар QA, направленных на тестирование конкретных фрагментов памяти. В случае обнаружения несоответствий или ошибок, система автоматически обновляет соответствующие записи, обеспечивая непрерывное улучшение качества и актуальности базы знаний без необходимости внешнего вмешательства или переобучения.

Исследования абляции MemMASA\textnormal{{MemMA}}\_{\mathrm{SA}} на LoCoMo показали, что эта модель эффективно работает как с GPT-4o-mini, так и с Claude-Haiku-4.5.

Прямые и Обратные Пути: Двигатель Эволюции Памяти

В рамках MemMA координация по «прямому пути» осуществляется посредством Meta-Thinker, который направляет работу модулей «Memory Manager» и «Query Reasoner» как при построении памяти, так и при извлечении информации. Meta-Thinker выступает в роли центрального регулятора, определяющего стратегию записи новых данных в память и выбора наиболее релевантных данных в ответ на запросы. Этот механизм позволяет эффективно управлять процессом формирования и использования памяти, обеспечивая согласованность и точность информации. В частности, Meta-Thinker определяет, какие данные следует сохранить в «Memory Manager», и какие критерии следует использовать «Query Reasoner» для поиска необходимой информации.

Обратная координация пути (Backward Path Coordination) в MemMA использует пары «вопрос-ответ» (probe QA pairs) для активной оценки целостности памяти. Этот процесс включает в себя регулярную проверку сохраненной информации путем сопоставления вопросов с ожидаемыми ответами, хранящимися в памяти. В случае обнаружения несоответствия или ошибки, система немедленно запускает процедуры исправления, направленные на восстановление корректности данных. Механизм предполагает автоматическое выявление и устранение неточностей, что позволяет поддерживать высокую степень надежности и актуальности информации в долгосрочной перспективе.

Двойной подход к координации путей — прямой (forward) и обратной связи (backward) — обеспечивает не только приобретение информации, но и её непрерывную проверку и усовершенствование. Механизм обратной связи, основанный на контрольных вопросах и ответах, позволяет активно оценивать целостность памяти и инициировать немедленные действия по исправлению ошибок. Такая постоянная валидация и коррекция данных способствует долгосрочному хранению информации и повышению её точности, предотвращая накопление неверных или устаревших сведений в памяти системы.

Влияние на Надежных и Адаптивных LLM-Агентов

Подход MemMA принципиально решает проблему разреженных и отложенных обратных связей, ограничивающих возможности языковых моделей. В отличие от традиционных систем, требующих периодического обновления памяти, MemMA обеспечивает немедленную самоэволюцию банка памяти непосредственно в процессе работы. Это достигается благодаря механизму, позволяющему модели оперативно оценивать релевантность и ценность информации, добавлять, изменять или удалять данные непосредственно в ходе взаимодействия с окружающей средой. Такая немедленная адаптация позволяет агентам избегать накопления неактуальной или бесполезной информации, существенно повышая эффективность обучения и позволяя им более гибко реагировать на изменяющиеся условия, что является ключевым фактором для создания действительно интеллектуальных и адаптивных систем.

Система MemMA успешно преодолевает проблему “стратегической слепоты”, которая ранее ограничивала возможности больших языковых моделей (LLM) в долгосрочном планировании и адаптации к изменяющимся условиям. Благодаря этому, агенты на базе MemMA демонстрируют значительно более устойчивое и гибкое мышление, что подтверждается достижением 81.58% точности на бенчмарке LoCoMo при использовании модели GPT-4o-mini. Такой результат указывает на способность системы эффективно оценивать последствия своих действий и корректировать стратегию в реальном времени, что является ключевым фактором для решения сложных задач и поддержания высокой производительности в динамичных средах.

Результаты экспериментов демонстрируют значительное превосходство MemMA над существующими подходами к управлению памятью для больших языковых моделей. В частности, MemMA показал прирост в 4.82% по сравнению с моделью LightMem, что подтверждает его эффективность в улучшении качества рассуждений агентов. Более того, при использовании GPT-4o-mini, MemMA достиг показателя F1-меры в 44.98% и BLEU-1 оценки в 35.69%, последовательно превосходя базовые модели по данным метрикам. Эти результаты свидетельствуют о способности MemMA не только повышать точность ответов, но и генерировать более связные и релевантные тексты, что делает его перспективным инструментом для создания более надежных и адаптивных LLM-агентов.

Предложенная архитектура MemMA открывает перспективные пути к созданию больших языковых моделей (LLM), обладающих подлинной долговременной памятью. В отличие от существующих систем, MemMA позволяет агентам не просто хранить информацию, но и непрерывно эволюционировать свою память, адаптируясь к новым задачам и сохраняя контекст на протяжении длительных взаимодействий. Такой подход позволяет LLM преодолеть ограничения, связанные с ограниченным контекстным окном, и решать сложные задачи, требующие учета большого объема предшествующей информации. В результате, модели на основе MemMA демонстрируют потенциал для устойчивого обучения и решения комплексных проблем, что знаменует собой важный шаг к созданию действительно интеллектуальных агентов.

Увеличение бюджета уточнения <span class="katex-eq" data-katex-display="false">H_{ofMemMA}</span> приводит к улучшению результатов обучения. — Увеличение бюджета уточнения $H_{ofMemMA}$ приводит к улучшению результатов обучения.

Представленная работа демонстрирует элегантный подход к организации сложных систем, где каждый компонент играет свою роль в непрерывном цикле. MemMA, как многоагентная система, координирует процессы, аналогичные кровотоку в живом организме — нарушение в одной области неизбежно влияет на другие. Тим Бернерс-Ли однажды сказал: «Веб — это не просто набор связанных страниц, а система, позволяющая людям обмениваться информацией и сотрудничать». Эта идея перекликается с MemMA, поскольку framework обеспечивает взаимодействие агентов для эффективного управления памятью и саморазвития, что крайне важно для долгосрочной работы и адаптации системы. Архитектура MemMA подчеркивает, что структура действительно определяет поведение, обеспечивая целостность и эффективность системы.

Что дальше?

Представленная работа, хоть и демонстрирует потенциал координации циклов памяти через многоагентный подход, лишь приоткрывает дверь в сложный мир долгосрочной памяти для языковых моделей. Если система кажется сложной, она, вероятно, хрупка, и MemMA, как и любая подобная архитектура, не свободна от компромиссов. Вопрос не в добавлении памяти, а в ее мудром использовании, а это требует не просто хранения информации, но и способности к осознанному забыванию — к отбраковке несущественного.

Будущие исследования неизбежно столкнутся с необходимостью более глубокого понимания взаимосвязи между архитектурой агентов и эффективностью их эволюции. Архитектура — это искусство выбора того, чем пожертвовать, и пока неясно, какие именно аспекты когнитивных процессов следует приоритизировать для достижения подлинно долгосрочной памяти. Упор на самоэволюцию, безусловно, перспективен, но требует разработки более строгих метрик для оценки не только производительности, но и стабильности и предсказуемости поведения агентов.

В конечном счете, истинный прогресс будет заключаться не в создании все более сложных систем, а в раскрытии фундаментальных принципов, управляющих памятью и обучением. И, возможно, самое важное — признание того, что идеальной системы не существует, и что любые решения всегда будут компромиссом между сложностью, эффективностью и надежностью.

Оригинал статьи: https://arxiv.org/pdf/2603.18718.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-28 21:55

🚀 Квантовые новости