Память как навык: как ИИ научился удерживать контекст

Автор: Денис Аветисян


Новая система General Agentic Memory позволяет ИИ-агентам эффективно использовать долгосрочную память для решения сложных задач и сохранения исторической информации.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В предложенной архитектуре GAM, агент использует кратковременную память для обработки истории взаимодействий, сохраняя при этом полную историю в долговременном хранилище, а в процессе обслуживания запросов применяет глубокий анализ для извлечения и интеграции релевантной информации.
В предложенной архитектуре GAM, агент использует кратковременную память для обработки истории взаимодействий, сохраняя при этом полную историю в долговременном хранилище, а в процессе обслуживания запросов применяет глубокий анализ для извлечения и интеграции релевантной информации.

Исследование представляет инновационную систему памяти для ИИ, использующую компиляцию «на лету» и двухкомпонентную архитектуру для эффективной обработки и использования долгого контекста.

Несмотря на критическую важность памяти для функционирования ИИ-агентов, существующие статические системы неизбежно страдают от потери информации. В статье ‘General Agentic Memory Via Deep Research’ предложена новая архитектура — общая агентская память (GAM), основанная на принципе «компиляции на лету» для создания оптимизированных контекстов в реальном времени. GAM использует двухкомпонентный подход, включающий запоминающий модуль для выделения ключевых данных и исследовательский модуль для извлечения полезной информации из хранилища. Позволит ли данная система эффективно использовать возможности современных больших языковых моделей и повысить качество выполнения задач, требующих доступа к обширному контексту?


За гранью контекстного окна: Ограничения традиционных LLM

Современные агенты искусственного интеллекта, работающие на базе больших языковых моделей, демонстрируют стремительное развитие, однако их функциональные возможности принципиально ограничены размером контекстного окна. Это окно определяет объем информации, которую модель способна учитывать при обработке запроса или генерации ответа. Несмотря на увеличение размера контекстного окна в новых моделях, оно все равно остается конечным, что создает серьезные препятствия для решения задач, требующих анализа больших объемов данных или долгосрочного запоминания информации. По сути, это подобно ограничению оперативной памяти компьютера — чем больше данных необходимо обработать, тем сложнее модели поддерживать последовательность и точность рассуждений, что в конечном итоге влияет на качество и надежность работы агента.

Ограниченный размер контекстного окна существенно сдерживает способность современных языковых моделей к сложному рассуждению и формированию долгосрочной памяти. Вследствие этого, взаимодействие с искусственным интеллектом часто оказывается поверхностным и неспособным адаптироваться к меняющимся обстоятельствам или учитывать предшествующий опыт. Модели испытывают трудности в поддержании когерентности при обработке длинных последовательностей информации, что препятствует построению действительно надежных и гибких систем, способных решать сложные задачи и поддерживать содержательные диалоги, требующие учета большого объема релевантных данных и последовательного логического вывода.

Существующие методы обработки информации в больших языковых моделях сталкиваются с серьезными трудностями при поддержании связности и извлечении релевантных данных из продолжительных взаимодействий. Это создает критическое препятствие для развития искусственного интеллекта, поскольку модели испытывают сложности в отслеживании ключевых деталей и установлении логических связей на протяжении длительных диалогов или задач. В результате, даже самые передовые ИИ-агенты могут демонстрировать непоследовательность в ответах, забывать важную информацию, предоставленную ранее, и испытывать затруднения при решении задач, требующих долгосрочной памяти и комплексного анализа. Подобные ограничения существенно снижают эффективность и надежность ИИ в реальных приложениях, подчеркивая необходимость разработки новых подходов к управлению контекстом и обеспечению долгосрочной когерентности.

Общая агентивная память: Компиляция «на лету»

Общая агентивная память (GAM) представляет собой принципиально новый подход к управлению памятью, основанный на архитектуре “запоминатель” и “исследователь”, вдохновленной компиляцией “на лету” (just-in-time compilation). В отличие от традиционных методов, GAM разделяет процесс обработки информации на две фазы. “Запоминатель” эффективно обрабатывает исторические данные, создавая компактное представление памяти, которое затем используется “исследователем” для динамического доступа к релевантной информации по мере необходимости. Эта организация позволяет избежать хранения всего объема данных в активной памяти, оптимизируя использование ресурсов и повышая масштабируемость системы.

Модуль “запоминатель” (memorizer) в системе GAM выполняет эффективную обработку исторических данных, создавая облегченное представление памяти для поддержки работы модуля “исследователь” (researcher). Этот процесс включает в себя не только хранение данных, но и их структурирование и индексацию для обеспечения быстрого доступа. Облегченное представление памяти позволяет минимизировать вычислительные затраты и объем занимаемой памяти по сравнению с хранением полных исторических записей, фокусируясь на извлечении наиболее релевантной информации для текущей задачи. Алгоритмы, используемые в “запоминателе”, направлены на оптимизацию баланса между точностью представления данных и эффективностью их хранения и извлечения, что критически важно для масштабируемости системы.

В отличие от традиционных подходов, использующих фиксированное окно контекста для обработки информации, General Agentic Memory (GAM) обеспечивает доступ к релевантным данным по запросу. Эта динамическая организация позволяет системе эффективно извлекать и использовать исторические данные только тогда, когда они необходимы для текущей задачи. В результате, GAM значительно повышает эффективность обработки информации и обеспечивает лучшую масштабируемость, поскольку не требуется хранить и обрабатывать весь объем исторических данных постоянно. Такой подход позволяет адаптироваться к различным задачам и объемам информации без существенного увеличения вычислительных затрат.

«Исследователь»: Доступ и интеграция исторических данных

Компонент “исследователь” отвечает за обработку запросов пользователей путем извлечения и интеграции информации из “хранилища страниц” — обширного исторического архива данных. Этот компонент осуществляет поиск релевантной информации в хранилище, объединяя различные фрагменты для формирования полного и контекстуально точного ответа на запрос. Процесс включает не только поиск, но и сопоставление, фильтрацию и объединение данных из различных источников внутри хранилища, обеспечивая тем самым полноту и достоверность предоставляемой информации.

Компонент исследователя использует комплекс инструментов поиска для доступа к информации, включающий модели эмбеддингов, алгоритм BM25 и поисковик на основе ID. Модели эмбеддингов позволяют осуществлять семантический поиск, находя информацию, близкую по смыслу к запросу. BM25 — это алгоритм ранжирования, оценивающий релевантность документов на основе частоты встречаемости ключевых слов. Поисковик на основе ID обеспечивает точный доступ к информации по её уникальному идентификатору, что особенно важно для извлечения конкретных фактов и данных из хранилища исторических записей.

Компоненты «память» и «исследователь» функционируют на базе мощных больших языковых моделей (LLM), таких как GPT-4o-mini и Qwen2.5-14B-Instruct. Использование данных моделей обеспечивает высокую производительность в задачах обработки естественного языка, включая понимание контекста, извлечение информации и логические выводы. Данные LLM позволяют системе эффективно анализировать и синтезировать данные из хранилища исторических данных, обеспечивая тем самым качество и релевантность предоставляемой информации.

Архитектура агента обеспечивает эффективное использование предыдущих взаимодействий для формирования более связных и контекстуально релевантных ответов. Сохранение истории взаимодействий позволяет агенту учитывать предыдущие запросы и ответы при обработке новых запросов, что улучшает последовательность и логичность диалога. Это достигается за счет интеграции данных из “хранилища страниц” (page-store) и использования мощных языковых моделей, таких как GPT-4o-mini и Qwen2.5-14B-Instruct, для анализа и применения релевантной информации из прошлого опыта.

Увеличение вычислительных затрат на этапе тестирования приводит к улучшению результатов как в процессе рефлексии, так и при извлечении информации.
Увеличение вычислительных затрат на этапе тестирования приводит к улучшению результатов как в процессе рефлексии, так и при извлечении информации.

Оценка GAM: Результаты на различных задачах

Для всесторонней оценки возможностей системы GAM проводились испытания на ряде сложных бенчмарков, включающих LoCoMo, HotpotQA, RULER и NarrativeQA. Эти наборы данных специально разработаны для проверки способности модели к пониманию длинных контекстов, многоступенчатому рассуждению и извлечению информации из сложных текстов. Выбор данных для тестирования отражает стремление к объективной оценке производительности системы в различных сценариях, требующих не только запоминания фактов, но и способности к логическому выводу и синтезу информации. Использование таких эталонных тестов позволяет сравнить GAM с другими передовыми системами и продемонстрировать её преимущества в решении сложных задач обработки естественного языка.

Исследования показали, что GAM превосходит существующие системы памяти в задачах, требующих долгосрочного запоминания, многошагового рассуждения и ответов на сложные вопросы. Особенно заметные результаты достигнуты в бенчмарке RULER, где система демонстрирует точность свыше 90% в задачах многошагового отслеживания связей между фактами. Это свидетельствует о способности GAM эффективно обрабатывать большие объемы информации и извлекать из них значимые зависимости, что крайне важно для создания интеллектуальных систем, способных к глубокому пониманию и анализу данных. Такая высокая производительность указывает на перспективность GAM в решении задач, требующих сложных когнитивных способностей, и открывает новые возможности для развития искусственного интеллекта.

Система GAM демонстрирует значительный прогресс в решении задач, связанных с пониманием длинных контекстов, что позволяет ей осуществлять более тонкие и точные взаимодействия. В отличие от многих существующих моделей, испытывающих затруднения при обработке больших объемов информации, GAM эффективно извлекает и использует релевантные данные из длинных текстов, обеспечивая более глубокое и осмысленное понимание. Это достигается за счет инновационной архитектуры, позволяющей сохранять и извлекать информацию на протяжении длительных последовательностей, что критически важно для сложных задач, требующих учета множества взаимосвязанных фактов. В результате, система способна генерировать более обоснованные ответы и принимать более взвешенные решения, приближая искусственный интеллект к уровню человеческого понимания.

В ходе тестирования на бенчмарке HotpotQA, система GAM продемонстрировала существенные и стабильные улучшения в сравнении с существующими методами. Результаты показывают, что GAM превосходит аналогичные системы в задачах, требующих анализа и синтеза информации из нескольких источников. При этом, время, затрачиваемое на обработку данных, сопоставимо с производительностью систем Mem0 и MemoryOS, но заметно выше скорости работы A-mem. Такое сочетание высокой точности и эффективного использования ресурсов указывает на перспективность GAM для создания более продвинутых систем искусственного интеллекта, способных эффективно решать сложные вопросы и задачи.

Полученные результаты демонстрируют, что GAM представляет собой значительный прорыв в создании более интеллектуальных и адаптивных агентов искусственного интеллекта. Система, успешно преодолевающая трудности, связанные с пониманием длинных контекстов и многоступенчатым рассуждением, открывает новые возможности для разработки ИИ, способного к более глубокому и нюансированному взаимодействию с информацией. Превосходя существующие системы памяти в задачах, требующих долгосрочного запоминания и сложного анализа, GAM приближает возможность создания ИИ-агентов, способных не просто отвечать на вопросы, но и эффективно извлекать знания из обширных объемов данных, адаптироваться к новым ситуациям и решать сложные задачи, что является ключевым шагом на пути к созданию действительно интеллектуальных систем.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем, способных оперировать с обширными объемами информации и адаптироваться к изменяющимся условиям. Разработчики предлагают подход, основанный на компиляции «на лету» и использовании двойного агента, что позволяет эффективно управлять контекстом и сохранять исторические данные. Это напоминает высказывание Карла Фридриха Гаусса: «Если бы другие знали, сколько всего я не знаю, они бы поняли, насколько я компетентен». Подобно тому, как Гаусс осознавал границы своего знания, авторы признают сложность работы с долгосрочной памятью и предлагают прагматичное решение, позволяющее агенту эффективно функционировать, несмотря на неполноту информации. Реальность такова, что идеальной системы не существует, и важно сосредоточиться на создании решений, которые работают достаточно хорошо в конкретных условиях, а не на погоне за недостижимым совершенством.

Что дальше?

Представленная работа, безусловно, добавляет ещё один уровень абстракции к и без того раздувающемуся стеку технологий. “Обобщённая агентурная память” — звучит многообещающе, пока не начнёт требовать поддержки и масштабирования. Не стоит забывать, что любая система, обещающая “самовосстановление”, просто ещё не сломалась достаточно эффектно. И да, документация — это всегда форма коллективного самообмана, особенно когда дело касается систем, работающих с контекстом, который по определению непредсказуем.

Очевидно, что настоящая проблема заключается не в хранении информации, а в её фильтрации. Простое увеличение контекстного окна не решает проблему, а лишь откладывает неминуемый крах под натиском энтропии. Следующим шагом, вероятно, станет попытка создать системы, способные не просто “помнить” всё, но и активно “забывать” ненужное, имитируя, возможно, биологические механизмы, которые, к слову, тоже не идеальны.

И напоследок: если баг воспроизводится — значит, у нас стабильная система. А если система стабильна — значит, она ещё не столкнулась с реальными данными. Так что, да, перспективы интересные, но нужно быть готовым к тому, что “революционная” технология завтра станет обычным техдолгом.


Оригинал статьи: https://arxiv.org/pdf/2511.18423.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-26 00:22