Автор: Денис Аветисян
Исследователи предлагают иерархическую структуру памяти, позволяющую агентам на основе больших языковых моделей сохранять и эффективно использовать информацию о прошлых событиях для более сложных рассуждений.

Представлена SEEM — система, объединяющая эпизодическую и графовую память для улучшения долгосрочной памяти и рассуждений в системах генерации с дополнением извлечением.
Современные подходы к организации памяти в больших языковых моделях (LLM) часто страдают от фрагментарности извлечения информации и неспособности учитывать сложные взаимосвязи, необходимые для логических рассуждений. В данной работе, посвященной ‘Structured Episodic Event Memory’, предложена иерархическая структура, объединяющая графовую память для хранения фактов и динамическую эпизодическую память для отслеживания развития событий. Предложенный подход, основанный на когнитивной теории фреймов, позволяет агентам формировать структурированные эпизодические фреймы с точными указателями на источник информации, существенно повышая связность и логическую непротиворечивость повествования. Способны ли подобные системы обеспечить качественно новый уровень автономности и когнитивных способностей для LLM-агентов?
Пределы Традиционных Трансформеров
Несмотря на впечатляющую способность моделей, таких как Qwen3-Next-80B-A3B-Instruct, к распознаванию закономерностей, сложные задачи, требующие многоступенчатого рассуждения и поддержания связного контекста в продолжительных диалогах, представляют для них значительные трудности. Эти модели демонстрируют мастерство в выявлении статистических корреляций, однако испытывают проблемы при необходимости логического вывода, объединении разрозненных фактов и сохранении последовательности мыслей в процессе развернутого взаимодействия. Проще говоря, модель может успешно завершить фразу или определить тему текста, но вот построить аргументированное доказательство или следить за ходом сложного обсуждения ей существенно сложнее.
Традиционные подходы к созданию больших языковых моделей часто полагаются на простое увеличение их размера — количества параметров. Однако, несмотря на впечатляющие результаты в некоторых задачах, подобное масштабирование не решает фундаментальных проблем, связанных с долгосрочной памятью и глубиной рассуждений. Увеличение размера модели требует экспоненциального роста вычислительных ресурсов и энергопотребления, но не обеспечивает качественного скачка в способности модели понимать сложные взаимосвязи и делать логические выводы, требующие последовательного анализа информации на протяжении длительного контекста. Таким образом, простое увеличение масштаба оказывается неэффективным решением, и исследователи ищут альтернативные подходы, направленные на улучшение архитектуры и методов обучения, позволяющие модели действительно “понимать” и рассуждать, а не просто запоминать и воспроизводить шаблоны.

SEEM: Иерархическая Система Памяти
Для преодоления ограничений существующих систем долговременной памяти, представляется SEEM — иерархическая структура, объединяющая эпизодическую и графовую память. SEEM использует многоуровневый подход, позволяющий эффективно хранить и извлекать как динамическую информацию о последовательности событий (эпизодическая память), так и статические факты и их взаимосвязи (графовая память). Такая интеграция позволяет системе не только запоминать происходящее, но и устанавливать связи между событиями и фактами, что необходимо для более сложного рассуждения и принятия решений. Иерархическая организация обеспечивает масштабируемость и гибкость системы, позволяя ей эффективно работать с большими объемами данных.
Эпизодический слой памяти (EML) фиксирует динамичное развитие повествования посредством извлечения и объединения эпизодических фреймов событий (EEF) из реплик в диалоге. Процесс объединения EEF осуществляется при помощи ассоциативного слияния (Associative Fusion), позволяющего устанавливать связи между различными эпизодами. Надежность и точность формирования эпизодической памяти обеспечивается использованием указателей происхождения (Provenance Pointers), которые отслеживают источник информации и позволяют верифицировать данные, представленные в каждом эпизодическом фрейме.
Слой графовой памяти (GML) предназначен для организации статических фактических данных в виде реляционного графа, обеспечивая стабильную базу знаний для логических выводов. В GML сущности и их взаимосвязи представляются в виде узлов и ребер соответственно. Это позволяет системе эффективно хранить и извлекать факты, а также выполнять сложные запросы, требующие установления связей между различными элементами информации. Структура графа обеспечивает возможность масштабирования и расширения базы знаний без существенного снижения производительности, что критически важно для долгосрочной памяти и поддержки рассуждений.
Реконструкция Контекста с Помощью Обратного Расширения Происхождения
Механизм Reverse Provenance Expansion (RPE), используемый в SEEM, позволяет реконструировать связный контекст путем расширения извлеченных фрагментов текста с использованием указателей происхождения (provenance pointers). Данный подход обеспечивает возможность многошагового рассуждения (multi-hop reasoning), поскольку модель может отслеживать источники информации, необходимые для ответа на сложные вопросы. RPE эффективно снижает влияние ограничений размера контекстного окна, характерных для традиционных моделей Retrieval-Augmented Generation (RAG), за счет динамического добавления релевантных фрагментов, связанных с исходным запросом через граф знаний.
Расширение базового подхода Retrieval-Augmented Generation (RAG) с использованием графовых знаний и контекстуального расширения значительно повышает способность модели отвечать на сложные вопросы. В отличие от стандартного RAG, который ограничивается извлеченными фрагментами, предложенный подход интегрирует внешние знания, представленные в виде графа, и динамически расширяет контекст вокруг извлеченных фрагментов. Это позволяет модели учитывать более широкий спектр релевантной информации, преодолевая ограничения, связанные с фиксированным размером контекстного окна, и обеспечивая более точные и полные ответы на вопросы, требующие многоступенчатого логического вывода.
Эффективность разработанной системы SEEM была подтверждена посредством оценок на стандартных бенчмарках LoCoMo и LongMemEval. Результаты тестов показали абсолютное улучшение в 4.4% на бенчмарке LongMemEval по сравнению с базовыми моделями. На бенчмарке LoCoMo система достигла показателя F1 Score, равного 61.1%, что демонстрирует её способность к точному извлечению и обработке информации в задачах, требующих анализа длинных контекстов и многоходового рассуждения.
Кросс-Модельная Обобщающая Способность и Надежность
Исследование посвящено оценке устойчивости и обобщающей способности разработанной системы SEEM путём её интеграции с различными крупными языковыми моделями, включая GPT-OSS-120B. В рамках работы производилась оценка производительности системы на широком спектре задач, что позволило выявить её способность к адаптации и эффективной работе вне зависимости от базовой языковой модели. Этот подход подтверждает универсальность SEEM и демонстрирует возможность её применения в различных контекстах, расширяя границы традиционных систем извлечения информации и открывая перспективы для создания более гибких и эффективных решений в области искусственного интеллекта.
Исследования показали, что разработанная система SEEM демонстрирует стабильное повышение эффективности вне зависимости от используемой базовой большой языковой модели. В ходе тестирования на наборе данных LoCoMo, SEEM превзошел NV-Embed-v2 на 3,2% по показателю F1 Score и на 3,3% по оценке LLM-as-a-Judge (JJ). Данный результат указывает на высокую степень адаптивности и обобщающей способности системы, позволяя ей улучшать качество работы различных языковых моделей и обеспечивая более точные и надежные результаты в задачах, требующих сложного анализа и рассуждений.
Данная разработка не ограничивается классическими подходами Retrieval-Augmented Generation (RAG), а значительно расширяет их возможности посредством интеграции GraphRAG и, что особенно важно, более продвинутой системы HippoRAG 2. Такое сочетание позволяет перейти от простого извлечения релевантной информации к построению сложных семантических графов и, как следствие, к формированию более глубокого и обоснованного ответа. Внедрение GraphRAG способствует установлению связей между различными фрагментами информации, а HippoRAG 2, благодаря своим усовершенствованным алгоритмам, обеспечивает более эффективную обработку и интеграцию этих связей, открывая перспективный путь к созданию интеллектуальных систем с повышенными способностями к логическому мышлению и решению сложных задач.
Будущее Долгосрочной Памяти и Рассуждений
Интеграция био-вдохновленных архитектур памяти, таких как SEEM, в сочетании с прогрессом в графовом рассуждении и контекстуальном расширении, представляет собой значительный шаг на пути к созданию действительно интеллектуальных агентов. SEEM, имитируя принципы работы человеческой памяти, обеспечивает более эффективное хранение и извлечение информации, что критически важно для сложных когнитивных задач. Сочетание этой архитектуры с графовыми базами знаний позволяет не просто хранить факты, но и устанавливать связи между ними, моделируя процесс логического вывода и принятия решений. Расширение контекста, в свою очередь, позволяет агенту учитывать более широкий спектр информации, делая его рассуждения более точными и обоснованными. Такой подход открывает перспективы для создания систем искусственного интеллекта, способных не только выполнять заданные задачи, но и адаптироваться к новым ситуациям, обучаться на опыте и решать сложные проблемы, требующие глубокого понимания и анализа.
Дальнейшие исследования направлены на усовершенствование механизмов отслеживания происхождения информации, что позволит более точно определять источники знаний и оценивать их достоверность. Особое внимание уделяется разработке передовых методов построения и поддержания графов знаний — структурированных баз данных, отражающих связи между различными понятиями и фактами. Улучшение этих механизмов позволит создавать более надежные и прозрачные системы искусственного интеллекта, способные не только генерировать правдоподобные ответы, но и обосновывать их, указывая на конкретные источники информации и логические связи, что критически важно для повышения доверия к искусственному интеллекту и его применения в ответственных областях.
Сочетание достижений искусственного интеллекта и когнитивной науки открывает путь к реализации полного потенциала больших языковых моделей (LLM). Преодоление разрыва между этими дисциплинами позволяет создавать системы, которые не просто демонстрируют впечатляющую производительность, но и обладают надёжностью и доверием. Интеграция принципов работы человеческой памяти и мышления в архитектуру LLM способствует формированию более осмысленных и контекстуально-обоснованных ответов, снижая риск генерации неточной или вводящей в заблуждение информации. Подобный подход позволяет создавать интеллектуальные системы, способные не только обрабатывать данные, но и понимать их значение, что является ключевым шагом к созданию действительно разумных машин.
Исследование, представленное в статье, демонстрирует стремление к преодолению ограничений традиционных систем RAG за счет внедрения иерархической памяти SEEM. Этот подход, сочетающий эпизодическую и графовую память, напоминает о необходимости не просто хранить информацию, но и понимать её структуру и взаимосвязи. В этом контексте, слова Винтона Серфа приобретают особую актуальность: «Интернет — это просто машина, которая расширяет возможности человека». SEEM, по сути, является попыткой расширить возможности языковых моделей, предоставляя им более эффективный способ доступа к долгосрочной памяти и рассуждениям. Архитектура SEEM, как и сам интернет, строится на связях и взаимоотношениях, позволяя агентам не просто извлекать факты, но и понимать контекст и логику событий, что критически важно для долгосрочного планирования и решения сложных задач.
Куда дальше?
Представленная работа, несомненно, выявляет уязвимости в кажущейся простоте систем извлечения информации. Традиционные подходы, оперирующие с плоскими представлениями знаний, демонстрируют свою неспособность к удержанию контекста и построению сложных цепочек рассуждений. SEEM, с его иерархической структурой и акцентом на прослеживаемость данных, предлагает элегантное, хотя и не окончательное решение. Однако, само понятие «долгосрочной памяти» для языковых моделей остается скорее метафорой, чем реальностью. Необходимо исследовать, как такая память может быть не просто хранилищем фактов, но и механизмом адаптации, самообучения и, возможно, даже «забывания» — процессов, лежащих в основе любой настоящей интеллекта.
Особое внимание следует уделить проблеме масштабируемости. Графовые представления знаний, несмотря на свою выразительность, могут быстро стать неподъемными для больших объемов информации. Поиск оптимального баланса между точностью, полнотой и вычислительной сложностью — задача, требующая нетривиальных решений. Более того, вопрос о том, как модели могут самостоятельно определять релевантность и значимость информации, остается открытым. Нельзя полагаться лишь на внешние источники, необходимо развивать внутренние механизмы оценки и фильтрации.
В конечном итоге, SEEM — это лишь один шаг на пути к созданию агентов, способных к подлинному долгосрочному рассуждению. Истинный прогресс потребует отхода от упрощенных моделей памяти и принятия во внимание всей сложности когнитивных процессов, лежащих в основе интеллекта. Ведь, как показывает практика, хаос зачастую оказывается более плодотворным, чем любая документация.
Оригинал статьи: https://arxiv.org/pdf/2601.06411.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Вопросы по PDF: Новый вызов для искусственного интеллекта
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- От принципа Ферма к нейронным сетям: новый взгляд на вариационную физику
- Белки под присмотром ИИ: новый подход к пониманию их функций
- Оптический Искусственный Интеллект: Новый Взгляд на Энергоэффективность
- Искусственный интеллект на службе науки: новый инструмент для анализа данных
- Переключение намагниченности в квантовых антиферромагнетиках: новые горизонты для терагерцовой спинтроники
- Машинное обучение и тайны модулярности
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
2026-01-13 11:30