Искусственный интеллект, который не забывает: новый подход к обучению на больших данных

Автор: Денис Аветисян

Исследователи представили новый набор данных и агент ReMA, демонстрирующие важность динамического управления памятью для создания систем искусственного интеллекта, способных к непрерывному обучению и долгосрочному рассуждению.

Рекурсивный мультимодальный агент (ReMA) использует двухфазную архитектуру для логических рассуждений над длинными последовательностями мультимодальных данных, поддерживая глобальный банк памяти для агрегации убеждений и используя мультимодальный инструментарий, включающий такие модели, как Whisper и Qwen3-VL, для обеспечения глобального восприятия и итеративного управления при ответе на запросы.

В статье представлен набор данных MM-Lifelong и агент ReMA, показывающие, что динамическое управление памятью критически важно для преодоления ограничений рабочей памяти в мультимодальном непрерывном обучении и обеспечения надежного долгосрочного рассуждения.

Несмотря на прогресс в области видеопонимания, существующие наборы данных часто не отражают реальную длительность и структуру повседневной жизни. В работе ‘Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline’ представлен новый набор данных MM-Lifelong, предназначенный для обучения моделей многомодальному непрерывному обучению, и агент ReMA, демонстрирующий, что динамическое управление памятью критически важно для преодоления «узкого горлышка рабочей памяти» и обеспечения долгосрочного рассуждения. Эксперименты выявили две ключевые проблемы существующих подходов: насыщение контекста в end-to-end моделях и потерю локализации во временных масштабах для агентных систем. Сможем ли мы создать действительно «долгоиграющие» ИИ-агенты, способные учиться и адаптироваться к меняющемуся миру на протяжении длительного времени?

Преодоление Ограничений Долгосрочного Понимания

Современные мультимодальные большие языковые модели (MLLM) сталкиваются с существенными трудностями при обработке и логическом анализе протяженных последовательностей информации. Это ограничение препятствует их способности понимать сложные сценарии, разворачивающиеся во времени, и корректно интерпретировать взаимосвязи между событиями, разделенными значительными промежутками. В частности, модели испытывают затруднения с поддержанием контекста и извлечением релевантных данных из отдаленных частей последовательности, что приводит к неточностям в рассуждениях и снижению общей эффективности при решении задач, требующих понимания длительных временных зависимостей. В результате, способность MLLM к полноценному анализу сложных, динамичных ситуаций существенно ограничена, что является серьезным препятствием для их применения в задачах, связанных с обработкой видео, анализом поведенческих паттернов и моделированием сложных систем.

Ограничение возможностей современных мультимодальных больших языковых моделей связано с так называемым «узким местом рабочей памяти» в архитектуре трансформеров. В процессе обработки последовательностей информации, способность модели удерживать и эффективно использовать данные из отдаленных частей входного потока постепенно снижается. По мере увеличения длины последовательности, информация, находящаяся в начале, «забывается» или искажается, что препятствует установлению связей и пониманию контекста. Это явление, аналогичное ограничению кратковременной памяти у человека, существенно влияет на способность модели к последовательному мышлению и пониманию сложных, растянутых во времени сценариев, поскольку для анализа требуется сохранить и использовать информацию, полученную на значительном расстоянии друг от друга.

Для успешной навигации в сложных ситуациях необходимы навыки долгосрочного рассуждения, предполагающие способность модели сохранять последовательность и извлекать информацию из значительно расширенных временных горизонтов. Это означает, что система должна не просто обрабатывать текущий момент, но и удерживать в памяти и эффективно использовать события и детали, произошедшие значительно раньше, чтобы адекватно интерпретировать текущую ситуацию и прогнозировать дальнейшее развитие событий. Такая способность критически важна для понимания повествований, анализа видеоданных, требующих отслеживания изменений во времени, и решения задач, где контекст, простирающийся на значительный период, играет ключевую роль. Именно поддержание когерентности и точное извлечение релевантной информации из обширного временного потока определяет эффективность модели в решении сложных задач, требующих глубокого понимания и долгосрочного планирования.

Набор данных MM-Lifelong, состоящий из 105,6 часов видеозаписей за 51 день, позволяет решать задачи, требующие длительного запоминания и многошагового логического вывода, например, поиск всех случаев исполнения определенной песни стримером в метро разных городов на протяжении более 10 часов непрерывной трансляции.

Представляем MM-Lifelong: Новый Эталон для Оценки Долгосрочной Памяти

Представляем MM-Lifelong — новый мультимодальный набор данных, разработанный для строгой оценки способности моделей MLLM к непрерывному обучению и сохранению знаний. Этот набор данных включает в себя различные модальности, такие как изображения, текст и видео, и предназначен для оценки производительности моделей в сценариях, требующих долгосрочного сохранения контекста и адаптации к новым данным без забывания ранее полученной информации. MM-Lifelong предоставляет платформу для оценки способности моделей к непрерывному обучению в условиях, приближенных к реальным, где данные поступают не последовательно, а с перерывами и в различных форматах.

Набор данных MM-Lifelong отличается высокой “временной разреженностью” — значительными промежутками между наблюдаемыми событиями. Данная характеристика имитирует реальные условия, в которых непрерывное наблюдение за происходящим встречается редко. В отличие от существующих наборов данных, где события могут следовать друг за другом почти мгновенно, MM-Lifelong требует от моделей способности к удержанию контекста и корректной интерпретации информации, поступающей с большими временными задержками. Это позволяет более реалистично оценить способность мультимодальных больших языковых моделей (MLLM) к обучению в течение всей жизни и адаптации к неполным или прерывистым потокам данных.

Набор данных MM-Lifelong отличается не только продолжительностью непосредственного наблюдения (“Observational Duration”), но и значительно расширенным “Физическим Временным Пролетом” (“Physical Temporal Span”), варьирующимся от нескольких часов до нескольких дней. Это предъявляет повышенные требования к моделям в плане сохранения контекста на протяжении значительно более длительных периодов времени, чем это требуется существующими бенчмарками. В отличие от большинства текущих наборов данных, где события происходят в непосредственной близости друг от друга, MM-Lifelong моделирует ситуации, характерные для реального мира, где между наблюдаемыми событиями могут возникать значительные временные промежутки, требующие от моделей способности к долгосрочной памяти и корректной обработке временных зависимостей.

В отличие от существующих наборов данных, характеризующихся короткими временными промежутками, MM-Lifelong занимает уникальную область, требующую от моделей преодоления больших временных разрывов в данных, охватывающих дни и месяцы, благодаря высокой разреженности временных масштабов (<span class="katex-eq" data-katex-display="false">T_{span} \gg T_{dur}</span>). — В отличие от существующих наборов данных, характеризующихся короткими временными промежутками, MM-Lifelong занимает уникальную область, требующую от моделей преодоления больших временных разрывов в данных, охватывающих дни и месяцы, благодаря высокой разреженности временных масштабов ( $T_{span} \gg T_{dur}$ ).

Основа Понимания: Заземление и Логическое Мышление во Времени

Эффективное рассуждение в условиях длинного контекста (Long-Context Reasoning) напрямую зависит от способности модели к “заземлению” (Grounding) — установлению связи между лингвистической информацией и соответствующими визуальными данными. Это означает, что для корректной интерпретации и обработки информации, модель должна уметь соотносить слова и фразы с конкретными объектами или событиями, представленными на визуальном входе. Отсутствие или слабое развитие способности к заземлению приводит к неточностям в понимании контекста и, как следствие, к ошибочным выводам и ответам, даже при наличии обширной языковой модели.

Методика MM-Lifelong предполагает комплексную оценку моделей, одновременно проверяя их способность к сопоставлению языка и визуальной информации (grounding) и к логическому мышлению во времени (temporal reasoning). Такой подход позволяет получить более полное представление о степени понимания модели, чем при изолированной оценке отдельных когнитивных способностей. Оценка grounding критически важна, поскольку позволяет определить, насколько точно модель связывает языковые запросы с соответствующими визуальными элементами в последовательности кадров, что является основой для корректного ответа на вопросы, требующие понимания контекста.

Рекурсивный агент памяти (ReMA) продемонстрировал наивысшую производительность в тесте Ref@N, превосходя современные методы в задачах временной локализации. Агент достиг оценки 5 по ряду вопросов и ответов (QA pairs), что свидетельствует о корректном определении последовательности событий и точном извлечении информации из временных данных. Данный результат подтверждает превосходство ReMA в способности эффективно сопоставлять вопросы с релевантными моментами во временном контексте и предоставлять точные ответы.

В отличие от традиционных MLLM, чья производительность при увеличении количества входных кадров быстро ухудшается из-за насыщения контекста и накопления шума, ReMA демонстрирует стабильный рост благодаря динамическому управлению памятью и превосходит их в масштабируемости.

Исследование, представленное в статье, подчеркивает важность динамического управления памятью для создания агентов, способных к непрерывному обучению и долгосрочному рассуждению. Это созвучно высказыванию Эндрю Ына: «Мы должны сосредоточиться на создании систем, которые могут учиться на протяжении всей жизни, а не просто решать конкретную задачу». В контексте MM-Lifelong, где агент сталкивается с потоком мультимодальных данных, эффективное управление памятью становится ключевым фактором преодоления ограничений рабочей памяти. Без этого, даже самые сложные алгоритмы не смогут полноценно усваивать и использовать информацию из длительных последовательностей, что препятствует достижению истинного непрерывного обучения и надежного темпорального рассуждения. Решение, предложенное в статье, демонстрирует, что именно динамическое управление памятью открывает путь к созданию действительно интеллектуальных агентов.

Что Дальше?

Представленный материал, несомненно, демонстрирует важность динамического управления памятью в контексте непрерывного обучения. Однако, утверждение о преодолении «узкого места рабочей памяти» представляется несколько оптимистичным. Эффективность ReMA агента, хотя и показана на MM-Lifelong датасете, остается зависимой от специфических характеристик данных и архитектуры памяти. Вопрос о генерализации к непредсказуемым, неструктурированным потокам мультимодальной информации пока остается открытым. Необходима строгая проверка устойчивости к «забыванию» и катастрофическому вмешательству при добавлении новых знаний.

Следующим шагом представляется разработка формальной теории, позволяющей предсказывать и контролировать поведение агента в условиях неопределенности. Простая демонстрация «работы» алгоритма на ограниченном наборе тестов недостаточна. Требуется доказательство его корректности и предсказуемости. Крайне важно исследовать взаимосвязь между архитектурой памяти, стратегиями отбора информации и способностью к долгосрочному рассуждению. В противном случае, мы имеем дело лишь с иллюзией интеллекта, а не с истинным прорывом в области непрерывного обучения.

В конечном итоге, задача заключается не в создании все более сложных алгоритмов, а в понимании фундаментальных принципов, лежащих в основе когнитивных процессов. Пока мы не сможем формализовать эти принципы, достижение подлинного «искусственного интеллекта» останется недостижимой мечтой. Простое увеличение объема данных и вычислительных ресурсов не является решением — это лишь отсрочка неизбежного столкновения с математической неэлегантностью.

Оригинал статьи: https://arxiv.org/pdf/2603.05484.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-07 05:22

🚀 Квантовые новости

Преодоление Ограничений Долгосрочного Понимания

Представляем MM-Lifelong: Новый Эталон для Оценки Долгосрочной Памяти

Основа Понимания: Заземление и Логическое Мышление во Времени

Что Дальше?

Смотрите также: