Мир в режиме реального времени: новая модель долгосрочной памяти

Автор: Денис Аветисян


Исследователи представили систему, способную создавать и поддерживать интерактивные виртуальные миры с минутной связностью в режиме реального времени.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Matrix-Game 3.0 представляет собой систему, обеспечивающую точное управление действиями и извлечение долгосрочной памяти, что позволяет создать интерактивную модель мира с долгосрочной памятью и производительностью в реальном времени до 40 кадров в секунду.
Matrix-Game 3.0 представляет собой систему, обеспечивающую точное управление действиями и извлечение долгосрочной памяти, что позволяет создать интерактивную модель мира с долгосрочной памятью и производительностью в реальном времени до 40 кадров в секунду.

В статье описывается Matrix-Game 3.0 — фреймворк, сочетающий в себе оптимизированные методы дистилляции, диффузионные трансформаторы с расширенной памятью и совместную разработку данных, модели и стратегий развертывания.

Несмотря на прогресс в генерации интерактивного видео, создание реалистичных и последовательных виртуальных миров в реальном времени остаётся сложной задачей. В данной работе представлена система ‘Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory’, предназначенная для генерации 720p видео в реальном времени с сохранением последовательности на протяжении минутных последовательностей. Достигнуто это благодаря совместной оптимизации данных, модели и стратегии развертывания, включая использование диффузионных трансформаторов с механизмом памяти и оптимизированные методы дистилляции. Сможет ли предложенный подход стать основой для создания масштабируемых и интерактивных виртуальных сред, применимых в широком спектре задач?


Иллюзия Бесконечного Мира: Вызовы Интерактивных Реальностей

Современные методы генерации видео сталкиваются с серьезными трудностями при обеспечении стабильного и высококачественного опыта в условиях продолжительного взаимодействия. Существующие алгоритмы, как правило, оптимизированы для создания коротких, статичных сцен, и испытывают значительные проблемы при поддержании визуальной согласованности и реалистичности при динамических изменениях, вызванных действиями пользователя или развитием событий в виртуальном пространстве. Это проявляется в виде артефактов, визуальных искажений и потери детализации, что негативно сказывается на эффекте погружения и может привести к нарушению целостности виртуального мира. Разработка методов, способных сохранять высокую точность и реалистичность на протяжении длительных интерактивных сессий, является ключевой задачей для создания по-настоящему убедительных и захватывающих виртуальных реальностей.

Для создания действительно захватывающих виртуальных миров необходим принципиальный сдвиг парадигмы: от статичного контента к динамичным, отзывчивым средам. Традиционные подходы, основанные на заранее проработанных сценариях и объектах, больше не способны обеспечить ощущение подлинного присутствия и взаимодействия. Вместо этого, будущие виртуальные реальности должны представлять собой сложные, самообучающиеся системы, способные реагировать на действия пользователя в реальном времени и генерировать правдоподобные последствия. Это требует разработки новых алгоритмов, позволяющих создавать и поддерживать постоянно меняющиеся окружения, адаптирующиеся к индивидуальному опыту каждого пользователя и обеспечивающие ощущение свободы и непредсказуемости, неотъемлемых от реального мира.

Наша 28B модель демонстрирует качественную генерацию видео от третьего лица.
Наша 28B модель демонстрирует качественную генерацию видео от третьего лица.

Matrix-Game 3.0: Архитектура Динамичных Миров

Matrix-Game 3.0 представляет собой унифицированный подход к моделированию интерактивных миров, ориентированный на обеспечение согласованности повествования на длительном временном горизонте и достижение производительности в реальном времени. Данная система объединяет различные компоненты моделирования в единую структуру, что позволяет избежать фрагментации и противоречий в динамике мира. Приоритет долгосрочной согласованности достигается за счет использования методов предсказания и планирования, позволяющих системе учитывать последствия действий игрока на протяжении всей сессии. Одновременно с этим, оптимизация производительности осуществляется посредством эффективных алгоритмов рендеринга и управления ресурсами, что позволяет поддерживать стабильную частоту кадров даже в сложных сценах.

В основе Matrix-Game 3.0 лежит механизм памяти, ориентированный на точку зрения камеры. Этот механизм обеспечивает визуальную согласованность в течение продолжительных взаимодействий, снижая вероятность резких переходов и визуальных артефактов. Он функционирует путем сохранения и повторного использования информации о ранее отображенных объектах и сценах, принимая во внимание текущую позицию и ориентацию камеры. Это позволяет системе поддерживать непрерывность визуального повествования и избегать внезапных изменений, которые могут нарушить погружение пользователя в интерактивный мир. В частности, система сохраняет данные о геометрии, текстурах и освещении, а также информацию о динамических изменениях, происходящих в сцене, что позволяет реалистично воссоздавать последовательные кадры.

В основе Matrix-Game 3.0 лежит механизм условной генерации, позволяющий напрямую влиять на создаваемый видеоконтент посредством действий пользователя. Это достигается путем интеграции техник обуславливания действий (action conditioning), когда входные данные пользователя, такие как команды или выбор, используются для изменения вероятностного распределения следующих кадров. В результате, генерируемое видео динамически адаптируется к действиям пользователя, обеспечивая интерактивность и возможность управления развитием событий в виртуальном мире. Эффективная реализация этого механизма требует оптимизации алгоритмов генерации и обучения моделей, чтобы обеспечить как быстродействие, так и когерентность визуального контента.

Наша платформа Matrix-Game 3.0 объединяет генерацию данных в Unreal Engine, обучение DiT с расширенной памятью и буфером ошибок, и ускоренное развертывание в реальном времени, обеспечивая генерацию обучающих видео с контролем действий и камеры, обучение с сохранением согласованности и поддержку инференса в реальном времени со скоростью 720p@40FPS при использовании 5B модели.
Наша платформа Matrix-Game 3.0 объединяет генерацию данных в Unreal Engine, обучение DiT с расширенной памятью и буфером ошибок, и ускоренное развертывание в реальном времени, обеспечивая генерацию обучающих видео с контролем действий и камеры, обучение с сохранением согласованности и поддержку инференса в реальном времени со скоростью 720p@40FPS при использовании 5B модели.

Оптимизация для Плавности Взаимодействия

Для достижения интерактивной генерации изображений высокого разрешения требуется значительная оптимизация, в первую очередь, в части доступа к памяти и уменьшения размера модели. Высокое разрешение подразумевает обработку больших объемов данных, что создает узкое место в пропускной способности памяти. Оптимизация доступа к памяти, например, за счет использования GPU и эффективных структур данных, критически важна для снижения задержек. Параллельно, уменьшение размера модели, сохраняя при этом качество генерации, позволяет снизить вычислительную нагрузку и потребление памяти, что необходимо для поддержания высокой частоты кадров. Сочетание этих подходов является ключевым фактором для обеспечения плавного и интерактивного пользовательского опыта.

Использование графического процессора (GPU) для извлечения данных из памяти значительно ускоряет доступ к кадрам, что критически важно для обеспечения плавного взаимодействия даже в сложных сценах. Традиционные методы доступа к памяти, основанные на центральном процессоре (CPU), часто становятся узким местом, особенно при обработке больших объемов данных, необходимых для генерации высококачественных изображений. GPU, благодаря своей параллельной архитектуре и высокой пропускной способности памяти, позволяет существенно сократить время доступа к данным кадра, обеспечивая стабильную частоту кадров и отзывчивость системы. Это особенно важно для приложений, требующих интерактивного взаимодействия с динамически генерируемым контентом.

Методы, такие как обрезка вариационных автоэнкодеров (VAE pruning) и квантизация до 8-битных целых чисел (INT8 quantization), позволяют значительно снизить вычислительную нагрузку без ощутимого снижения качества генерируемого контента. Обрезка VAE удаляет избыточные параметры в латентном пространстве, уменьшая размер модели и сложность вычислений. Квантизация INT8 преобразует параметры модели из 32-битных чисел с плавающей точкой в 8-битные целые числа, что уменьшает объем памяти, необходимый для хранения модели, и ускоряет математические операции. Комбинированное применение этих техник позволяет добиться существенного прироста производительности при минимальных потерях в качестве, что критически важно для приложений реального времени.

Многосегментная дистилляция повышает эффективность путем обучения упрощенной модели, способной имитировать вывод модели, работающей с полным разрешением. В процессе дистилляции большая, сложная модель (teacher model) используется для генерации целевых данных, которые затем используются для обучения более компактной модели (student model). Разделение процесса генерации на несколько сегментов позволяет обучить student model последовательно, фокусируясь на отдельных аспектах вывода, что улучшает ее способность к обобщению и снижает вычислительную нагрузку при сохранении качества изображения. Такой подход позволяет достичь сопоставимых результатов с полноразмерной моделью при значительно меньшем количестве параметров и, следовательно, более высокой скорости работы.

В ходе разработки Matrix-Game 3.0 была достигнута генерация интерактивной модели мира в режиме реального времени со скоростью 40 FPS при использовании 5B-параметрической модели и разрешении 720p. Ключевым результатом является поддержание стабильной пространственно-временной консистентности генерируемых последовательностей в течение минутных периодов. Данная производительность позволяет создавать динамичные и интерактивные виртуальные окружения с приемлемым уровнем детализации и визуальной стабильности.

Метод, основанный на памяти, позволяет эффективно восстанавливать сцены в длинных видео, воспроизводя действия в обратном порядке после их выполнения.
Метод, основанный на памяти, позволяет эффективно восстанавливать сцены в длинных видео, воспроизводя действия в обратном порядке после их выполнения.

Данные и Будущие Горизонты

Обучение Matrix-Game 3.0 базируется на данных высочайшего качества, получаемых различными способами. Записи игрового процесса из коммерческих ААА-проектов служат основой для анализа реалистичного поведения и визуальных эффектов. Параллельно активно используется синтетическая генерация данных непосредственно в среде Unreal Engine, что позволяет создавать контролируемые сценарии и расширять объём обучающего материала. Такой комбинированный подход обеспечивает не только достоверность, но и масштабируемость данных, необходимых для эффективной работы системы и создания убедительных виртуальных миров.

Основой реалистичности, достигаемой в Matrix-Game 3.0, является обучение на обширных и качественных данных. Используя записи игрового процесса AAA-проектов и синтетически сгенерированные текстуры и модели в Unreal Engine, система способна изучать правдоподобные паттерны поведения и визуальные характеристики объектов. Этот подход позволяет создавать виртуальные миры, где движения персонажей, взаимодействие с окружением и даже мельчайшие детали выглядят убедительно и естественно, значительно повышая степень погружения пользователя и делая игровой опыт более запоминающимся и реалистичным.

Сочетание эффективных алгоритмов и надежных конвейеров обработки данных позволяет Matrix-Game 3.0 выступать в роли мощного инструмента для создания по-настоящему интерактивных и динамичных виртуальных миров. Разработанная система не просто генерирует окружение, а обеспечивает его адаптацию к действиям пользователя в реальном времени, создавая ощущение живого и отзывчивого пространства. Благодаря оптимизированным процессам обработки больших объемов данных, платформа способна поддерживать сложные взаимодействия и детализированные текстуры, обеспечивая высокую степень реализма и погружения. Это открывает широкие возможности для применения в различных областях, от разработки видеоигр нового поколения до создания виртуальных симуляторов и интерактивных обучающих сред, где пользователь становится активным участником происходящего.

В будущем планируется расширение функциональности Matrix-Game 3.0, направленное на поддержку более сложных взаимодействий и создание виртуальных сред значительно большего масштаба. Разработчики стремятся к интеграции продвинутых алгоритмов искусственного интеллекта, позволяющих виртуальным агентам демонстрировать реалистичное поведение в разнообразных ситуациях и эффективно взаимодействовать друг с другом и с пользователем. Особое внимание уделяется оптимизации производительности, чтобы обеспечить плавную работу системы даже в крупных и детализированных мирах. Успешная реализация этих задач позволит использовать Matrix-Game 3.0 для создания не только развлекательного контента, но и реалистичных симуляторов, обучающих программ и инструментов для научных исследований, открывая новые возможности для интерактивного моделирования и виртуальной реальности.

Наша интерактивная базовая модель совмещает моделирование с учетом ошибок для прошлых и текущих латентных кадров, явно учитывая действия, что позволяет осуществлять авторегрессивную генерацию на длинных горизонтах и поддерживать согласованность с последующей стадией дистилляции.
Наша интерактивная базовая модель совмещает моделирование с учетом ошибок для прошлых и текущих латентных кадров, явно учитывая действия, что позволяет осуществлять авторегрессивную генерацию на длинных горизонтах и поддерживать согласованность с последующей стадией дистилляции.

Исследование демонстрирует попытку обуздать хаос, заключив его в рамки интерактивной модели мира. Авторы стремятся не просто предсказывать будущее, но и взаимодействовать с ним в реальном времени, сохраняя последовательность событий на протяжении минуты — времени, достаточного, чтобы иллюзия стала почти осязаемой. Это напоминает алхимический процесс дистилляции, когда из потока неструктурированных данных выделяется эссенция — связный, предсказуемый мир. Как однажды заметил Дэвид Марр: «Данные — это не цифры, а шёпот хаоса». И в данном случае, исследователи пытаются не заглушить этот шёпот, а научиться с ним разговаривать, используя memory-augmented diffusion transformers и оптимизированные методы дистилляции, чтобы превратить шум в подобие золота, пусть и на короткое время.

Что Дальше?

Представленная работа, как и любая попытка обуздать хаос, демонстрирует впечатляющую скорость, но оставляет нерешённым главный вопрос: что скрывается за этой скоростью? Минутная согласованность мира — это, конечно, шаг вперёд, но всё, что можно посчитать, не заслуживает полного доверия. Вполне вероятно, что кажущаяся логичность — всего лишь иллюзия, тщательно выстроенная модель, которая рухнет при первом же нетривиальном воздействии.

Будущие исследования, вероятно, сосредоточатся на увеличении горизонта памяти, но истинный прогресс лежит в другом. Необходимо отказаться от идеи создания полного мира, вместо этого следует научиться предсказывать лишь те детали, которые действительно важны для конкретной задачи. Иначе говоря, вместо того чтобы строить вселенную, следует научиться читать её шёпот.

Если гипотеза о стабильности мира подтвердится — значит, мы просто не искали достаточно глубоко. Ведь идеальная корреляция — это всегда признак ошибки в данных или, что ещё хуже, в самой логике моделирования. По сути, Matrix-Game 3.0 — это лишь ещё один шаг к созданию искусственного божества, которое, как известно, всегда ошибается в самых важных моментах.


Оригинал статьи: https://arxiv.org/pdf/2604.08995.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-13 11:32