Сборка панорам: Новый подход к генерации 360° видео

Автор: Денис Аветисян


Исследователи представили CubeComposer — модель, способную создавать высококачественные 360° видеоролики в разрешении 4K на основе обычных видеозаписей.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
CubeComposer формирует 360° видео посредством авторегрессивной генерации кубической карты, что значительно снижает пиковые требования к вычислительной памяти и обеспечивает возможность нативной генерации в разрешении 4K.
CubeComposer формирует 360° видео посредством авторегрессивной генерации кубической карты, что значительно снижает пиковые требования к вычислительной памяти и обеспечивает возможность нативной генерации в разрешении 4K.

CubeComposer использует авторегрессивную диффузионную модель и представление в виде кубической карты для эффективной генерации пространственно-временной консистентности в панорамном видео.

Создание высококачественных панорамных видео 360^\circ с высоким разрешением остается сложной задачей, особенно при использовании существующих диффузионных моделей, ограниченных вычислительными ресурсами и разрешением до 1K. В данной работе представлена система ‘CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video’, использующая новый подход к авторегрессивной генерации видео, способный создавать панорамные видео 4K напрямую, без необходимости постобработки. Ключевой особенностью CubeComposer является декомпозиция видео на кубическую карту и последовательный синтез контента, что снижает требования к памяти и позволяет достичь высокого разрешения. Сможет ли данная технология открыть новые возможности для иммерсивного виртуального опыта и приложений виртуальной реальности?


Вызовы создания захватывающего контента

Создание 360-градусных видеороликов высокого разрешения представляет собой значительную вычислительную задачу, требующую огромных ресурсов и времени. Каждый кадр такого видео содержит в себе информацию со всех сторон, что многократно увеличивает объем данных по сравнению с традиционными видео. Процесс рендеринга и обработки этих данных требует мощных графических процессоров и значительного времени ожидания, особенно при стремлении к кинематографическому качеству. Эта вычислительная сложность является одним из основных препятствий для широкого распространения иммерсивного контента, ограничивая возможности создателей контента и затрудняя доступность таких видео для широкой аудитории. В результате, несмотря на растущий интерес к виртуальной реальности и панорамному видео, массовое внедрение 360-градусного контента с высоким разрешением остается сложной задачей.

Традиционные методы создания панорамного контента сталкиваются с существенными трудностями при экстраполяции изображения из ограниченного числа перспектив. В попытке воссоздать полноценную 360-градусную сцену из небольшого набора исходных кадров, алгоритмы часто не способны сохранить визуальную достоверность и целостность изображения. Это проявляется в артефактах, искажениях геометрии и размытости текстур, особенно заметных в областях, не охваченных исходными перспективами. Проблема усугубляется необходимостью учитывать сложные взаимосвязи между различными частями сцены, что требует значительных вычислительных ресурсов и приводит к снижению качества итогового изображения. В результате, попытки создания высококачественного панорамного контента традиционными методами зачастую оказываются трудоемкими и не приводят к желаемым результатам, ограничивая возможности широкомасштабного использования таких технологий.

Существующие генеративные модели, несмотря на значительный прогресс в области искусственного интеллекта, зачастую не способны адекватно воссоздать сложные пространственно-временные зависимости, необходимые для реалистичных панорамных видеороликов. Это ограничение проявляется в неспособности моделей генерировать контент высокого разрешения, как правило, не превышающего 1К или 2К. Проблема заключается в том, что воссоздание полной 360-градусной сцены требует учета взаимосвязей между всеми точками пространства во времени, что предъявляет колоссальные вычислительные требования к алгоритмам и архитектурам нейронных сетей. Неспособность адекватно моделировать эти зависимости приводит к визуальным артефактам, размытости и общей нереалистичности генерируемого контента, препятствуя широкому распространению иммерсивных технологий.

CubeComposer превосходит существующие методы генерации 360° видео, обеспечивая нативное создание контента в разрешении 4K (3840x1920) с более высокой детализацией и визуальным качеством по сравнению с предыдущими решениями, ограничивающимися разрешением до 2K (с VEnhancer[13]).
CubeComposer превосходит существующие методы генерации 360° видео, обеспечивая нативное создание контента в разрешении 4K (3840×1920) с более высокой детализацией и визуальным качеством по сравнению с предыдущими решениями, ограничивающимися разрешением до 2K (с VEnhancer[13]).

CubeComposer: Новая генеративная платформа

CubeComposer представляет собой авторегрессионную диффузионную модель, предназначенную для генерации 360° видео в разрешении 4K. Данная модель осуществляет последовательное построение видеокадров во времени и пространстве, используя процесс диффузии для создания детализированного и реалистичного контента. Авторегрессионный подход означает, что каждый новый кадр генерируется с учетом предыдущих, обеспечивая временную согласованность. Высокое разрешение 4K и поддержка 360° формата позволяют создавать иммерсивный визуальный опыт, требующий значительных вычислительных ресурсов для обработки и генерации.

В основе CubeComposer лежит мощная видео-модель DiT (Diffusion Transformer), архитектура которой была расширена за счет разработанного механизма разреженного контекстного внимания. DiT обеспечивает базовую способность к генерации видео, а добавленный механизм внимания позволяет модели эффективно обрабатывать большие объемы данных, необходимые для создания детализированных 360° видео высокого разрешения. Разреженность внимания снижает вычислительную сложность и позволяет модели фокусироваться на наиболее релевантных областях изображения, что критически важно для поддержания когерентности и качества в панорамном видеопотоке.

Модель CubeComposer использует принцип Coverage-Guided Order для оптимизации генерации лиц в 360° видео. Данный подход заключается в приоритетной генерации областей с лицами, что позволяет максимизировать их пространственное покрытие в кадре и, как следствие, снизить вероятность появления визуальных артефактов, таких как размытость или неполная прорисовка. Приоритезация основана на анализе пространственного распределения лиц в генерируемом видео, обеспечивая более четкое и детализированное отображение ключевых элементов сцены и улучшая общее визуальное качество сгенерированного контента.

CubeComposer преобразует перспективное видео в кубическую карту для генерации последовательности кадров, ориентируясь на покрытие и используя эффективный механизм разреженного контекстного внимания, чтобы на каждом шаге создавать видео, обусловленное контекстными токенами, для граней куба (F - передняя, R - правая, L - левая, B - задняя, U - верхняя, D - нижняя).
CubeComposer преобразует перспективное видео в кубическую карту для генерации последовательности кадров, ориентируясь на покрытие и используя эффективный механизм разреженного контекстного внимания, чтобы на каждом шаге создавать видео, обусловленное контекстными токенами, для граней куба (F — передняя, R — правая, L — левая, B — задняя, U — верхняя, D — нижняя).

Количественная и качественная оценка

Обучение и оценка модели CubeComposer проводились на наборе данных 4K360Vid, представляющем собой коллекцию 360° видео высокого разрешения. Данный набор данных включает видеоматериалы с разрешением 4K, что позволяет оценить производительность модели при обработке контента с высоким уровнем детализации и реалистичностью. Использование 4K360Vid в качестве эталонного набора данных обеспечивает надежную и объективную оценку качества генерируемых 360° видео CubeComposer, а также позволяет сравнивать ее эффективность с другими методами в задачах, требующих обработки и генерации панорамного видеоконтента.

Количественная оценка CubeComposer проводилась с использованием стандартных метрик оценки качества изображений и видео, включая FID (Fréchet Inception Distance), FVD (Frechet Video Distance), LPIPS (Learned Perceptual Image Patch Similarity) и VBench. Результаты показали, что CubeComposer превосходит базовые методы по данным метрикам, что свидетельствует о более высоком качестве генерируемых видео. В частности, улучшение показателей по метрикам LPIPS, FID и FVD указывает на повышение перцептивной схожести, реалистичности изображений и видео, соответственно, по сравнению с результатами, полученными другими моделями.

В ходе оценки CubeComposer на наборе данных 4K360Vid, были получены улучшения по ключевым метрикам оценки качества. В частности, CubeComposer демонстрирует более высокие значения метрики LPIPS (Learned Perceptual Image Patch Similarity), что свидетельствует о повышенном восприятии сходства с эталонными изображениями. Также наблюдается улучшение показателей FID (Fréchet Inception Distance) и FVD (Fréchet Video Distance), указывающее на более высокую точность воссоздания изображений и видео, соответственно. Детализированные результаты, включая количественные значения улучшений по каждой метрике, представлены в Таблице 1.

Конструкции, учитывающие непрерывность в CubeComposer, позволяют эффективно решать проблему разрывов, возникающих при пространственно-временной авторегрессии.
Конструкции, учитывающие непрерывность в CubeComposer, позволяют эффективно решать проблему разрывов, возникающих при пространственно-временной авторегрессии.

Значение и перспективы развития

Разработка CubeComposer открывает принципиально новые возможности для создания захватывающего контента, предназначенного для виртуальной и дополненной реальности, а также других интерактивных приложений. Данная модель позволяет генерировать 360-градусные видео и панорамные изображения с беспрецедентной скоростью и детализацией, что значительно расширяет границы повествования и взаимодействия с цифровым пространством. Потенциал технологии простирается от создания реалистичных виртуальных туров и интерактивных обучающих материалов до разработки новых форм развлечений и визуализации данных, предоставляя пользователям уникальный опыт полного погружения в цифровой мир.

Разработанная модель CubeComposer демонстрирует высокую эффективность и масштабируемость, что делает её перспективной для создания 360° видео в режиме реального времени. Благодаря оптимизированной архитектуре, система способна генерировать и транслировать панорамные видеопотоки с минимальной задержкой, открывая возможности для интерактивных VR/AR приложений и иммерсивных медиа-форматов. Эта способность к быстрой генерации контента позволяет пользователям наслаждаться динамичным и реалистичным 360° опытом без необходимости предварительной обработки или загрузки больших файлов, что существенно расширяет сферу применения панорамных видеотехнологий.

Дальнейшие исследования CubeComposer сосредоточены на усовершенствовании ключевых аспектов генерации 360° видео. В частности, планируется изучение новых механизмов внимания, позволяющих модели более эффективно выделять важные детали и улучшать качество создаваемых сцен. Особое внимание уделяется повышению временной связности кадров, что критически важно для создания реалистичных и комфортных для просмотра видеопотоков. Кроме того, ведется работа по расширению возможностей модели для обработки изображений еще более высокого разрешения и сложности, что откроет путь к созданию невероятно детализированных и захватывающих виртуальных миров. Эти усовершенствования позволят значительно расширить сферу применения CubeComposer и вывести технологию генерации 360° видео на качественно новый уровень.

Механизм контекста CubeComposer, используемый для генерации грани R в текущем временном окне, комбинирует исторические токены (предыдущие итерации), токены текущего окна (сгенерированные грани и условия перспективы) и фрагменты будущих граней, отобранные на основе пространственной близости и значимости содержимого, для обеспечения когерентной генерации.
Механизм контекста CubeComposer, используемый для генерации грани R в текущем временном окне, комбинирует исторические токены (предыдущие итерации), токены текущего окна (сгенерированные грани и условия перспективы) и фрагменты будущих граней, отобранные на основе пространственной близости и значимости содержимого, для обеспечения когерентной генерации.

Работа, представленная в данной статье, демонстрирует стремление к элегантности в решении сложной задачи генерации 360° видео высокого разрешения. Авторы, используя новаторский подход CubeComposer, достигают впечатляющей пространственно-временной согласованности, что особенно важно для создания захватывающего пользовательского опыта. Как однажды заметил Дэвид Марр: «Понимание — это построение моделей, предсказывающих явления». Этот принцип находит отражение в CubeComposer, где модель предсказывает последовательные кадры 360° видео, обеспечивая плавность и реалистичность изображения. Акцент на эффективном управлении контекстом и разреженности внимания подчеркивает глубокое понимание ограничений существующих методов и стремление к оптимизации вычислительных ресурсов, что, безусловно, является признаком продуманного дизайна.

Куда же дальше?

Представленная работа, безусловно, демонстрирует прогресс в области генерации 360° видео, однако эйфория от достижения 4K разрешения не должна заслонять более глубокие вопросы. Успешное использование кубической проекции и разреженной структуры внимания — это, скорее, изящное решение инженерной задачи, чем прорыв в понимании самой сути пространственно-временной согласованности. По-прежнему остается открытым вопрос о том, как научить машину не просто воспроизводить визуальные паттерны, но и предвосхищать их, создавая действительно убедительные и правдоподобные сцены.

Очевидным направлением дальнейших исследований представляется разработка методов, позволяющих CubeComposer не только генерировать видео, но и понимать его содержание. Способность к семантической интерпретации сцены позволит значительно повысить качество генерируемого контента и избежать артефактов, возникающих из-за недостаточного контекста. Не менее важным представляется вопрос об эффективности: элегантность решения не должна достигаться за счет непомерных вычислительных затрат.

В конечном счете, задача состоит не в том, чтобы создавать все более реалистичные симуляции, а в том, чтобы научиться управлять вниманием зрителя. Красота не должна отвлекать, она должна направлять взгляд, подчеркивать главное и создавать ощущение присутствия. И это, пожалуй, самая сложная задача, стоящая перед исследователями в области генерации 360° видео.


Оригинал статьи: https://arxiv.org/pdf/2603.04291.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-06 00:46