Стереомир: Создание реалистичного 3D-видео с помощью искусственного интеллекта

Автор: Денис Аветисян


Новая модель StereoWorld позволяет генерировать стереоскопические видеоролики, точно воспроизводящие геометрию и внешний вид объектов, открывая новые возможности для виртуальной и дополненной реальности.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Мировая модель StereoWorld, в отличие от существующих, использует метрическую геометрию, что обеспечивает совместимость выходных данных с предварительно обученными моделями и позволяет достичь большей согласованности мелких деталей в стереоскопической визуализации для виртуальной реальности.
Мировая модель StereoWorld, в отличие от существующих, использует метрическую геометрию, что обеспечивает совместимость выходных данных с предварительно обученными моделями и позволяет достичь большей согласованности мелких деталей в стереоскопической визуализации для виртуальной реальности.

Представлена камера-ориентированная модель стерео-видения, совместно моделирующая бинокулярный визуальный облик и геометрию для согласованной и реалистичной генерации стерео-видео.

Воссоздание реалистичных стереоскопических видео остается сложной задачей из-за необходимости одновременного моделирования как визуального контента, так и геометрической согласованности. В данной работе, ‘Stereo World Model: Camera-Guided Stereo Video Generation’, представлена новая модель, StereoWorld, которая совместно изучает бинокулярные визуальные признаки и геометрию, используя только RGB-данные и позиционное кодирование RoPE для обеспечения согласованности во времени и по точкам зрения. Предложенный подход, основанный на декомпозиции внимания, позволяет значительно ускорить генерацию стереовидео, повышая точность оценки глубины и согласованность с движением камеры. Сможет ли StereoWorld стать основой для создания иммерсивных виртуальных реальностей и продвинутых систем обучения роботов?


За пределами Пикселей: Ограничения Существующих Мировых Моделей

Традиционные генеративные модели мира, основанные на данных RGB-D, часто сталкиваются с проблемами масштабирования и геометрической согласованности. Несмотря на способность воспроизводить визуальные детали, они нередко испытывают трудности в поддержании реалистичных пропорций объектов и их взаиморасположения в пространстве. Это приводит к созданию сцен, в которых объекты могут казаться слишком большими или слишком маленькими относительно друг друга, или же нарушаться общая логика геометрии. Подобные несоответствия существенно ограничивают возможности точного понимания сцены и препятствуют эффективному взаимодействию с виртуальным окружением, особенно в задачах, требующих точного пространственного рассуждения и навигации.

Представления мира, основанные на анализе монокулярного видео, демонстрируют впечатляющие возможности по синтезу реалистичных сцен, однако фундаментальным ограничением является отсутствие в них встроенного понимания трехмерной геометрии. Хотя такие модели способны генерировать визуально правдоподобные изображения, они испытывают трудности в понимании и воспроизведении корректных пространственных взаимосвязей между объектами. Это приводит к проблемам при выполнении задач, требующих пространственного рассуждения, например, при оценке расстояний, определении относительного положения объектов или навигации в виртуальной среде. Несмотря на прогресс в алгоритмах обработки видео, отсутствие непосредственной информации о глубине ограничивает способность этих моделей к формированию надежного и точного представления трехмерного мира.

Ограничения существующих моделей мира диктуют необходимость разработки принципиально нового подхода к представлению окружающей среды. Традиционные методы, фокусирующиеся на визуальных данных, часто испытывают трудности с сохранением геометрической согласованности и масштаба, что препятствует полноценному пониманию сцены. Новая модель должна обеспечивать точное воссоздание пространственных взаимосвязей между объектами, позволяя не просто генерировать реалистичные изображения, но и осуществлять надежное пространственное рассуждение и планирование действий в виртуальной среде. Такой подход позволит создавать системы, способные к более глубокому и осмысленному взаимодействию с окружающим миром, открывая возможности для развития робототехники, дополненной реальности и других передовых технологий.

StereoWorld кодирует условные и зашумленные видеолатентности с различных точек зрения и моментов времени, используя RoPE-представление камеры-кадра, а затем выполняет шумоподавление с помощью DiT и стерео-внимания для генерации итогового стереовидео.
StereoWorld кодирует условные и зашумленные видеолатентности с различных точек зрения и моментов времени, используя RoPE-представление камеры-кадра, а затем выполняет шумоподавление с помощью DiT и стерео-внимания для генерации итогового стереовидео.

Стереоскопическое Зрение как Основа: Новая Мировая Модель

В основе нашей модели мирового представления лежит стереозрение, обеспечивающее надежные геометрические подсказки, необходимые для точной 3D-реконструкции сцены и её понимания. Использование двух камер позволяет извлекать информацию о глубине, что критически важно для построения трехмерной модели окружающего пространства. Стереоскопические данные предоставляют возможность вычислять параллакс и триангулировать координаты точек в сцене, что значительно повышает точность и реалистичность реконструируемой 3D-модели по сравнению с методами, основанными на монокулярном зрении или других источниках информации. Надежность геометрических подсказок, получаемых благодаря стереоскопии, является ключевым фактором для успешной работы системы в различных условиях освещения и при наличии текстурных неоднородностей.

Предлагаемая модель расширяет возможности существующих генеративных мировых моделей за счет привязки геометрии к бинокулярным наблюдениям. В отличие от моделей, полагающихся на монокулярные данные или абстрактные представления, наша архитектура использует информацию из двух камер для точного восстановления трехмерной структуры сцены. Это обеспечивает согласованное восприятие в метрической шкале, что критически важно для задач, требующих точного измерения расстояний и размеров объектов, а также для надежной навигации и взаимодействия с окружающей средой. Основываясь на реальных бинокулярных данных, модель способна генерировать правдоподобные и геометрически корректные представления окружающего мира, что повышает ее эффективность в различных приложениях.

Архитектура модели основана на диффузионной модели на базе Transformer (DiT), дополненной вариационным автоэнкодером (VAE). VAE используется для создания компактного и эффективного представления данных, охватывающих как пространственные, так и временные аспекты сцены. DiT отвечает за генерацию детализированных и реалистичных представлений, а VAE обеспечивает сжатие данных и снижение вычислительной сложности, что критически важно для обработки больших объемов информации и обеспечения работы модели в реальном времени. Такое сочетание позволяет модели эффективно представлять и обрабатывать динамические 3D-сцены.

В отличие от современных методов, использующих постобработку для создания стереовидео, наш подход генерирует стереоизображение напрямую в процессе обучения, что обеспечивает более точную передачу деталей и цветовой согласованности между кадрами.
В отличие от современных методов, использующих постобработку для создания стереовидео, наш подход генерирует стереоизображение напрямую в процессе обучения, что обеспечивает более точную передачу деталей и цветовой согласованности между кадрами.

Единое Кодирование Камер и Механизмы Внимания

Предлагается Unified Camera-Frame RoPE — стратегия позиционного кодирования, расширяющая латентное пространство токенов посредством вращающегося позиционного кодирования, учитывающего параметры камеры, для унифицированного управления условиями. Данный подход позволяет модели учитывать информацию о положении и ориентации камеры, интегрируя её в процесс кодирования входных данных. В частности, используется вращающееся позиционное кодирование (RoPE) для добавления информации о камере в латентные токены, что обеспечивает более эффективное представление сцены и улучшает возможности модели по пониманию взаимосвязи между изображениями и геометрией сцены. Это расширение латентного пространства позволяет модели лучше обрабатывать данные, поступающие с различных камер, и эффективно использовать информацию о перспективе и положении камеры для решения задач компьютерного зрения.

Кодирование, основанное на вращающемся позиционном кодировании (Rotary Positional Encoding) и кодировании лучей Плюккера (Plücker Ray Encoding), позволяет модели устанавливать связь между позициями камер и геометрией сцены. Вращающееся позиционное кодирование обеспечивает эффективное представление относительных позиций токенов, а кодирование лучей Плюккера, представляющее собой параметризацию лучей в трехмерном пространстве, кодирует информацию о направлении и положении лучей, исходящих из камеры. Комбинация этих методов позволяет модели учитывать геометрию сцены при обработке изображений, что критически важно для задач трехмерной реконструкции и понимания сцены. \vec{l} = \vec{p} \times \vec{d} — вектор, представляющий луч, где \vec{p} — точка на луче, а \vec{d} — направление луча.

Механизм Stereo-Aware Attention, основанный на подходе 4D Attention и ограниченный геометрией эпиполярной геометрии, обеспечивает эффективное объединение информации из двух перспектив. В его основе лежит использование эпиполярных ограничений для сужения пространства поиска соответствий между пикселями на двух изображениях, что существенно снижает вычислительные затраты и повышает точность сопоставления признаков. Это позволяет модели более эффективно реконструировать трехмерную структуру сцены, используя стереоскопическую информацию и обеспечивая высокую точность 3D реконструкции даже в сложных условиях освещения или текстуры.

Стереовидео генерируется в реалистичных, воплощенных сценариях, обеспечивая восприятие глубины и контекста.
Стереовидео генерируется в реалистичных, воплощенных сценариях, обеспечивая восприятие глубины и контекста.

Влияние и Перспективы: Воплощенный Искусственный Интеллект и За Его Пределами

Наша стереомодель мира наделяет агентов воплощенного искусственного интеллекта более точным и устойчивым пониманием окружающей среды, что позволяет им взаимодействовать более естественно и эффективно. Это достигается за счет моделирования глубины и пространственных отношений, позволяя агентам не просто “видеть” объекты, но и понимать их трехмерную структуру и взаимное расположение. Такое углубленное восприятие критически важно для выполнения сложных задач в реальном мире, таких как навигация в переполненных пространствах, манипулирование объектами и взаимодействие с людьми, поскольку позволяет агентам предвидеть последствия своих действий и адаптироваться к изменяющимся условиям. Повышенная надежность восприятия особенно важна в ситуациях, требующих принятия быстрых решений, и значительно улучшает общую производительность и безопасность автономных систем.

Эта технология значительно расширяет возможности долгосрочного синтеза видео, создавая более реалистичные и захватывающие виртуальные среды для таких приложений, как виртуальная реальность. Улучшенное моделирование глубины и перспектив позволяет генерировать видеоматериалы, которые кажутся более правдоподобными и объемными, что критически важно для обеспечения эффекта присутствия в виртуальном мире. Повышенная точность визуализации позволяет создавать сложные сцены с множеством деталей, расширяя возможности для обучения, развлечений и профессиональных симуляций. Данный подход открывает новые перспективы для разработки иммерсивных приложений, где пользователи могут взаимодействовать с виртуальной средой так, как если бы она была реальной.

Разработка StereoWorld демонстрирует значительный прогресс в скорости и качестве генерации видео. В ходе исследований было установлено, что новая технология обеспечивает трехкратное увеличение скорости работы по сравнению с передовыми методами, использующими постобработку стерео-конвертации. Помимо этого, StereoWorld позволяет добиться приблизительно пятипроцентного улучшения согласованности точек зрения в генерируемом видео, что способствует созданию более реалистичного и убедительного визуального опыта. Данные результаты свидетельствуют о потенциале StereoWorld для применения в областях, требующих высокоскоростной и точной генерации стереоскопического контента.

Дальнейшие исследования сосредоточены на оптимизации авторегрессионной генерации видео, направленной на повышение качества и связности создаваемых изображений. Для достижения этой цели планируется использовать такие передовые методы, как самообучение (Self-Forcing) и дистилляция соответствия распределений (Distribution Matching Distillation). Особое внимание уделяется эффективному использованию KV-кэша, что позволит значительно сократить вычислительные затраты и ускорить процесс генерации видеопотока. Эти усовершенствования позволят создавать более реалистичные и плавные видеоматериалы, открывая новые возможности для применения в различных областях, включая виртуальную реальность и компьютерную графику.

В отличие от существующих методов, наш подход к определению стерео-различий не требует предварительного обучения с использованием данных о глубине.
В отличие от существующих методов, наш подход к определению стерео-различий не требует предварительного обучения с использованием данных о глубине.

Исследование, представленное в данной работе, демонстрирует значительный прогресс в области моделирования стерео зрения. Авторы предлагают StereoWorld — систему, способную генерировать реалистичные стерео видео, что особенно важно для приложений виртуальной и дополненной реальности. Этот подход, основанный на совместном моделировании визуальных данных и геометрии, позволяет добиться высокой степени согласованности между изображениями. Как отмечал Дэвид Марр: «Представление — это не просто набор данных, а способ организации информации для эффективного использования». Именно эффективная организация данных и лежит в основе StereoWorld, позволяя системе создавать убедительные и согласованные стерео видеопотоки, приближая нас к созданию более правдоподобных виртуальных миров.

Что дальше?

Представленная работа, безусловно, демонстрирует значительный шаг в моделировании стереоскопического мира. Однако, необходимо признать, что проблема согласованности визуальных данных и геометрической точности остаётся открытой. Иллюзия реалистичного стерео-видео, созданная моделью, по-прежнему требует пристального внимания к деталям, особенно в сложных динамических сценах. Попытки обойти необходимость точного моделирования геометрии, используя лишь “внимание” и прочие механизмы, выглядят элегантно, но напоминают о вечной борьбе между приближением и истиной.

Перспективы развития очевидны: необходимо углублённое исследование способов интеграции информации из различных сенсоров, не ограничиваясь лишь визуальными данными. Понимание контекста сцены, предсказание поведения объектов — всё это требует выхода за рамки чистого моделирования визуальной информации. Можно предположить, что будущие модели будут вынуждены осваивать принципы причинно-следственных связей, чтобы создавать действительно правдоподобные и интерактивные виртуальные миры.

В конечном счёте, успех в этой области зависит не только от усовершенствования технических аспектов, но и от более глубокого понимания того, как человеческий мозг воспринимает и интерпретирует трёхмерное пространство. Задача не в том, чтобы просто создать “реалистичное” изображение, а в том, чтобы создать модель, которая действительно отражает структуру и закономерности окружающего мира, пусть даже и в упрощённой форме.


Оригинал статьи: https://arxiv.org/pdf/2603.17375.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-19 18:41