Видеомодели видят мир в 3D: насколько хорошо?

Автор: Денис Аветисян


Новое исследование показывает, что современные видеомодели обладают удивительной способностью к пониманию трехмерного пространства, зачастую превосходя модели, обученные непосредственно на 3D-данных.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Модель-«зонд» извлекает видео-признаки, используя замороженные видео-модели, отбирает четыре кадра и соответствующие карты признаков, после чего обучается предсказывать карты точек, карты глубины и позы камеры посредством неглубокого трансформера с тремя выходными головами, при этом ошибки предсказания служат основным индикатором понимания трехмерного пространства.
Модель-«зонд» извлекает видео-признаки, используя замороженные видео-модели, отбирает четыре кадра и соответствующие карты признаков, после чего обучается предсказывать карты точек, карты глубины и позы камеры посредством неглубокого трансформера с тремя выходными головами, при этом ошибки предсказания служат основным индикатором понимания трехмерного пространства.

Авторы предлагают фреймворк для оценки 3D-восприятия видеомоделей, демонстрируя их скрытый потенциал в реконструкции и понимании трехмерной сцены.

Несмотря на то, что видео являются двухмерными проекциями трехмерного мира, остается неясным, способны ли современные видео-модели самостоятельно формировать понимание трехмерного пространства. В работе ‘How Much 3D Do Video Foundation Models Encode?’ исследуется степень освоения трехмерного представления в крупных предобученных видео-моделях. Показано, что передовые модели генерации видео демонстрируют неожиданно сильное понимание трехмерных объектов и сцен, превосходя даже специализированные модели, обученные на трехмерных данных. Какие механизмы лежат в основе этого неявного трехмерного представления и как его можно эффективно использовать для создания более масштабируемых и эффективных трехмерных моделей?


Проблема Трёхмерного Восприятия в Видео: Почему Теория Бессильна Без Практики

Несмотря на впечатляющий прогресс в области генерации видео, точное представление и логическое осмысление трехмерных сцен по-прежнему представляет собой значительную проблему. Современные модели, работающие с видео, часто сталкиваются с трудностями при интерпретации глубины, формы и пространственных взаимосвязей объектов. Это связано с тем, что традиционные подходы к обработке видео фокусируются преимущественно на двухмерных изображениях, игнорируя важные трехмерные характеристики. В результате, модели испытывают затруднения в понимании сложных сцен, особенно в условиях изменения точки зрения или наличия перекрывающихся объектов, что ограничивает их способность к обобщению и выполнению сложных задач, требующих глубокого понимания геометрии сцены.

Современные видео-модели-основы (VidFM) зачастую сталкиваются с трудностями при построении надёжного внутреннего представления трёхмерной геометрии объектов в видеоряде. Это ограничение существенно влияет на их способность к обобщению и выполнению сложных задач, требующих понимания пространственных взаимосвязей. Несмотря на успехи в генерации реалистичных видео, отсутствие чёткой трёхмерной модели мира приводит к ошибкам в прогнозировании поведения объектов, понимании причинно-следственных связей и адаптации к новым, незнакомым ситуациям. В результате, VidFM могут испытывать трудности, например, при оценке глубины, распознавании перекрывающихся объектов или предсказании траектории движения в сложных сценах, что подчеркивает необходимость разработки более совершенных методов представления и обработки трёхмерной информации в видео.

Оценка понимания трехмерного пространства в видеоконтенте представляет собой сложную задачу, поскольку стандартные метрики зачастую оказываются неспособны зафиксировать тонкие нюансы трехмерного мышления. Традиционные показатели, такие как точность распознавания объектов или оценка оптического потока, хоть и полезны, но не отражают истинную способность модели к реконструкции и логическому анализу трехмерной сцены. Например, модель может успешно идентифицировать объекты, но при этом не понимать их взаимное расположение в пространстве или предсказывать их поведение при изменении угла обзора. Таким образом, для адекватной оценки прогресса в области трехмерного понимания видео требуется разработка новых, более сложных метрик, способных учитывать глубину, перспективу и пространственные взаимосвязи, а также оценивать способность модели к экстраполяции и прогнозированию в трехмерном пространстве.

Разработка надёжной оценочной базы является ключевым шагом в прогрессе видеомоделей, способных к полноценному трёхмерному восприятию. Существующие метрики зачастую не способны адекватно отразить сложность трёхмерного мышления, что затрудняет объективное сравнение различных подходов и выявление наиболее перспективных направлений исследований. Необходима система оценки, способная выявлять не только способность модели воспроизводить визуальную информацию, но и её понимание пространственных отношений, формы объектов и их взаимного расположения в сцене. Такая база позволит исследователям не только сравнивать эффективность различных алгоритмов, но и целенаправленно улучшать модели, обучая их более глубокому и точному трёхмерному восприятию окружающего мира, что откроет возможности для создания принципиально новых приложений в областях робототехники, дополненной реальности и компьютерного зрения.

Анализ показывает, что высокая согласованность между видами не гарантирует точного 3D-восприятия, о чем свидетельствует разрыв между показателями DINOv2 и V-JEPA в задачах 3D-пробинга и согласованности между видами, что указывает на необходимость более надежных метрик для оценки 3D-восприятия в моделях видеодиффузии.
Анализ показывает, что высокая согласованность между видами не гарантирует точного 3D-восприятия, о чем свидетельствует разрыв между показателями DINOv2 и V-JEPA в задачах 3D-пробинга и согласованности между видами, что указывает на необходимость более надежных метрик для оценки 3D-восприятия в моделях видеодиффузии.

3D-Зонд для Видеомоделей: Как Выявить Скрытое Понимание Пространства

Для устранения пробелов в оценке возможностей видеомоделей, нами разработан 3D Awareness Probe — облегченная нейронная сеть, предназначенная для анализа внутреннего представления трехмерного пространства моделью. Данная сеть не требует дополнительного обучения и работает непосредственно с извлекаемыми признаками видеомодели. Архитектура Probe разработана таким образом, чтобы минимизировать вычислительные затраты, обеспечивая при этом эффективную оценку качества трехмерного понимания, предоставляемого моделью. Её основная функция — выявление и количественная оценка способности модели к представлению и обработке трехмерной информации, скрытой в анализируемых видеоданных.

Для оценки трехмерного понимания видеомоделей, предложенный зонд (probe) напрямую предсказывает ключевые трехмерные атрибуты на основе извлекаемых признаков. К этим атрибутам относятся трехмерные точки (3D points), представляющие собой координаты объектов в пространстве; позы камеры (camera poses), определяющие положение и ориентацию камеры в сцене; и карты глубины (depth maps), кодирующие расстояние от камеры до каждого пикселя изображения. Предсказание этих атрибутов позволяет количественно оценить, насколько хорошо модель представляет и понимает трехмерную структуру видеоданных, не требуя дополнительных данных или обучения.

Количественная оценка 3D-понимания моделей видео проводится посредством анализа производительности 3D Awareness Probe на специализированных датасетах, таких как CO3Dv2 и DL3DV. Эти наборы данных содержат видеоматериалы и соответствующие аннотации 3D-атрибутов, необходимых для обучения и оценки пробы. Метрики, такие как точность предсказания 3D-координат, камерных поз и карт глубины, используются для численной оценки способности модели представлять и понимать трехмерную сцену. Более высокие показатели производительности пробы на этих датасетах указывают на более развитое 3D-понимание в исследуемой модели видео.

Предлагаемый 3D Awareness Probe предоставляет количественный сигнал, позволяющий оценить и улучшить возможности 3D-рассуждений в видео-фундаментальных моделях. Анализ производительности пробы на специализированных наборах данных, таких как CO3Dv2 и DL3DV, позволяет выявить слабые места в представлении трехмерной информации внутри модели. Это, в свою очередь, дает возможность целенаправленно корректировать архитектуру и процесс обучения модели для повышения точности прогнозирования трехмерных атрибутов, включая 3D-точки, позы камеры и карты глубины, что критически важно для задач, требующих надежного понимания трехмерного пространства.

Модели Fast3R, WAN2.1-14B и Open-Sora2.0 демонстрируют наилучшее сохранение мелких деталей (например, захвата грузовика) и наиболее точную реконструкцию общей структуры сцены на основе входных кадров.
Модели Fast3R, WAN2.1-14B и Open-Sora2.0 демонстрируют наилучшее сохранение мелких деталей (например, захвата грузовика) и наиболее точную реконструкцию общей структуры сцены на основе входных кадров.

Извлечение Признаков: Основа Трёхмерного Восприятия в Видео

Эффективное восприятие трехмерного пространства в видеоданных напрямую зависит от качества извлечения признаков. Процесс извлечения признаков включает в себя идентификацию и кодирование ключевых визуальных элементов, таких как углы, края, текстуры и движение, которые позволяют алгоритмам понимать геометрию и структуру сцены. Надежное извлечение признаков требует устойчивости к изменениям освещения, перспективы и окклюзиям. Качество извлеченных признаков определяет точность последующего трехмерного моделирования, реконструкции и анализа видеоданных, а также производительность алгоритмов, использующих эти данные для задач, таких как отслеживание объектов, сегментация сцен и оценка глубины.

Модели V-JEPA, DINOv2 и Fast3R используют различные подходы к извлечению признаков из видеоданных для последующего анализа трехмерного пространства. V-JEPA (Video Joint-Embedding Predictive Architecture) фокусируется на предсказании будущих кадров, что позволяет модели изучать временные зависимости и строить более надежные представления о движении объектов. DINOv2 (Self-Distillation with no labels v2) использует самообучение для извлечения визуальных признаков, демонстрируя высокую эффективность в задачах распознавания объектов и сегментации, однако может быть менее чувствительна к динамике сцены. Fast3R, в свою очередь, оптимизирована для быстрого извлечения признаков и построения разреженных трехмерных представлений, что делает ее эффективной для задач, требующих обработки видео в реальном времени, но может приводить к потере детализации в сложных сценах. Выбор конкретной модели зависит от специфики задачи и требуемого баланса между скоростью, точностью и детализацией трехмерного представления.

Диффузионные модели, использующие такие методы, как вариационные автоэнкодеры (VAE) и шумоподавление, играют ключевую роль в генерации реалистичного видеоконтента. Однако способность этих моделей адекватно представлять трехмерное пространство напрямую зависит от качества извлеченных признаков из входных данных. Недостаточно детализированные или неточные признаки приводят к артефактам и несоответствиям в сгенерированном видео, особенно при изменении угла обзора или в сложных сценах. Таким образом, эффективность диффузионной модели в создании трехмерно-согласованного видео тесно связана с предварительной обработкой данных и качеством алгоритмов извлечения признаков.

Тонкая настройка (3D Finetuning) является эффективным методом улучшения 3D-представлений, заключающимся в уточнении извлеченных признаков с использованием 3D-специфичных целевых функций. Этот процесс предполагает дальнейшее обучение предварительно обученной модели на наборе данных, содержащем информацию о 3D-сцене или объекте. Целевые функции, используемые при тонкой настройке, обычно включают в себя задачи, связанные с реконструкцией 3D-геометрии, оценкой глубины или предсказанием нормалей поверхности. Применение 3D-специфичных целевых функций позволяет модели адаптировать извлеченные признаки для более точного представления 3D-структуры, что приводит к улучшению производительности в задачах, требующих понимания 3D-пространства.

На более сложной выборке DL3DV, DINOv2 иногда демонстрирует критические сбои, в то время как ведущие генераторы видео сохраняют геометрическую согласованность, а WAN2.1-14B обеспечивает наиболее чёткие и точные облака точек.
На более сложной выборке DL3DV, DINOv2 иногда демонстрирует критические сбои, в то время как ведущие генераторы видео сохраняют геометрическую согласованность, а WAN2.1-14B обеспечивает наиболее чёткие и точные облака точек.

Оценка Видеомоделей: Как Измерить Способность к Трёхмерному Рассуждению

В рамках исследования проводилась оценка современных видео-моделей, таких как WAN2.1-14B, CogVideoX и Open-Sora2.0, с использованием разработанного инструмента — 3D Awareness Probe. Данный инструмент позволил оценить способность моделей к пониманию трехмерного пространства на основе анализа видеоданных. Исследование было направлено на выявление различий в уровне 3D-осознания между различными моделями, что имеет важное значение для развития технологий, требующих понимания геометрии и пространственных отношений в видеопотоке. Результаты оценки демонстрируют, что модели по-разному интерпретируют трехмерную информацию, что подчеркивает необходимость специализированных методов оценки для видео-моделей.

Исследование продемонстрировало существенные различия в способности различных видеомоделей понимать трехмерное пространство. Анализ производительности моделей WAN2.1-14B, CogVideoX и Open-Sora2.0 выявил значительную вариативность в их способности к трехмерному рассуждению, подчеркивая необходимость целенаправленной и специализированной оценки. Полученные данные указывают на то, что простое обучение на больших объемах видеоданных не гарантирует развитие полноценного трехмерного понимания, и для адекватной оценки требуется использование метрик, специально разработанных для измерения трехмерной осведомленности. Такой подход позволяет выявить сильные и слабые стороны каждой модели, что, в свою очередь, способствует разработке более эффективных и надежных систем компьютерного зрения.

Исследования показали, что способность моделей к пониманию трехмерного пространства тесно связана с их умением поддерживать согласованность изображения при различных углах обзора и учитывать временную последовательность кадров. Модели, демонстрирующие высокую точность в предсказании того, как объекты выглядят с разных позиций и как они изменяются во времени, как правило, обладают более развитым представлением о трехмерной структуре окружающего мира. Это указывает на то, что эффективное 3D-рассуждение требует не только распознавания объектов, но и понимания их пространственных взаимосвязей и динамики, что проявляется в способности модели к последовательному и логичному представлению сцены в различных временных и пространственных координатах.

В ходе сравнительного анализа видео-моделей, модель WAN2.1-14B продемонстрировала производительность, сопоставимую с моделями, специально обученными на трехмерных данных. На датасете CO3Dv2, величина ошибки определения точек (Point Error) у WAN2.1-14B составила 0.284, что незначительно отличается от показателя Fast3R — 0.262. При этом, на датасете DL3DV, WAN2.1-14B превзошла Fast3R, показав ошибку определения точек в 1.051 против 1.379 соответственно. Данные результаты свидетельствуют о высокой способности WAN2.1-14B к пониманию трехмерного пространства, несмотря на отсутствие специального обучения на 3D-данных, и подчеркивают ее потенциал для решения задач, требующих пространственного мышления.

В ходе сравнительного анализа моделей для понимания трехмерного пространства, WAN2.1-14B продемонстрировала высокую точность определения глубины. На наборе данных CO3Dv2 ошибка определения глубины у данной модели составила 0.151, что сопоставимо с показателем Fast3R (0.145). Однако, на более сложном наборе данных DL3DV, WAN2.1-14B значительно превзошла Fast3R, показав ошибку определения глубины в 0.323 против 0.514 соответственно. Данные результаты указывают на потенциал WAN2.1-14B в задачах, требующих точного восприятия трехмерной структуры, особенно в сложных визуальных условиях.

Результаты тестирования модели WAN2.1-14B продемонстрировали высокую точность определения трехмерных объектов и сцен. В частности, на наборе данных CO3Dv2 модель достигла показателя AUC@30, равного 0.736, что лишь незначительно уступает результату Fast3R (0.769). При этом, на более сложном наборе данных DL3DV, WAN2.1-14B превзошла Fast3R, показав значение AUC@30 в 0.660 против 0.637. Данные результаты свидетельствуют о способности модели эффективно оценивать вероятностное соответствие предсказанных трехмерных объектов реальным данным, особенно в сложных сценариях, что делает её перспективным решением для задач, требующих надежной пространственной ориентации и понимания видеоконтента.

VidFM VGGT превосходит базовую модель VGGT, обученную на полном объеме 3D-данных, используя менее 10% этих данных, что подтверждается метриками ошибки отображения точек, ошибки глубины и AUC@30 на наборах данных CO3Dv2 и DL3DV.
VidFM VGGT превосходит базовую модель VGGT, обученную на полном объеме 3D-данных, используя менее 10

Исследование показывает, что современные видео-модели, обученные на огромных объемах данных, демонстрируют неожиданно глубокое понимание трехмерного пространства. Это, конечно, не значит, что они вот-вот начнут строить виртуальные города без ошибок, но способность извлекать трехмерную информацию из двумерного видеопотока достойна внимания. Как метко заметила Фэй-Фэй Ли: «Искусственный интеллект должен служить людям, а не наоборот». И в данном случае, это проявляется в способности моделей понимать мир вокруг нас, пусть и опосредованно, через пиксели и алгоритмы. Эта «скрытая» 3D-осведомленность, выявленная с помощью предложенного метода зондирования, может стать ключевым шагом к созданию более реалистичных и интерактивных виртуальных сред, хотя, конечно, всегда найдется способ сломать даже самую элегантную теорию на этапе продакшена.

Что дальше?

Показано, что существующие видеомодели обладают неожиданным пониманием трёхмерного пространства. Что ж, неудивительно. Все эти слои, все эти параметры — рано или поздно начинают вычислять хоть что-то полезное. Но давайте не будем обольщаться. Эта «трехмерность», выявленная с помощью «зондирования», — всего лишь корреляция признаков, а не истинное понимание геометрии. Продакшен быстро найдёт способ сломать даже самую элегантную «трехмерную» модель, подсунув ей видео с неожиданным освещением или неправдоподобной перспективой.

Очевидный следующий шаг — попытка заставить эти модели действительно строить трёхмерные реконструкции, а не просто предсказывать проекции. Но зачем? Забудьте про реконструкции. Гораздо интереснее — найти способ использовать эту «скрытую трёхмерность» для решения практических задач, например, для улучшения качества видео или для создания более реалистичных виртуальных миров. Хотя, конечно, все это уже было… Просто под другим именем и с теми же багами.

В конечном итоге, самое важное — помнить, что каждая «революционная» технология — это просто отложенный техдолг. И чем больше мы пытаемся «научить» машины видеть мир, тем яснее понимаем, насколько сложен этот мир на самом деле. И как быстро все ломается.


Оригинал статьи: https://arxiv.org/pdf/2512.19949.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-26 14:19