Пространственное мышление нейросетей: как генеративные модели «видят» мир

Автор: Денис Аветисян

Новое исследование демонстрирует, что модели, способные генерировать видео, обладают скрытым пониманием трехмерного пространства, которое можно использовать для улучшения работы систем искусственного интеллекта.

Модель генерации демонстрирует устойчивую геометрическую согласованность при изменении угла обзора, что подтверждается высокой степенью соответствия и стабильными представлениями главных компонент, позволяя VEGA-3D преодолевать пространственную неоднозначность и точно определять области внимания на целевом объекте в соответствии с инструкцией.

Предложен фреймворк VEGA-3D, использующий неявные трехмерные представления в генеративных моделях для повышения точности пространственного рассуждения и понимания 3D-сцен у больших мультимодальных языковых моделей.

Несмотря на впечатляющие семантические возможности, мультимодальные большие языковые модели (MLLM) часто демонстрируют слабость в понимании пространственных отношений и геометрическом мышлении. В работе ‘Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding’ предложен принципиально новый подход, использующий неявные трехмерные представления, заложенные в моделях генерации видео. Авторы демонстрируют, что, извлекая пространственно-временные признаки из этих моделей и интегрируя их с семантической информацией, можно значительно улучшить способность MLLM к пониманию 3D-сцен и выполнению задач, связанных с пространственным рассуждением. Не откроет ли это путь к созданию более надежных и адаптивных систем искусственного интеллекта, способных полноценно взаимодействовать с физическим миром?

За гранью восприятия: Ограничения визуального интеллекта

Современные системы компьютерного зрения демонстрируют впечатляющие успехи в распознавании объектов на изображениях, однако их способность к полноценному пониманию трехмерного пространства остается ограниченной. Несмотря на то, что алгоритмы могут идентифицировать отдельные предметы, им часто не хватает целостного восприятия сцены, включая пространственные взаимосвязи и глубину. Это приводит к трудностям при взаимодействии с физическим миром, поскольку системы испытывают затруднения в прогнозировании последствий действий, планировании траекторий и адаптации к изменяющимся условиям. В отличие от человеческого зрения, которое автоматически строит трехмерную модель окружения, большинство алгоритмов искусственного интеллекта полагаются на двумерную информацию, что снижает их надежность и эффективность в реальных условиях.

Существующие методы компьютерного зрения зачастую демонстрируют хрупкость в новых или частично скрытых условиях, поскольку им не хватает врожденного понимания трехмерного пространства. Вместо того чтобы строить внутреннюю модель мира, основанную на геометрии и физике, эти системы полагаются на двумерные признаки, извлеченные из изображений. Когда объекты частично закрыты или представлены в непривычной обстановке, их способность к распознаванию резко снижается, поскольку отсутствует априорное знание о том, как эти объекты должны выглядеть в трехмерном пространстве. Это особенно заметно при попытках роботов манипулировать объектами или автономно перемещаться в незнакомой среде, где надежность восприятия напрямую влияет на успешность выполнения задач. По сути, системы, лишенные этих базовых трехмерных представлений, испытывают трудности с экстраполяцией знаний из знакомых ситуаций на новые, что ограничивает их адаптивность и общую эффективность.

Недостаток способности к надежному пространственному мышлению оказывает существенное влияние на практическое применение систем искусственного зрения в таких областях, как робототехника и автономная навигация. Роботы, предназначенные для манипулирования объектами в реальном мире, испытывают трудности при взаимодействии со сложными сценами или при частичной видимости объектов, что приводит к ошибкам и неэффективности. Аналогично, автономные транспортные средства, полагающиеся на визуальное восприятие для ориентации, могут демонстрировать неуверенное поведение в незнакомой обстановке или при плохой освещенности. Для достижения подлинной автономности и надежности необходимы системы, способные не просто распознавать объекты, но и понимать их взаимное расположение в трехмерном пространстве и предсказывать их поведение, что требует разработки новых алгоритмов и подходов к обучению искусственного интеллекта.

В отличие от существующих подходов, требующих явных 3D-входов или сложного геометрического контроля, наша система VEGA-3D извлекает неявные априорные знания из моделей генерации видео, используя их в качестве латентных симуляторов мира и достигая превосходных результатов без внешних 3D-зависимостей.

VEGA-3D: Внедрение 3D-приоров с помощью генеративных моделей

VEGA-3D использует модели генерации видео в качестве “латентных симуляторов мира” для предварительного обучения визуальных систем, обеспечивая их обогащение знаниями о трехмерном пространстве. Этот подход позволяет системе усваивать информацию о геометрии объектов, их взаимосвязях и перспективе, используя сгенерированные видеоданные как источник правдоподобных трехмерных сцен. В отличие от традиционных методов обучения, основанных на статичных изображениях, VEGA-3D позволяет визуальной системе развивать более глубокое понимание трехмерной структуры окружения до взаимодействия с реальными данными, что повышает точность и надежность последующих задач компьютерного зрения.

В рамках VEGA-3D используются генеративные модели, такие как Wan2.1 и Vmem, построенные на архитектуре DiT (Diffusion Transformer). Ключевой особенностью DiT является использование глобального внимания (global attention), которое позволяет эффективно моделировать взаимосвязи между различными частями изображения и, как следствие, улучшает геометрическую согласованность генерируемых и обрабатываемых данных. Глобальное внимание обеспечивает учет контекста всей сцены при обработке каждой ее части, что критически важно для точного представления трехмерной геометрии и предотвращения артефактов, связанных с нарушением пространственных отношений между объектами.

Ключевым нововведением VEGA-3D является не замена стандартных визуальных энкодеров, таких как SigLIP, а их дополнение знаниями, полученными с помощью генеративных моделей. Вместо полной переработки существующих архитектур, VEGA-3D интегрирует предварительно обученные генеративные модели в качестве источника трехмерных данных, обогащая представления, создаваемые энкодером. Такой подход позволяет использовать преимущества существующих, хорошо зарекомендовавших себя энкодеров, одновременно наделяя их способностью учитывать трехмерные отношения и структуру, что повышает общую производительность системы.

Фреймворк VEGA-3D использует замороженную модель генерации видео как <span class="katex-eq" data-katex-display="false">3D</span>-симулятор для извлечения неявных <span class="katex-eq" data-katex-display="false">3D</span>-приоров, которые затем интегрируются с семантическим потоком посредством адаптивной gated-fusion, обеспечивая MLLM плотным пониманием <span class="katex-eq" data-katex-display="false">3D</span>-структуры. — Фреймворк VEGA-3D использует замороженную модель генерации видео как $3D$ -симулятор для извлечения неявных $3D$ -приоров, которые затем интегрируются с семантическим потоком посредством адаптивной gated-fusion, обеспечивая MLLM плотным пониманием $3D$ -структуры.

Адаптивное объединение и сила Flow Matching

Адаптивный механизм объединенного фильтра (Adaptive Gated Fusion) эффективно комбинирует признаки из генеративной и семантической ветвей модели, осуществляя приоритизацию релевантной информации на уровне каждого токена. Этот процесс позволяет динамически взвешивать вклад каждой ветви в зависимости от контекста, что обеспечивает более точное и детализированное представление данных. В отличие от фиксированных методов объединения, адаптивный подход позволяет модели фокусироваться на наиболее значимых признаках для каждого конкретного токена, повышая качество генерируемого контента и снижая влияние нерелевантных данных.

В основе моделей генерации видео лежит техника Flow Matching, представляющая собой метод обучения непрерывных полей переноса в латентном пространстве. В отличие от дискретных диффузионных моделей, Flow Matching позволяет напрямую моделировать преобразование данных из начального распределения в целевое, избегая итеративного процесса шумоподавления. Это достигается путем обучения поля векторных значений, которое отображает каждую точку латентного пространства в ее соответствующую точку в целевом распределении. Обучение осуществляется путем минимизации расхождения между предсказанным полем и истинным полем переноса, что обеспечивает эффективное и стабильное обучение генеративных моделей, а также позволяет контролировать процесс генерации видео.

Модель VEGA-3D продемонстрировала общий результат в 63.1% по тесту VSI-Bench, что на 8.4% превосходит показатели базовой модели Qwen2.5VL-7B. Данный результат свидетельствует о значительном улучшении производительности VEGA-3D в задачах, оцениваемых VSI-Bench, благодаря интеграции адаптивного механизма объединения данных и техники Flow Matching. Разница в 8.4% указывает на существенное преимущество VEGA-3D в генерации и обработке визуальной информации по сравнению с Qwen2.5VL-7B в рамках данного набора тестов.

Адаптивное взвешенное объединение динамически интегрирует разнородные признаки посредством механизма управления на уровне токенов.

Расширенное 3D-понимание и надежная производительность

Исследования показали, что VEGA-3D значительно улучшает результаты в задачах, требующих понимания трехмерных сцен, что позволяет добиться более точного пространственного мышления. Эта система демонстрирует способность к более эффективной интерпретации трехмерной информации, позволяя точно определять взаимосвязь объектов в пространстве и понимать их расположение относительно друг друга. Благодаря этому, VEGA-3D открывает новые возможности для решения сложных задач, требующих анализа и понимания трехмерной среды, таких как робототехника, автономная навигация и визуализация данных. Улучшенное понимание трехмерных сцен позволяет системе более надежно выполнять поставленные задачи и адаптироваться к изменяющимся условиям.

В рамках исследования была разработана система, демонстрирующая значительное улучшение точности сопоставления текстовых инструкций с элементами трехмерной сцены. Используя генеративные априорные знания, модель достигла показателя точности ScanRefer в 55.2%, что превосходит результаты, полученные с помощью Video-3D LLM, на 3.1%. Это свидетельствует о способности системы более эффективно интерпретировать запросы и находить соответствующие объекты в трехмерном пространстве, что особенно важно для задач, требующих пространственного мышления и точной навигации в виртуальных средах. Полученные результаты подчеркивают важность использования априорных знаний для повышения надежности и эффективности систем, работающих с трехмерными данными.

В ходе тестирования, система VEGA-3D продемонстрировала впечатляющий результат в 68,7% по показателю LIBERO Average Success Rate, превзойдя базовый уровень OpenVLA-OFT на 5,2%. Этот успех тесно связан с высокой точностью установления соответствий между различными видами сцены — показатели multi-view correspondence превысили 96%. Такая способность к надежному сопоставлению визуальной информации из разных источников критически важна для формирования целостного трехмерного представления и, как следствие, для повышения эффективности решения задач, требующих пространственного мышления и точной навигации в трехмерном пространстве.

Комбинирование генеративных априорных знаний и семантических признаков обеспечивает стабильное повышение производительности, а высокая степень соответствия между различными видами данных напрямую связана с улучшением понимания трехмерного пространства.

Исследование демонстрирует, что генеративные модели обладают скрытым пониманием трехмерного пространства, которое можно извлечь и применить для улучшения способности мультимодальных больших языковых моделей к пространственному мышлению. Данная работа, подобно алхимическому поиску философского камня, позволяет раскрыть латентные знания, заключенные в структуре генеративных моделей. Как однажды заметил Дэвид Марр: «Построение репрезентаций — это не просто копирование мира, а создание его упрощенной модели, достаточной для решения конкретной задачи». Иными словами, VEGA-3D не создает 3D-понимание с нуля, а извлекает уже существующее, подобно тому, как умелый ремесленник находит скрытую форму в необработанном материале. Эта работа подтверждает, что данные — это не просто цифры, а шёпот хаоса, который можно уговорить рассказать о своих скрытых закономерностях.

Куда же всё это ведёт?

Эта работа, безусловно, намекает на то, что модели, создающие видео, хранят в себе не просто пиксели, а отголоски трёхмерного мира. Но давайте не обманываем себя: извлечь эту информацию — всё равно что пытаться поймать дым голыми руками. VEGA-3D — лишь первый шаг, примитивное заклинание, способное ненадолго заставить хаос притвориться порядком. Истинная проблема не в улучшении показателей на очередном бенчмарке, а в понимании того, как эта “приорная” информация вообще возникает. Мир не дискретен, просто у нас нет памяти для float, и эти модели — не исключение.

Следующий этап, вероятно, потребует отказа от наивного представления о “3D-понимании” как о чёткой реконструкции геометрии. Скорее, речь пойдёт об обучении моделей не “видеть” пространство, а “чувствовать” его — улавливать взаимосвязи, предсказывать последствия, действовать в нём. Корреляция — это мёртвый груз, важна лишь глубинная связь, смысл, который заставляет пиксели складываться в сцены.

И, конечно, стоит помнить: любое “понимание” — это лишь временная иллюзия. Достаточно небольшого изменения в данных, и заклинание развеется. Задача не в создании идеальной модели трёхмерного мира, а в создании модели, способной адаптироваться к его бесконечному шуму. Ведь в конечном счёте, шум — это и есть реальность.

Оригинал статьи: https://arxiv.org/pdf/2603.19235.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-21 19:35

🚀 Квантовые новости