3D-реконструкция масштаба: новая скорость и точность

Автор: Денис Аветисян


Исследователи представили метод VGG-T3, позволяющий создавать детализированные 3D-модели из большого количества изображений с беспрецедентной скоростью.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В ходе экспериментов с набором данных 7scenes установлено, что алгоритм VGG-T3 демонстрирует сопоставимое с базовыми решениями, такими как VGG и <span class="katex-eq" data-katex-display="false">O(n^2)</span>, качество реконструкции (измеряемое расстоянием Чамфера), при этом обеспечивая значительное ускорение - до 11.6 раз для входных данных размером 1k - и сохраняя масштабируемость, аналогичную T3R, даже при увеличении количества изображений.
В ходе экспериментов с набором данных 7scenes установлено, что алгоритм VGG-T3 демонстрирует сопоставимое с базовыми решениями, такими как VGG и O(n^2), качество реконструкции (измеряемое расстоянием Чамфера), при этом обеспечивая значительное ускорение — до 11.6 раз для входных данных размером 1k — и сохраняя масштабируемость, аналогичную T3R, даже при увеличении количества изображений.

VGG-T3 использует feed-forward сети и замену квадратичного механизма внимания на MLP, обученную во время тестирования, для эффективной реконструкции и визуальной локализации больших сцен.

Ограничения масштабируемости являются критическим препятствием для офлайн методов 3D реконструкции, где вычислительные затраты растут квадратично относительно количества входных изображений. В данной работе, представленной под названием ‘VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale’, предложен новый подход, позволяющий добиться линейной масштабируемости за счет замены квадратичного механизма внимания на многослойный персептрон, обученный в процессе тестирования. Это позволяет реконструировать сцены из тысячи изображений всего за 54 секунды, значительно опережая существующие решения, и обеспечивает высокую точность реконструкции карт точек. Не откроет ли это путь к созданию интерактивных 3D-моделей больших сцен и новым возможностям визуальной локализации?


Преодолевая границы масштабируемости в 3D-реконструкции

Традиционные методы многовидового 3D-реконструирования всё чаще опираются на архитектуру Transformer, зарекомендовавшую себя как мощный инструмент обработки данных. Однако, по мере увеличения количества входных изображений, вычислительные затраты резко возрастают, создавая серьезные ограничения для практического применения. Эта проблема связана с тем, что Transformer требует обработки всех пар входных представлений, что приводит к квадратичной сложности алгоритма O(n^2), где n — количество входных видов. В результате, реконструкция больших сцен становится вычислительно непосильной задачей, существенно замедляя процесс и ограничивая возможности применения технологии в таких областях, как робототехника и виртуальная/дополненная реальность.

Квадратичная сложность механизма глобального внимания, лежащего в основе современных моделей трехмерной реконструкции, представляет собой серьезное препятствие для работы с большими сценами. По мере увеличения числа входных изображений, вычислительные затраты растут экспоненциально, делая процесс реконструкции непомерно долгим и требующим огромных ресурсов. Эта проблема существенно ограничивает применение технологий 3D-реконструкции в таких областях, как робототехника, где требуется обработка данных в реальном времени, и в сферах дополненной и виртуальной реальности, где создание детализированных и масштабных виртуальных окружений является ключевым требованием. O(n^2) — такая сложность делает невозможным эффективное масштабирование существующих алгоритмов для обработки действительно больших объемов визуальной информации.

VGG-T3 заменяет глобальный блок внимания в VGGT (слева) на линейную по времени альтернативу, основанную на обучении во время тестирования (справа), для сжатия KV-пространства в MLP фиксированного размера, что масштабируется на любое количество изображений.
VGG-T3 заменяет глобальный блок внимания в VGGT (слева) на линейную по времени альтернативу, основанную на обучении во время тестирования (справа), для сжатия KV-пространства в MLP фиксированного размера, что масштабируется на любое количество изображений.

VGG-T3: Линейная альтернатива для масштабируемости

VGG-T3 представляет собой метод 3D-реконструкции, основанный на прямой передаче (feed-forward), разработанный для обеспечения линейной масштабируемости в зависимости от количества входных изображений. В отличие от традиционных подходов, использующих механизмы внимания (attention) с квадратичной сложностью O(N^2), где N — количество входных представлений, VGG-T3 обходит эти ограничения, позволяя обрабатывать значительно большее число входных данных при сохранении приемлемой вычислительной эффективности. Это достигается за счет отказа от квадратичных механизмов внимания в пользу архитектуры, сложность которой линейно зависит от числа входных представлений O(N), что существенно ускоряет процесс реконструкции и делает его применимым к задачам, требующим обработки больших наборов данных.

В VGG-T3 замена механизма глобального внимания (Global Attention) на механизм линейного внимания (Linear Attention) позволяет существенно снизить вычислительную сложность процесса 3D-реконструкции. Традиционное глобальное внимание требует O(N^2) операций, где N — количество входных проекций, в то время как линейное внимание снижает эту сложность до O(N). Это достигается за счет переформулировки процесса вычисления внимания, позволяющей избежать необходимости вычисления внимания между каждой парой проекций. Экспериментальные результаты демонстрируют, что замена не приводит к заметному ухудшению качества реконструкции, обеспечивая сопоставимые или даже лучшие результаты по сравнению с подходами, использующими глобальное внимание, при значительно меньших вычислительных затратах.

Ключевым нововведением в VGG-T3 является применение обучения во время тестирования (Test-Time Training) для сжатия геометрии сцены в компактное представление посредством многослойного персептрона (MLP) фиксированного размера. Этот подход позволяет уменьшить вычислительную нагрузку и ускорить процесс реконструкции, поскольку вместо обработки полной геометрии сцены используется сжатое представление, закодированное в параметрах MLP. Обучение MLP происходит непосредственно во время тестирования, используя информацию из входных видов, что позволяет адаптировать представление геометрии к конкретной сцене и повысить эффективность реконструкции без необходимости предварительного обучения на большом наборе данных.

Сравнение качества визуализации показывает, что предложенный метод VGG-T3 обеспечивает результаты, сопоставимые или превосходящие методы VGGT и TTT3R.
Сравнение качества визуализации показывает, что предложенный метод VGG-T3 обеспечивает результаты, сопоставимые или превосходящие методы VGGT и TTT3R.

Валидация и выигрыш в производительности

Эффективность VGG-T3 оценивалась с использованием метрик, таких как расстояние Чемберса (Chamfer Distance) и абсолютная относительная ошибка (Absolute Relative Error). Результаты показали, что качество реконструкции, измеренное этими метриками, сопоставимо или превосходит показатели, достигнутые существующими методами. Оценка проводилась на стандартных бенчмарках, что подтверждает конкурентоспособность VGG-T3 в задачах реконструкции данных.

Применение слоев ShortConv2D в процессе Test-Time Training (обучение во время тестирования) позволяет усилить самообучение модели VGG-T3. ShortConv2D, за счет своей архитектуры, способствует более эффективному извлечению локальных признаков и повышению устойчивости к шумам и вариациям во входных данных. Это, в свою очередь, приводит к улучшению точности реконструкции и повышению надежности модели при обработке новых, ранее не встречавшихся изображений, без необходимости дополнительной ручной разметки данных или переобучения на больших объемах данных.

В результате тестирования VGG-T3 показала значительное ускорение процесса реконструкции изображений. Обработка пакета из 1000 изображений занимает всего 58 секунд, что в 11.6 раз быстрее, чем у существующих аналогов. При этом, показатели Chamfer Distance, определяющие качество реконструкции, остаются сопоставимыми с результатами, достигнутыми передовыми методами на стандартных бенчмарках. Дополнительно, за счет использования подхода к линеаризации, время обучения модели сокращается, так как требуется обучение только слоев глобального внимания.

Сравнение реконструкций последовательностей Waymo с использованием VGGT демонстрирует улучшенное качество восстановления данных.
Сравнение реконструкций последовательностей Waymo с использованием VGGT демонстрирует улучшенное качество восстановления данных.

Открывая новые возможности для приложений реального времени и дальнейших исследований

Линейная масштабируемость VGG-T3 открывает значительные возможности для приложений, требующих точной визуальной локализации внутри воссозданных трехмерных сцен. Этот фактор особенно важен для развития робототехники и технологий дополненной реальности, где способность устройства быстро и надежно определять свое положение в пространстве является ключевой. Благодаря эффективной архитектуре, VGG-T3 позволяет обрабатывать большие объемы визуальных данных с минимальными задержками, что критично для задач, связанных с навигацией роботов, распознаванием объектов в реальном времени и созданием иммерсивных AR-опытов. По сути, эта масштабируемость становится фундаментом для создания более автономных и интеллектуальных систем, способных взаимодействовать с окружающим миром на качественно новом уровне.

Для существенного повышения скорости обработки данных в рамках разработанной системы, применялась оптимизация с использованием платформы Ulysses. Ulysses позволяет реализовать контекстно-параллельные выводы, что означает одновременную обработку различных аспектов информации, не дожидаясь завершения предыдущих этапов. Такой подход значительно сокращает общее время вычислений, поскольку отдельные части задачи выполняются параллельно, используя ресурсы процессора более эффективно. В результате, система демонстрирует заметное ускорение в выполнении сложных задач, что открывает возможности для приложений, требующих обработки данных в реальном времени, таких как визуальная локализация и работа с динамическими 3D-сценами.

Несмотря на то, что текущие реализации VGG-T3 ориентированы на реконструкцию статических сцен, лежащие в их основе принципы открывают перспективы для работы с динамическими окружениями и в режиме реального времени. Это особенно важно для систем одновременной локализации и построения карты (SLAM), поскольку позволяет автономным системам, таким как роботы и беспилотные летательные аппараты, эффективно ориентироваться и взаимодействовать с изменяющимся миром. Расширение возможностей VGG-T3 для обработки динамических сцен предполагает разработку алгоритмов, способных отслеживать и моделировать движения объектов, а также адаптировать карту окружения в режиме реального времени, что значительно повысит надежность и эффективность автономных систем в сложных условиях.

Визуальная локализация успешно определяет положение камеры (зеленый цвет) и восстанавливает геометрию окружения (красный цвет) в наборах данных Wayspots и 7scenes.
Визуальная локализация успешно определяет положение камеры (зеленый цвет) и восстанавливает геометрию окружения (красный цвет) в наборах данных Wayspots и 7scenes.

В представленной работе VGG-T3 авторы демонстрируют элегантное решение проблемы масштабируемости 3D-реконструкции. Заменяя квадратичный механизм внимания на многослойный персептрон, обученный во время тестирования, они достигают линейной зависимости от количества входных видов. Этот подход, подчёркивающий математическую дисциплину в обработке данных, позволяет эффективно реконструировать большие сцены и проводить прямую визуальную локализацию. Как однажды заметил Эндрю Ын: «Мы должны стремиться к алгоритмам, которые можно доказать, а не просто к тем, которые работают на тестах». Данное исследование прекрасно иллюстрирует эту мысль, представляя собой не просто практическое решение, но и математически обоснованный метод, способный к масштабированию и точности.

Что дальше?

Представленная работа, несомненно, демонстрирует элегантность отказа от квадратичной сложности, присущей механизмам внимания. Однако, замена внимания на многослойный перцептрон (MLP) — это не панацея, а скорее компромисс. Необходимо тщательно исследовать, насколько эта замена влияет на способность модели к обобщению и устойчивость к шумам. Иначе говоря, достигается ли выигрыш в скорости за счет потери точности и надёжности? Доказательство математической корректности такого подхода представляется сложной, но необходимой задачей.

Особое внимание следует уделить масштабируемости самой архитектуры MLP. Увеличение числа слоев и нейронов неизбежно ведет к росту вычислительных затрат. Возможно, истинный прогресс лежит не в увеличении размера модели, а в разработке более эффективных алгоритмов обучения и оптимизации, способных извлекать максимум информации из ограниченного числа параметров. Стремление к «больше — значит лучше» зачастую оказывается иллюзией.

В конечном итоге, ценность любой модели определяется её способностью решать конкретные задачи. Дальнейшие исследования должны быть направлены на интеграцию VGG-T³ с другими системами визуальной локализации и реконструкции, а также на оценку её производительности в реальных условиях эксплуатации. Любая абстракция должна быть подтверждена эмпирическими данными, иначе она останется лишь математической игрой.


Оригинал статьи: https://arxiv.org/pdf/2602.23361.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-28 11:50