RoMa v2: Сопоставление признаков нового поколения

Автор: Денис Аветисян


Новая версия алгоритма RoMa значительно улучшает точность и скорость сопоставления плотных признаков в задачах компьютерного зрения.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
RoMa v2 демонстрирует превосходство над предыдущими алгоритмами плотного сопоставления в широком спектре задач оценки позы и плотного сопоставления, что подтверждается результатами экспериментов, детали которых представлены в разделе 4.
RoMa v2 демонстрирует превосходство над предыдущими алгоритмами плотного сопоставления в широком спектре задач оценки позы и плотного сопоставления, что подтверждается результатами экспериментов, детали которых представлены в разделе 4.

Представлена RoMa v2 — плотный сопоставитель признаков, сочетающий в себе повышенную устойчивость к сложным условиям, быстродействие и точную оценку ковариации.

Несмотря на значительный прогресс в области сопоставления плотных признаков, существующие методы часто демонстрируют низкую производительность в сложных реальных сценариях и ограничены по скорости. В данной работе, представленной под названием ‘RoMa v2: Harder Better Faster Denser Feature Matching’, предлагается новый подход к плотному сопоставлению, сочетающий в себе повышенную устойчивость, точность и скорость работы. Достигнуто это благодаря инновационной архитектуре, функции потерь, а также оптимизированному конвейеру обучения и использованию модели DINOv3. Сможет ли RoMa v2 стать новым стандартом в задачах компьютерного зрения, требующих точного и быстрого сопоставления признаков?


Вызов Точного Сопоставления: Преодоление Неопределенности

Установление точных соответствий между пикселями на различных изображениях, процесс известный как плотное сопоставление (Dense Matching), является основополагающим для широкого спектра задач компьютерного зрения, включая трехмерную реконструкцию, отслеживание объектов и робототехнику. Однако, несмотря на свою кажущуюся простоту, плотное сопоставление удивительно уязвимо к реальным условиям. Даже незначительные изменения в освещении, ракурсе съемки или геометрические искажения могут значительно снизить точность установленных соответствий, что приводит к ошибкам в последующих этапах обработки. Несмотря на значительные достижения в алгоритмах и вычислительных мощностях, надежное плотное сопоставление в сложных условиях остается сложной и актуальной задачей, требующей разработки новых подходов, устойчивых к шумам и искажениям.

Традиционные методы сопоставления плотных изображений сталкиваются со значительными трудностями при работе с реальными условиями. Изменения угла обзора, колебания освещенности и существенные геометрические искажения изображений критически снижают точность и надежность существующих алгоритмов. Это ограничивает их применение в практических задачах, таких как автономная навигация, робототехника и дополненная реальность, где требуется устойчивое и точное определение соответствий между пикселями изображений даже в сложных условиях. Неспособность эффективно справляться с этими факторами приводит к ошибкам в оценке глубины, неверной реконструкции сцены и, как следствие, к снижению общей производительности системы компьютерного зрения.

Алгоритм RoMa v2 демонстрирует высокую точность сопоставления изображений в различных условиях, что подтверждается визуализацией плотных искажений: чем ярче цвет пикселя, тем ниже уверенность модели в корректности соответствия.
Алгоритм RoMa v2 демонстрирует высокую точность сопоставления изображений в различных условиях, что подтверждается визуализацией плотных искажений: чем ярче цвет пикселя, тем ниже уверенность модели в корректности соответствия.

RoMa: Новый Взгляд на Надежное Сопоставление

RoMa использует инновационный подход к плотному сопоставлению, применяя возможности замороженных базовых моделей — в частности, предварительно обученных трансформаторов — для извлечения признаков. Вместо традиционного ручного проектирования признаков, RoMa полагается на представления, полученные этими моделями, которые были обучены на больших объемах данных. Заморозка весов базовой модели позволяет избежать дорогостоящей тонкой настройки и сохраняет обобщающую способность модели, а использование трансформаторов обеспечивает эффективное извлечение контекстно-зависимых признаков, необходимых для точного сопоставления. Данный подход позволяет извлекать признаки напрямую из входных данных без необходимости в дополнительных параметрах или обучении.

Использование предварительно обученных трансформеров в RoMa позволяет добиться повышенной устойчивости к сложным условиям без необходимости трудоемкой дообучающей тонкой настройки. Вместо разработки специализированных признаков, RoMa использует знания, уже заложенные в замороженные модели-основы, что позволяет эффективно извлекать признаки, релевантные для задачи сопоставления. Это особенно важно в условиях изменения освещения, перспективы или наличия шумов, где традиционные методы могут давать сбои. Заморозка весов предобученной модели снижает вычислительные затраты и требования к данным, делая подход более практичным для различных применений.

В отличие от традиционных методов, основанных на ручном проектировании признаков, RoMa использует подход, основанный на извлечении признаков из замороженных предварительно обученных моделей-трансформеров. Такой подход позволяет избежать трудоемкого процесса оптимизации признаков для конкретных задач и условий. Использование предобученных моделей обеспечивает большую обобщающую способность и адаптивность к различным данным и сценариям, поскольку модель уже обладает знаниями, полученными на больших объемах данных, что снижает потребность в специфической настройке и повышает устойчивость к сложным условиям.

На этапе грубого сопоставления используется замороженный извлекатель признаков DINOv3, который подает признаки из обоих изображений в Multi-view Transformer с чередующимся вниманием, что позволяет Dense Prediction Transformer (DPT) вычислять грубые преобразования и достоверность для изображений, уменьшенных в четыре раза.
На этапе грубого сопоставления используется замороженный извлекатель признаков DINOv3, который подает признаки из обоих изображений в Multi-view Transformer с чередующимся вниманием, что позволяет Dense Prediction Transformer (DPT) вычислять грубые преобразования и достоверность для изображений, уменьшенных в четыре раза.

RoMa v2: Улучшение Точности и Надежности

RoMa v2 представляет собой эволюцию оригинальной архитектуры RoMa, включающую в себя ключевые нововведения в виде Multi-view Transformer и Dense Prediction Transformer (DPT). Multi-view Transformer используется для эффективного установления грубых соответствий между изображениями, значительно ускоряя процесс поиска потенциальных точек сопоставления. DPT, в свою очередь, обеспечивает точную оценку геометрического преобразования (warp) и уверенности в правильности установленных соответствий. Комбинация этих двух архитектур позволяет системе RoMa v2 достигать повышенной точности и эффективности в задачах визуальной локализации и 3D-реконструкции по сравнению с предшествующей версией.

Ключевым компонентом RoMa v2 является интеграция предсказательной ковариации, предоставляющей оценку неопределенности для каждого предсказанного соответствия. Данный подход позволяет оценивать надежность предсказаний, что привело к улучшению метрики AUC@1 примерно на 20 процентных пунктов на наборе данных HyperSim. Оценка неопределенности, выраженная в виде ковариационной матрицы, позволяет системе более эффективно различать надежные и ненадежные соответствия, что критически важно для повышения общей точности и устойчивости к выбросам.

В RoMa v2, оценка неопределенности каждой предсказанной корреспонденции позволяет использовать устойчивые оценки, такие как LO-RANSAC. LO-RANSAC (Linear Optimization — Random Sample Consensus) — это алгоритм, эффективно справляющийся с выбросами в данных. В отличие от стандартного RANSAC, LO-RANSAC использует линейную оптимизацию для уточнения параметров модели, что повышает скорость и точность. Интеграция с оценкой неопределенности позволяет LO-RANSAC более эффективно отбрасывать ложные соответствия и строить более надежную модель соответствия, значительно улучшая общую точность и устойчивость системы к аномальным данным.

Система RoMa v2 использует стратегию грубого к точному сопоставлению (Coarse-to-Fine Matching) для повышения точности выравнивания. Изначально, для установления приблизительных соответствий между изображениями применяется многослойный трансформер, обеспечивающий эффективное грубое сопоставление. Затем, полученные предварительные соответствия уточняются с помощью трансформера плотных предсказаний (DPT), который оценивает геометрические преобразования и достоверность каждого соответствия. Такой подход позволяет последовательно уменьшать ошибки и добиваться высокой точности выравнивания даже при наличии шума и выбросов в данных.

Обновленная версия RoMa v2 значительно улучшает предсказание деформаций на участках дорог с недостаточной текстурой по сравнению с оригинальной версией, что демонстрируется более точным определением геометрии даже при больших базовых расстояниях между камерами.
Обновленная версия RoMa v2 значительно улучшает предсказание деформаций на участках дорог с недостаточной текстурой по сравнению с оригинальной версией, что демонстрируется более точным определением геометрии даже при больших базовых расстояниях между камерами.

Проверка на практике и широкая применимость

Модель RoMa v2 продемонстрировала передовые результаты на ряде авторитетных наборов данных, включая MegaDepth-1500, ScanNet-1500, WxBS и AerialMegaDepth. Такой успех подтверждает высокую эффективность разработанного подхода в решении задач компьютерного зрения и трехмерной реконструкции. Особенно примечательно, что модель превзошла существующие аналоги по ключевым метрикам производительности на этих сложных и разнообразных тестовых наборах, что свидетельствует о ее универсальности и способности к адаптации к различным условиям и типам данных. Достижение этих результатов является значительным шагом вперед в области визуальной локализации и картографии, открывая новые возможности для применения в робототехнике, дополненной реальности и автономной навигации.

В ходе тестирования на наборе данных MegaDepth-1500, модель RoMa v2 продемонстрировала беспрецедентную точность в оценке относительного положения камеры, превзойдя все существующие методы сопоставления признаков и построения трехмерных моделей. Этот результат указывает на значительный прогресс в области визуальной локализации и картографирования, позволяя создавать более точные и надежные трехмерные реконструкции окружения. Достигнутая точность особенно важна для приложений, требующих высокой степени достоверности данных, таких как автономная навигация роботов и создание детализированных виртуальных моделей реального мира. Повышенная эффективность оценки относительного положения камеры открывает новые возможности для работы с большими объемами данных и решения сложных задач в области компьютерного зрения.

В ходе тестирования на наборе данных ScanNet-1500, RoMa v2 продемонстрировала сопоставимую точность оценки относительной позы с передовыми алгоритмами VGGT и MASt3R. Это означает, что разработанная система способна с той же эффективностью определять взаимное расположение камеры в пространстве, что и признанные лидеры в данной области. Достижение такого уровня производительности на ScanNet-1500, известном своей сложностью и разнообразием сцен, подтверждает высокую надежность и универсальность RoMa v2 при решении задач трехмерной реконструкции и локализации в реальных условиях.

Разработка RoMa v2 позволила значительно повысить эффективность работы алгоритма по сравнению с предшествующей версией. В ходе тестирования было установлено, что новая модель демонстрирует увеличение скорости обработки данных в 1.7 раза. Это достигнуто благодаря оптимизации ключевых вычислительных процессов и более эффективному использованию ресурсов. Ускорение работы алгоритма не только повышает производительность, но и открывает возможности для применения RoMa v2 в задачах, требующих обработки данных в реальном времени, например, в автономной навигации или интерактивных приложениях с использованием дополненной реальности.

Исследования показали, что разработанная система демонстрирует высокую устойчивость не только в контролируемых лабораторных условиях, но и в сложных реальных сценариях. Особенно примечательно, что алгоритм эффективно справляется с изменениями угла обзора, колебаниями освещенности и переключением между различными типами данных — например, переходом от изображений, полученных с камеры, к данным лидара. Такая адаптивность позволяет использовать систему в широком спектре приложений, включая робототехнику, автономную навигацию и создание трехмерных карт окружающей среды, даже при наличии значительных визуальных помех и неидеальных условий съемки. Данная устойчивость к изменениям существенно расширяет область практического применения и делает систему надежным инструментом для решения задач компьютерного зрения в реальном мире.

Визуализация деформации RoMa v2 показывает ошибочную уверенность модели в небесных пикселях, вероятно, из-за смещения, унаследованного от набора данных AerialMegaDepth.
Визуализация деформации RoMa v2 показывает ошибочную уверенность модели в небесных пикселях, вероятно, из-за смещения, унаследованного от набора данных AerialMegaDepth.

Представленная работа демонстрирует стремление к элегантности в области сопоставления признаков. RoMa v2, представляя собой усовершенствованную систему плотного сопоставления, не просто увеличивает скорость и точность предсказаний, но и стремится к устойчивости в сложных условиях. Как заметил Ян Лекун: «Машинное обучение — это программирование, в котором вы не программируете правила, а обучаете машину на примерах». Данный подход особенно заметен в новой функции оценки ковариации, позволяющей системе более уверенно справляться с неопределенностью, что, в свою очередь, подчеркивает глубокое понимание принципов машинного зрения и гармоничное сочетание формы и функции в представленном решении.

Куда же дальше?

Представленная работа, несомненно, демонстрирует элегантность в достижении более плотного и надежного сопоставления признаков. Однако, истинная сложность компьютерного зрения не в создании алгоритмов, которые работают хорошо, а в тех, которые изящно справляются с неизбежным хаосом реального мира. Остается открытым вопрос о том, как эффективно интегрировать предложенный подход с другими модальностями восприятия, ведь мир редко предстает перед нами только в виде набора признаков.

Особенно актуальным представляется вопрос о масштабируемости. Улучшение точности и скорости — это, безусловно, прогресс, но истинное испытание — это способность работать с данными, объем которых растет экспоненциально. Поиск компромисса между вычислительной сложностью и точностью — это не просто инженерная задача, это философский вопрос о границах возможного.

Нельзя забывать и о фундаментальной проблеме интерпретируемости. Нейронные сети, как и любое сложное устройство, часто кажутся «черным ящиком». Понимание того, почему алгоритм принимает то или иное решение, а не просто что он решил, — это ключ к созданию действительно надежных и полезных систем. И в этом направлении предстоит еще немало работы.


Оригинал статьи: https://arxiv.org/pdf/2511.15706.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-21 05:48