Автор: Денис Аветисян
Исследователи представили StereoAdapter-2 — систему, позволяющую значительно повысить точность определения глубины под водой, что критически важно для подводных роботов и исследований.

Новая архитектура StereoAdapter-2 использует селективные модели пространства состояний (ConvSS2D) и крупномасштабный синтетический набор данных UW-StereoDepth-80K для достижения передовых результатов в подводной стереоскопической оценке глубины.
Оценка глубины по стереоизображениям является ключевой задачей для подводной робототехники, однако сильно затрудняется искажениями, вызванными поглощением и рассеянием света в воде. В статье ‘StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation’ предложен новый подход, основанный на замене традиционных рекуррентных блоков на оператор ConvSS2D, использующий селективные модели состояний, что обеспечивает эффективное распространение информации о глубине на больших расстояниях. Разработанный фреймворк, дополненный новым крупномасштабным синтетическим набором данных UW-StereoDepth-80K, демонстрирует передовые результаты на стандартных бенчмарках, улучшая точность оценки глубины на 17% в TartanAir-UW и на 7.2% в SQUID. Позволит ли это создать более надежные и автономные подводные системы для широкого спектра приложений?
Проблема Подводного Стереовидения
Точное определение глубины является фундаментальной задачей для подводных роботов и аппаратов, исследующих водную среду, однако существующие методы сталкиваются с серьезными трудностями, обусловленными спецификой акватических условий. Подводная среда характеризуется низкой видимостью, недостатком текстур на объектах и сложной рефракцией света, что существенно снижает эффективность традиционных алгоритмов стереосопоставления. Неспособность адекватно учитывать эти факторы приводит к ошибкам в оценке расстояний, что может критически повлиять на автономную навигацию, манипуляции с объектами и сбор данных. Разработка надежных методов определения глубины, устойчивых к этим помехам, остается ключевой проблемой в области подводной робототехники и является необходимым условием для успешного выполнения сложных задач в водной среде.
Традиционные алгоритмы стереосопоставления, эффективно работающие в воздушной среде, сталкиваются с серьезными трудностями при применении под водой. Основная проблема заключается в значительно сниженной видимости, вызванной рассеянием и поглощением света в водной среде, что приводит к размытию изображений и уменьшению контрастности. Кроме того, отсутствие ярко выраженной текстуры на многих подводных объектах затрудняет поиск соответствий между изображениями, полученными с двух камер. И, наконец, преломление света при переходе из воды в воздух или между слоями воды с разной соленостью искажает геометрию изображения, нарушая точность вычислений глубины. Все эти факторы в совокупности приводят к значительному снижению надежности и точности оценки расстояния до объектов, что критически важно для функционирования подводных роботов и аппаратов.

StereoAdapter: Эффективная Адаптация для Подводных Сцен
StereoAdapter использует параметрически-эффективный подход к оценке глубины по стереоизображениям в подводных условиях, основанный на методе Low-Rank Adaptation (LoRA). Вместо полной перенастройки всех параметров предварительно обученной модели, LoRA вводит небольшие, обучаемые матрицы низкого ранга, которые дополняют существующие веса. Это значительно сокращает количество обучаемых параметров и, как следствие, вычислительные затраты и требования к объему обучающих данных, сохраняя при этом высокую точность оценки глубины. Использование LoRA позволяет адаптировать модель к специфике подводных сцен без значительного увеличения времени обучения или необходимости в большом количестве размеченных данных.
Подход StereoAdapter позволяет значительно снизить вычислительные затраты и объемы необходимых данных для обучения, сохраняя при этом высокую точность оценки глубины под водой. В отличие от полной перенастройки модели (full fine-tuning), требующей обновления всех параметров, StereoAdapter использует адаптацию с низкой рангом (LoRA), что позволяет обучать лишь небольшое количество дополнительных параметров. Это существенно снижает потребность в вычислительных ресурсах и объеме размеченных данных, необходимых для достижения сравнимой или даже более высокой производительности, особенно в условиях ограниченности данных, характерных для подводных сцен.
В оригинальной архитектуре StereoAdapter для итеративного уточнения карт глубины используются рекуррентные блоки с управляемыми затворами (Gated Recurrent Units, GRU). Применение GRU позволяет системе последовательно обрабатывать и улучшать оценку глубины, учитывая контекст соседних пикселей и предыдущие итерации. Это обеспечивает повышенную устойчивость к шумам, изменениям освещенности и другим факторам, характерным для подводных сцен, а также способствует более точной реконструкции трехмерной геометрии объектов. Итеративный характер обработки позволяет системе последовательно снижать ошибки и повышать общее качество карт глубины.

Усовершенствование Следующего Поколения с Моделями Селективных Пространств Состояний
StereoAdapter-2 представляет собой развитие существующей архитектуры, в которой для уточнения карты рассогласования используется новый оператор ConvSS2D. Этот оператор основан на модели селективных пространств состояний (Selective State Space Models) и предназначен для повышения точности оценки глубины. Внедрение ConvSS2D позволяет эффективно учитывать долгосрочные зависимости в данных, что критически важно для получения более качественных результатов в задачах стереозрения и построении карт глубины.
Оператор ConvSS2D использует четырехнаправленное сканирование с применением модели Selective State Space (SS2D) для эффективного захвата зависимостей на больших расстояниях в данных. Данный подход позволяет модели анализировать информацию, охватывающую значительные области изображения, что критически важно для повышения точности оценки глубины. В процессе сканирования SS2D обрабатывает данные в четырех направлениях, что обеспечивает более полное понимание контекста и улучшает способность модели к точному определению глубины объектов на изображении. Эффективность данного метода обусловлена способностью SS2D моделировать долгосрочные зависимости, что позволяет учитывать взаимосвязи между удаленными пикселями и повышать общую точность определения глубины.
В ходе тестирования StereoAdapter-2 продемонстрировал значительное улучшение результатов на стандартных наборах данных: прирост точности составил 17% на TartanAir-UW и 7.2% на SQUID. Данные показатели подтверждают передовые возможности системы в области zero-shot обучения, то есть способности к эффективной работе на новых данных без предварительной адаптации или обучения на целевом наборе данных. Такие результаты подтверждают эффективность используемых моделей и подходов к обработке стереоданных.

Синтез Данных и Проверка в Реальных Условиях
Для обучения и оценки алгоритмов стерео-оценки глубины под водой был создан масштабный набор данных UW-StereoDepth-80K. Его формирование осуществлялось с использованием передовых инструментов — Atlantis и NVS-Solver, обеспечивающих высокую точность и разнообразие получаемых данных. Этот набор данных содержит большое количество стерео-изображений, полученных в различных подводных условиях, что позволяет разрабатывать более устойчивые и эффективные системы компьютерного зрения для подводных исследований и автономной робототехники. Разнообразие сцен и условий освещения, представленных в UW-StereoDepth-80K, способствует повышению обобщающей способности алгоритмов и их адаптации к реальным условиям эксплуатации в сложных подводных средах.
Разработанная StereoAdapter-2, использующая кодирование признаков на основе Depth Anything 3, демонстрирует выдающиеся возможности в условиях нулевой адаптации и обобщения. В ходе тестирования на наборе данных TartanAir-UW, система достигла абсолютной относительной ошибки REL в 0.0440, что на 16.5% превосходит результаты предыдущих методов. Данный показатель свидетельствует о значительном улучшении точности оценки глубины в сложных подводных условиях и подчеркивает потенциал предложенного подхода для широкого спектра приложений, требующих надежной трехмерной реконструкции окружающей среды.
Практическое развертывание и тестирование предложенной системы осуществлялось с использованием подводного аппарата BlueROV2, что позволило подтвердить её эффективность в сложных условиях реальной среды. В ходе испытаний была достигнута задержка обработки в 1102 мс при использовании платформы Jetson Orin NX, что демонстрирует возможность применения разработанного фреймворка для задач, требующих оперативной обработки данных в режиме реального времени. Успешное функционирование системы в условиях, характерных для подводной среды, подтверждает её надежность и потенциал для широкого спектра применений, включая автономную навигацию, инспекцию подводных сооружений и научные исследования.

Представленная работа демонстрирует стремление к математической чистоте в области оценки глубины стереоизображений под водой. Авторы предлагают StereoAdapter-2, систему, использующую селективные модели пространства состояний (ConvSS2D) и синтетический набор данных UW-StereoDepth-80K, что позволяет достичь передовых результатов. Как заметил Ян Лекун: «Машинное обучение — это математика, а не магия». Этот принцип отчетливо прослеживается в подходе, где акцент делается на строгой математической модели и доказанной корректности алгоритма, а не просто на эмпирической эффективности, что особенно важно для надежных подводных роботизированных приложений. Подобный подход гарантирует предсказуемость и стабильность системы в сложных условиях.
Куда Далее?
Представленная работа, несомненно, демонстрирует прогресс в области оценки глубины по стереопарам подводных изображений. Однако, следует признать, что достижение «идеальной» точности — это, скорее, философская цель, чем инженерная задача. Любой алгоритм, опирающийся на синтетические данные, неминуемо сталкивается с проблемой расхождения между смоделированной и реальной действительностью. Даже самый масштабный синтетический набор данных не может охватить всего многообразия подводного мира.
Перспективным направлением представляется разработка методов, позволяющих алгоритму самостоятельно выявлять и компенсировать ошибки, вызванные несоответствием между синтетической и реальной средой. Необходимы исследования в области адаптации модели непосредственно в процессе эксплуатации, с использованием ограниченного количества размеченных данных, полученных в реальных условиях. Важно помнить, что избыточность в архитектуре алгоритма — это потенциальная возможность для возникновения ошибок.
В конечном итоге, истинный прогресс будет заключаться не в увеличении размера наборов данных или сложности моделей, а в создании принципиально новых подходов к решению проблемы оценки глубины, основанных на математической строгости и минимальном количестве допущений. Любая «черная коробка», даже если она «работает», не является удовлетворительным решением.
Оригинал статьи: https://arxiv.org/pdf/2602.16915.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Предел возможностей: где большие языковые модели теряют разум?
- Временная запутанность: от хаоса к порядку
- Улучшение точности квантовых сенсоров: новый подход к подавлению шумов
- Квантовое программирование: Карта развивающегося мира
- ЭКГ-анализ будущего: От данных к цифровым биомаркерам
- Резонансы в тандеме: Управление светом в микрорезонаторах
- Сердце музыки: открытые модели для создания композиций
- Моделирование спектроскопии электронного пучка: новый подход
- За пределами стандартной точности: новая структура эффективной теории
- Тандем топ-кварков и бозона Хиггса: новые горизонты точности
2026-02-20 13:32