PMT: Простота и эффективность сегментации изображений и видео

Автор: Денис Аветисян

Новая архитектура PMT позволяет добиться высокой точности и скорости сегментации, используя замороженные энкодеры Vision Transformer и легкий декодер.

В архитектуре Plain Mask Transformer (PMT) извлекаются признаки на различных уровнях энкодера, а не внедряются токены запросов непосредственно в ViT-энкодер, как в подходах EoMT и VidEoMT, что позволяет эффективно обрабатывать запросы и патчи параллельно посредством сегментационной декодировки, использующей операции поэлементного сложения <span class="katex-eq" data-katex-display="false">\oplus</span> и скалярного произведения <span class="katex-eq" data-katex-display="false">\odot</span>. — В архитектуре Plain Mask Transformer (PMT) извлекаются признаки на различных уровнях энкодера, а не внедряются токены запросов непосредственно в ViT-энкодер, как в подходах EoMT и VidEoMT, что позволяет эффективно обрабатывать запросы и патчи параллельно посредством сегментационной декодировки, использующей операции поэлементного сложения $\oplus$ и скалярного произведения $\odot$ .

Представлен Plain Mask Transformer (PMT) — метод энкодер-сегментации, использующий замороженные энкодеры Vision Transformer для обработки изображений и видео.

Современные подходы к сегментации изображений и видео часто требуют тонкой настройки больших предобученных моделей, что снижает их универсальность и эффективность при развертывании. В данной работе, посвященной разработке ‘PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders’, предлагается новый метод, позволяющий достичь высокой скорости и точности сегментации, используя замороженный энкодер Vision Transformer. Ключевым элементом является Plain Mask Decoder (PMD) — легкий Transformer-декодер, заменяющий сложные специализированные модули. Сможет ли предложенный подход открыть новые возможности для масштабируемого и эффективного анализа визуальных данных в различных приложениях?

Проблема Семантического Понимания Видеопотока

Точное понимание видео на уровне отдельных пикселей является фундаментальным для анализа видеоданных, однако традиционные методы сталкиваются с серьезными трудностями в обеспечении временной согласованности и требуют значительных вычислительных ресурсов. Поскольку видео представляет собой последовательность кадров, поддержание идентичности объектов и четких границ между ними на протяжении времени критически важно, но существующие алгоритмы часто испытывают сложности с отслеживанием изменений в динамичных сценах. Высокие вычислительные затраты, связанные с обработкой каждого кадра и каждого пикселя, ограничивают возможность применения этих методов к видео высокого разрешения или к большим объемам данных, что представляет собой существенный вызов для исследователей и разработчиков в области компьютерного зрения.

Существующие методы сегментации изображений, эффективно работающие со статичными сценами, сталкиваются с серьезными трудностями при анализе видеопотока. Основная проблема заключается в том, что они рассматривают каждый кадр как изолированное изображение, не учитывая временную последовательность. В результате, один и тот же объект может идентифицироваться по-разному в соседних кадрах, а границы объекта могут «дрожать» или произвольно меняться, что приводит к потере целостности и достоверности анализа. Это особенно критично для приложений, требующих точного отслеживания объектов во времени, например, в системах автономного вождения или в анализе поведения в видео наблюдениях. Неспособность поддерживать идентичность объекта на протяжении всей последовательности кадров существенно ограничивает возможности применения традиционных методов сегментации к задачам видеоанализа.

Создание Богатых Представлений с Помощью Самообучения

Семейство моделей DINO представляет собой эффективный подход к созданию плотных и семантически насыщенных представлений, комбинируя архитектуру Vision Transformer с задачами самообучения. В основе метода лежит обучение без использования размеченных данных, что позволяет модели извлекать внутренние визуальные закономерности и взаимосвязи. Используя Vision Transformer, DINO обрабатывает изображения как последовательность патчей, извлекая признаки и строя их представления. Самообучение достигается за счет решения задачи предсказания, где модель учится сопоставлять различные представления одного и того же изображения, что способствует формированию устойчивых и информативных признаков. Полученные представления могут быть эффективно использованы в различных задачах компьютерного зрения, включая сегментацию и обнаружение объектов, демонстрируя высокую производительность даже при ограниченном количестве размеченных данных.

Обучение на неразмеченных данных позволяет моделям семейства DINO выявлять внутренние визуальные закономерности и взаимосвязи, что значительно улучшает их производительность в задачах, требующих детального анализа изображений, таких как сегментация. В отличие от традиционных методов, требующих больших объемов размеченных данных, самообучение позволяет моделям извлекать полезные признаки непосредственно из структуры самих изображений, что приводит к созданию более устойчивых и обобщающих представлений. Это особенно важно для задач сегментации, где точное определение границ объектов критически зависит от способности модели понимать контекст и взаимосвязь между различными элементами изображения.

VidEoMT: Отслеживание и Сегментация с Распространением Запросов

VidEoMT адаптирует принципы EoMT для обработки видеоданных, используя механизм распространения запросов (query propagation) для обеспечения непрерывности отслеживания и сегментации объектов во времени. Этот подход позволяет переносить информацию, полученную при анализе предыдущих кадров, на последующие, что обеспечивает согласованность результатов и минимизирует смещение (drift) в отслеживании. Процесс заключается в распространении визуальных признаков, извлеченных из предыдущих кадров, для эффективной ассоциации пикселей с соответствующими объектами в текущем кадре, обеспечивая тем самым стабильное и точное отслеживание на протяжении всей видеопоследовательности.

Метод VidEoMT использует ранее изученные визуальные признаки для эффективного сопоставления пикселей с соответствующими объектами в последовательных кадрах видео. Это достигается путем распространения запросов (query propagation), что позволяет поддерживать согласованность идентификации объектов во времени и минимизировать дрейф (потерю отслеживания). Использование ранее полученной информации о визуальных характеристиках объекта повышает точность сопоставления пикселей и обеспечивает более стабильное и надежное отслеживание и сегментацию объектов в видеопотоке.

Результаты тестирования VidEoMT на стандартных наборах данных, включая YouTube-VIS, VIPSeg и VSPW, подтверждают его высокую эффективность. Набор данных VSPW продемонстрировал новый рекордный показатель mIoU — 65.7, а на YouTube-VIS 2019 VidEoMT достиг Video Instance Segmentation (mAP) в 69.2, незначительно превосходя показатели CAVIS и предыдущих версий VidEoMT.

Наборы Данных для Надежной Оценки и Будущего Прогресса

Наборы данных COCO и ADE20K играют ключевую роль в развитии алгоритмов сегментации изображений, предоставляя исследователям стандартизированные эталоны для оценки их базовых возможностей. Эти наборы, содержащие обширные коллекции изображений с тщательно размеченными объектами и сценами, позволяют объективно сравнивать различные подходы к сегментации, выявлять сильные и слабые стороны каждого из них, а также отслеживать прогресс в области. Благодаря разнообразию изображений и сложности задач, представленных в COCO и ADE20K, алгоритмы, успешно работающие с этими наборами данных, демонстрируют высокую степень обобщения и способность к адаптации к различным условиям, что является важным критерием для практического применения в реальных сценариях.

Для всесторонней оценки алгоритмов сегментации видео критически важны специализированные наборы данных, такие как YouTube-VIS, VIPSeg и VSPW. Эти ресурсы позволяют исследователям тестировать системы в условиях, максимально приближенных к реальным, где возникают сложные проблемы, такие как частичная видимость объектов (окклюзия) и размытие, вызванное движением. YouTube-VIS, например, содержит видео с большим количеством объектов, взаимодействующих друг с другом, что требует от алгоритмов точного разделения и отслеживания. VIPSeg и VSPW, в свою очередь, акцентируют внимание на сегментации конкретных классов объектов, например, людей и транспортных средств, в сложных городских условиях. Использование этих наборов данных позволяет не только измерить текущий уровень развития технологий видео-сегментации, но и выявить слабые места и направления для дальнейших улучшений, способствуя созданию более надежных и эффективных систем.

Разработанная модель Plain Mask Transformer (PMT) демонстрирует впечатляющие результаты в задаче панорамной сегментации, достигая показателя качества $PQ = 56.1$ . При этом, PMT сопоставима по эффективности с передовыми методами, использующими замороженные энкодеры, но превосходит их по скорости обработки данных в 8 раз. Такое значительное ускорение позволяет применять PMT в задачах, требующих обработки видео в реальном времени или близком к нему, открывая новые возможности для практического применения в областях, таких как автономное вождение и робототехника.

Наблюдатель отмечает, что предложенный Plain Mask Transformer (PMT) — попытка обуздать сложность сегментации изображений и видео, используя замороженные Vision Transformer энкодеры. Это закономерный шаг, ведь, как известно, каждая «революционная» технология завтра станет техдолгом. PMT заменяет громоздкие, специфичные для задачи модули на легкий декодер, стремясь к скорости и точности. Однако, это лишь перекладывание сложности: теперь она кроется в архитектуре этого самого декодера. Как справедливо заметил Джеффри Хинтон: «Я думаю, что мы можем создавать гораздо более интеллектуальные машины, но я думаю, что это будет зависеть от того, как мы используем данные». Ведь, в конечном счете, даже самый элегантный алгоритм столкнется с суровой реальностью продакшена, где CI — это храм, в котором молимся, чтобы ничего не сломалось.

Куда же мы катимся?

Предложенная архитектура, с её упором на «замороженные» энкодеры и легковесные декодеры, выглядит как очередной способ отложить неизбежное. Каждая «революция» в сегментации изображений и видео — это лишь временная победа над энтропией. В конечном итоге, сложность данных всегда найдёт способ сломать элегантную теорию, а энкодер, каким бы «замороженным» он ни был, потребует переобучения. И, разумеется, сейчас это назовут AI и получат инвестиции.

Настоящая проблема, как обычно, не в архитектуре, а в данных. Нехватка размеченных видеоданных для сегментации остаётся ахиллесовой пятой. Искусственное увеличение данных и самообучение — это, конечно, хорошо, но документация снова соврет о реальной эффективности этих методов. Начинают подозревать, что они просто повторяют модные слова.

Вероятно, следующим шагом станет ещё более агрессивное сжатие моделей, возможно, с использованием квантизации или прунинга. Или же мы увидим возвращение к более простым, «ручным» признакам, которые, как ни странно, иногда работают лучше, чем сложные нейронные сети. В конце концов, сложность не всегда равнозначна эффективности. И, да, технический долг — это просто эмоциональный долг с коммитами.

Оригинал статьи: https://arxiv.org/pdf/2603.25398.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 20:19

🚀 Квантовые новости