Видят ли модели «зрение-язык» будущее без Vision Transformers?

Автор: Денис Аветисян

Новое исследование показывает, что модели, основанные на State Space Models (SSM), могут стать эффективной альтернативой традиционным Vision Transformers в архитектуре моделей «зрение-язык».

В ходе исследования архитектуры визуальных языковых моделей (VLM) установлено, что замена визуальных энкодеров различных семейств - классификационных, детектирующих или сегментирующих - в рамках фиксированного процесса обучения позволяет оценить их влияние на стабильность модели, при этом конфигурации, демонстрирующие коллапс, могут быть стабилизированы путем применения соответствующих методов, что подтверждается представлением результатов на графике, где цвет маркера обозначает семейство энкодера, форма - цель предварительного обучения, а размер - масштаб энкодера. — В ходе исследования архитектуры визуальных языковых моделей (VLM) установлено, что замена визуальных энкодеров различных семейств — классификационных, детектирующих или сегментирующих — в рамках фиксированного процесса обучения позволяет оценить их влияние на стабильность модели, при этом конфигурации, демонстрирующие коллапс, могут быть стабилизированы путем применения соответствующих методов, что подтверждается представлением результатов на графике, где цвет маркера обозначает семейство энкодера, форма — цель предварительного обучения, а размер — масштаб энкодера.

Оценка State Space Models, в частности VMamba, в качестве визуальных энкодеров для улучшения локализации и сохранения конкурентоспособности в задачах VQA.

Несмотря на доминирование трансформеров в архитектуре современных мультимодальных моделей, вопрос об оптимальном выборе визуального энкодера остается открытым. В работе, озаглавленной ‘Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders’, авторы исследуют возможность использования моделей на основе состоянийного пространства (SSM), в частности VMamba, в качестве альтернативы традиционным трансформерным энкодерам в задачах обработки изображений и языка. Полученные результаты демонстрируют, что SSM способны достигать сопоставимой точности в задачах визуального вопросно-ответного анализа (VQA), при этом существенно превосходя трансформеры в задачах локализации и сегментации. Могут ли SSM стать ключевым элементом в создании более эффективных и масштабируемых моделей обработки изображений и языка будущего?

Визуально-языковые модели: Новая эра искусственного интеллекта

Современные достижения в области искусственного интеллекта стимулируют потребность в моделях, способных бесшовно объединять визуальную и текстовую информацию. Это обусловлено растущей сложностью задач, требующих не просто распознавания объектов на изображениях, но и понимания их взаимосвязей, контекста и последующего описания или анализа. Разработка таких моделей позволяет решать широкий спектр проблем, от автоматической генерации подписей к изображениям и ответов на вопросы, связанные с визуальным контентом, до более сложных задач, таких как визуальное рассуждение и планирование действий на основе зрительных данных. В результате, наблюдается значительный прогресс в создании систем, способных эффективно обрабатывать и интегрировать различные модальности информации, открывая новые возможности для взаимодействия человека и машины.

Традиционные методы анализа изображений часто оказываются неспособными к сложным умозаключениям, основанным на визуальном контенте. Это особенно заметно в задачах, требующих понимания пространственных отношений между объектами, например, определение, находится ли один предмет перед другим или выше него. Алгоритмы, основанные на ручном выделении признаков или простых шаблонах, испытывают трудности при интерпретации сложных сцен и обобщении знаний на новые, незнакомые изображения. В результате, точность распознавания и понимания изображений ограничена, что препятствует развитию таких приложений, как автономная навигация, робототехника и интеллектуальный анализ данных. Неспособность к комплексному пространственному рассуждению становится критическим узким местом в системах компьютерного зрения.

Архитектурные основы: Кодирование визуального мира

В основе любой успешной модели, объединяющей зрение и язык, лежит способность точно кодировать визуальные признаки посредством использования Vision Encoder. Этот компонент отвечает за преобразование входного изображения в векторное представление, которое затем может быть обработано моделью для выполнения различных задач, таких как генерация описаний изображений или ответы на вопросы, связанные с визуальным контентом. Качество кодирования визуальных признаков напрямую влияет на производительность всей модели, определяя, насколько эффективно она сможет понимать и интерпретировать визуальную информацию.

Современные энкодеры для обработки изображений активно используют архитектуры $ViT$ (Vision Transformer) и $MaxViT$ , демонстрирующие высокую эффективность в задачах компьютерного зрения. Наряду с ними, всё большее распространение получают гибридные подходы, такие как $MambaVision$ , объединяющие преимущества трансформеров и моделей на основе state-space models (SSM). Такой подход позволяет сочетать способность трансформеров к моделированию глобальных зависимостей с эффективностью SSM в обработке последовательностей, потенциально улучшая производительность и масштабируемость энкодера.

Визуальные энкодеры, такие как ViT и MaxViT, обычно предварительно обучаются на масштабных наборах данных изображений, например, ImageNet-1K, для формирования базового понимания визуальной информации. Однако, недавние исследования демонстрируют различия в масштабируемости производительности между этими архитектурами. В частности, VMamba и MambaVision показывают улучшенные результаты при увеличении размера модели на меньших масштабах, в отличие от ViT и MaxViT, которым требуется больший масштаб для достижения сопоставимой производительности. Это указывает на потенциальные преимущества архитектур на основе State-Space Models, таких как Mamba, в сценариях с ограниченными вычислительными ресурсами или при необходимости быстрого улучшения производительности.

Сравнение vision encoders, адаптированных с использованием dense-целей (включая ViTDet, предобученный на COCO, и VMamba в качестве SSM-основы, а также DeiT, предобученный на ADE20K), показывает, что dense-предобучение оказывает влияние на результаты VQA, независимо от различий в геометрии входных данных и длине токенов.

Соединяя модальности: Связь зрения и языка

Компонент “Коннектор” играет ключевую роль в обеспечении взаимодействия между визуальными и языковыми моделями. Его функция заключается в преобразовании визуальных токенов, полученных из анализа изображения, в векторное представление, совместимое с пространством вложений (embedding space) большой языковой модели. Это преобразование позволяет языковой модели интерпретировать визуальную информацию как часть входных данных, обеспечивая возможность рассуждений и генерации ответов на основе визуального контента. Фактически, коннектор выступает в роли моста, обеспечивающего согласованное представление данных различных модальностей для последующей обработки объединенной моделью.

Модели, такие как LLaVA, демонстрируют эффективность подхода, основанного на использовании предварительно обученных языковых моделей для выполнения задач рассуждения и генерации текста на основе визуальных данных. LLaVA использует возможности существующих больших языковых моделей, адаптируя их для обработки и интерпретации визуальной информации, представленной в виде токенов. Это позволяет модели не только описывать содержание изображений, но и отвечать на вопросы, требующие логического вывода и понимания контекста, представленного на визуальном входе, без необходимости обучения с нуля.

Дообучение с использованием метода обучения на инструкциях (Instruction Tuning) позволяет значительно улучшить способность модели следовать сложным указаниям и генерировать точные ответы. Этот процесс включает в себя обучение модели на наборе данных, состоящем из пар “инструкция-ответ”, что позволяет ей научиться интерпретировать и выполнять разнообразные запросы. В ходе дообучения параметры модели корректируются для минимизации расхождений между сгенерированными ответами и эталонными ответами, представленными в обучающем наборе данных. В результате, модель приобретает более глубокое понимание естественного языка и повышает свою способность к генерации релевантных и точных ответов на сложные запросы, требующие логических рассуждений и обобщения информации.

Оценка и применение: Бенчмаркинг мультимодальной производительности

Комплексные оценочные платформы, такие как Prismatic, играют ключевую роль в определении возможностей моделей, объединяющих зрение и язык, на широком спектре задач. Эти системы позволяют проводить всесторонний анализ, выходящий за рамки простого измерения точности, и охватывают такие аспекты, как способность к рассуждению, понимание контекста и обобщение знаний. Отсутствие стандартизированных рамок оценки долгое время затрудняло объективное сравнение различных архитектур и методов, но появление Prismatic и подобных инструментов позволяет исследователям более эффективно оценивать прогресс и выявлять слабые места в существующих моделях. Это, в свою очередь, способствует разработке более надежных и универсальных систем искусственного интеллекта, способных решать сложные задачи, требующие совместного понимания визуальной и текстовой информации.

Современные модели, объединяющие зрение и язык, демонстрируют впечатляющие способности в задачах, требующих понимания визуальной информации и рассуждений на её основе, таких как ответы на открытые вопросы по изображениям (Open-Ended VQA) и локализация объектов. Недавние исследования показывают, что архитектуры, использующие state space models (SSM) в качестве визуальных энкодеров — в частности, VMamba — превосходят традиционные методы во всех основных бенчмарках по локализации объектов. Это свидетельствует о значительном прогрессе в способности моделей точно определять и выделять интересующие объекты на изображениях, открывая новые возможности для практического применения в областях компьютерного зрения и робототехники.

Для оценки эффективности мультимодальных моделей, таких как VMamba, широко используются стандартизированные наборы данных, в частности RefCOCO и COCO. Эти наборы данных предоставляют унифицированные метрики для сопоставления результатов различных подходов в задачах, связанных с пониманием и взаимодействием с визуальной информацией. Исследование показало, что архитектура VMamba способна достигать результатов, сопоставимых или превосходящих более крупные модели-аналоги в задачах «grounding» — то есть, установлении соответствия между текстовыми описаниями и областями на изображении — при этом сохраняя конкурентоспособную производительность в задачах открытого визуального вопросно-ответного диалога (VQA). Это свидетельствует об эффективности VMamba как в задачах, требующих точного визуального восприятия, так и в задачах, требующих более сложного семантического понимания.

Исследование демонстрирует, что переход к архитектурам, основанным на моделях состояний, таким как VMamba, позволяет добиться существенного улучшения в задаче локализации объектов в визуальных данных. Это согласуется с убеждением, что истинная элегантность алгоритма заключается в его способности к точному и доказуемому представлению информации. Как однажды заметил Джеффри Хинтон: «Я думаю, что нейронные сети — это просто способ представить сложные функции». Данная работа подтверждает эту мысль, показывая, что альтернативные подходы к кодированию визуальной информации могут обеспечить не только сопоставимую, но и превосходящую производительность в задачах, требующих точного понимания визуального контекста, не уступая при этом в ответах на вопросы.

Куда же это всё ведёт?

Представленные результаты, хотя и демонстрируют преимущество моделей, основанных на пространствах состояний, таких как VMamba, в задачах локализации, всё же не решают фундаментальной проблемы: стремления к универсальности. Оптимизация под конкретную метрику, будь то VQA или точность локализации, — это лишь локальный максимум. Истинная элегантность архитектуры проявится, когда модель сможет одинаково эффективно справляться с разнородными визуальными задачами, не требуя специальной адаптации. Существующая зависимость от инструктивного обучения, хотя и необходимая, является признаком неполноты модели — она требует явного указания, что необходимо делать.

Следующим шагом представляется не просто увеличение размера модели или усложнение архитектуры, а поиск инвариантов, общих для всех визуальных задач. Необходимо исследовать, как свойства пространства состояний могут быть использованы для построения действительно обобщающих представлений, а не просто для аппроксимации функций. Асимптотическая сложность существующих решений всё ещё далека от идеала. Утверждение о конкурентоспособности по VQA, не подкреплённое анализом вычислительных затрат и масштабируемости, представляется преждевременным.

В конечном счёте, задача состоит не в том, чтобы создать очередную «черную коробку», работающую на тестовых данных, а в том, чтобы понять, какие математические принципы лежат в основе визуального восприятия. Только тогда можно будет построить действительно интеллектуальную систему, способную к самостоятельному обучению и адаптации. Иначе всё это — лишь усложнение очевидного.

Оригинал статьи: https://arxiv.org/pdf/2603.19209.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-22 22:45

🚀 Квантовые новости