Зрение без слов: как обучить нейросети понимать изображения

Автор: Денис Аветисян


Новый подход позволяет мультимодальным моделям лучше воспринимать визуальную информацию и рассуждать о ней, расширяя их возможности.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Масштабирование целевого визуального энкодера оказывает существенное влияние на производительность на ориентированных на зрение эталонных тестах, демонстрируя возможность оптимизации модели для различных вычислительных ресурсов и точности.
Масштабирование целевого визуального энкодера оказывает существенное влияние на производительность на ориентированных на зрение эталонных тестах, демонстрируя возможность оптимизации модели для различных вычислительных ресурсов и точности.

Исследование представляет JARVIS — метод, использующий самообучение для улучшения визуального восприятия больших языковых моделей, вдохновленный архитектурой Joint Embedding Predictive.

Несмотря на впечатляющие успехи в соединении зрения и языка, современные мультимодальные большие языковые модели (MLLM) часто демонстрируют ограниченные возможности в фундаментальных задачах визуального рассуждения. В работе, озаглавленной ‘Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models’, представлен JARVIS — новый подход, усиливающий визуальное восприятие MLLM за счет интеграции самообучающейся задачи, вдохновленной архитектурой Joint Embedding Predictive. Этот метод позволяет моделям лучше понимать и анализировать визуальную информацию, используя замороженные визуальные модели в качестве контекста и обучаясь структурным и семантическим закономерностям изображений без чрезмерной зависимости от языковых описаний. Сможет ли предложенный подход преодолеть ограничения существующих MLLM и открыть новые горизонты в области мультимодального искусственного интеллекта?


Преодолевая Границы: Ограничения Традиционных Мультимодальных Моделей

Современные мультимодальные большие языковые модели (MLLM) зачастую демонстрируют трудности при решении задач, требующих сложного логического мышления и обобщения информации. Вместо глубокого понимания визуальных сцен, эти модели склонны полагаться на поверхностные корреляции между отдельными элементами изображения и соответствующими текстовыми описаниями. Это приводит к тому, что при незначительных изменениях в визуальном контексте или при столкновении с незнакомыми ситуациями, точность работы MLLM существенно снижается. Модели могут успешно идентифицировать объекты на изображении, но испытывают затруднения в понимании их взаимосвязей, причинно-следственных связей и общей семантики сцены, что ограничивает их способность к надежному и гибкому решению задач.

Несмотря на впечатляющую эффективность таких моделей, как CLIP и DINOv2 в кодировании визуальной информации, они сталкиваются с фундаментальным ограничением: отсутствие встроенных механизмов для понимания композиционного строения изображений. Эти модели превосходно извлекают признаки и устанавливают соответствия между изображениями и текстом, однако не способны автоматически анализировать, как отдельные элементы сцены взаимодействуют друг с другом и формируют целостный смысл. Например, модель может распознать «собаку» и «мяч», но не способна понять, что собака «играет» с мячом, если эта информация не была явно закодирована в процессе обучения. Это ограничение препятствует развитию действительно интеллектуальных мультимодальных систем, способных к сложному рассуждению и обобщению визуальных данных.

Существенная проблема в развитии мультимодальных больших языковых моделей (MLLM) заключается в переходе от простого извлечения признаков из изображений к формированию действительно осмысленных представлений. Современные модели часто оперируют поверхностными корреляциями, не улавливая глубинные взаимосвязи между объектами и их атрибутами. Для достижения подлинного “понимания” изображений необходимо создавать такие модели, которые способны к устойчивому обучению представлений, позволяющему им обобщать знания и эффективно рассуждать о визуальных сценах, даже в условиях неполной или зашумленной информации. Это требует разработки новых архитектур и методов обучения, способных моделировать сложные визуальные отношения и строить абстрактные представления, выходящие за рамки простого сопоставления признаков.

Метод JARVIS использует единый контекстный блок для предсказания представлений нескольких целевых блоков посредством маскированной предсказательной функции потерь, согласовывая векторные представления большой языковой модели с выходами целевого энкодера.
Метод JARVIS использует единый контекстный блок для предсказания представлений нескольких целевых блоков посредством маскированной предсказательной функции потерь, согласовывая векторные представления большой языковой модели с выходами целевого энкодера.

Самообучение Визуальных Представлений: Освобождение от Ручной Разметки

Маскирование изображений (MIM) представляет собой эффективный подход в самообучающемся обучении, заключающийся в намеренном удалении части пикселей или фрагментов изображения и последующем обучении модели восстанавливать недостающие данные. Этот процесс вынуждает нейронную сеть изучать значимые признаки и контекст изображения, чтобы успешно реконструировать замаскированные области. Модель обучается предсказывать значения пикселей или признаки, соответствующие удаленным частям, используя информацию из видимых областей изображения. Эффективность MIM обусловлена тем, что процесс обучения не требует ручной разметки данных, что значительно упрощает и удешевляет процесс обучения моделей компьютерного зрения. Различные реализации MIM используют различные стратегии маскирования, включая случайное удаление участков, блочное маскирование и использование видимых патчей для предсказания скрытых.

Архитектура Joint Embedding Predictive Architecture (JEPA) расширяет принципы самообучения путем предсказания латентных представлений совместимых входных сигналов. В отличие от прямого восстановления недостающих пикселей, JEPA фокусируется на прогнозировании сжатых, информативных представлений — векторов признаков, полученных из других частей изображения или связанных модальностей. Этот подход позволяет модели создавать более обогащенные и устойчивые к шуму эмбеддинги, поскольку она учится понимать взаимосвязи между различными аспектами визуальной информации, а не просто воспроизводить исходные данные. В результате, эмбеддинги, полученные с помощью JEPA, оказываются более эффективными для последующих задач, таких как классификация или обнаружение объектов, поскольку они содержат более абстрактное и осмысленное представление входных данных.

I-JEPA (Image Joint Embedding Predictive Architecture) является расширением фреймворка JEPA, ориентированным на задачу предсказания отсутствующих фрагментов изображений. В отличие от JEPA, который предсказывает латентные представления совместимых входных сигналов в общем смысле, I-JEPA непосредственно концентрируется на восстановлении визуальной информации, удаленной из входного изображения. Этот подход позволяет модели формировать более глубокое понимание визуального контекста, поскольку она вынуждена анализировать окружающие пиксели и их взаимосвязи для точного восстановления недостающих частей. В процессе обучения I-JEPA создает более эффективные визуальные представления, способные к обобщению и использованию в различных задачах компьютерного зрения, таких как классификация, обнаружение объектов и семантическая сегментация.

Метод I-JEPA маскирует части изображения, выделяя четыре целевых блока (цветные пунктирные рамки) для предсказания, и использует оставшуюся контекстную область (черная пунктирная рамка) в качестве условия для языковой модели, чтобы предсказать замаскированные фрагменты.
Метод I-JEPA маскирует части изображения, выделяя четыре целевых блока (цветные пунктирные рамки) для предсказания, и использует оставшуюся контекстную область (черная пунктирная рамка) в качестве условия для языковой модели, чтобы предсказать замаскированные фрагменты.

JARVIS: Гармоничное Объединение Самообучения и Мультимодального Рассуждения

JARVIS представляет собой новый подход к улучшению многомодальных больших языковых моделей (MLLM) посредством интеграции самообучающейся целевой функции, основанной на I-JEPA (Image-Joint-Embedding Predictive Architecture) и моделировании маскированных изображений. В рамках данной методики модель обучается предсказывать недостающие части изображения, используя контекст видимых областей. Это достигается за счет совместного использования I-JEPA для прогнозирования представлений скрытых фрагментов и маскирования изображений, что позволяет модели развивать более глубокое понимание визуального контекста и взаимосвязей между объектами. Такой подход позволяет значительно повысить эффективность MLLM в задачах, требующих анализа и интерпретации визуальной информации.

Метод JARVIS использует предсказание отсутствующих фрагментов изображения для улучшения понимания визуального контекста и взаимосвязей между объектами. В процессе обучения модель оперирует с контекстными ($C$) и целевыми ($T$) эмбеддингами, представляющими собой векторные представления неповрежденной и отсутствующей частей изображения соответственно. Анализируя $C$ и предсказывая $T$, модель формирует более глубокое понимание семантической структуры изображения и связей между его элементами, что позволяет ей более эффективно решать задачи мультимодального анализа.

В архитектуре JARVIS используется механизм внимания (Attention Mechanism), позволяющий модели динамически фокусироваться на наиболее релевантных областях изображения при прогнозировании. Этот механизм присваивает различный вес отдельным участкам изображения, определяя их значимость для текущей задачи предсказания. Веса, рассчитываемые механизмом внимания, определяют, какие части изображения оказывают наибольшее влияние на выход модели. В процессе обучения это позволяет JARVIS более эффективно использовать визуальную информацию и улучшать точность прогнозирования, особенно в сложных сценах с множеством объектов и деталей. Фактически, механизм внимания позволяет модели игнорировать несущественные детали и концентрироваться на ключевых элементах, необходимых для принятия решения.

Модель JARVIS превосходит базовый LLaVA благодаря использованию маскированной предсказательной функции потерь для выравнивания выходных данных, что подтверждается результатами на трех стандартных бенчмарках компьютерного зрения.
Модель JARVIS превосходит базовый LLaVA благодаря использованию маскированной предсказательной функции потерь для выравнивания выходных данных, что подтверждается результатами на трех стандартных бенчмарках компьютерного зрения.

Оценка Эффективности и Влияние на Современные Мультимодальные Бенчмарки

Модель JARVIS прошла тщательную оценку на Cambrian Benchmark, продемонстрировав значительное превосходство над существующими мультимодальными моделями. В частности, при взаимодействии с языковой моделью Qwen2-7B удалось добиться прироста производительности до 6.2 баллов. Данный результат указывает на высокую эффективность JARVIS в задачах, требующих совместной обработки визуальной и текстовой информации, и подтверждает её потенциал для улучшения качества мультимодальных систем. Полученные данные свидетельствуют о том, что JARVIS способна более точно интерпретировать и анализировать сложные визуальные сцены, что положительно сказывается на решении широкого спектра задач, включая визуальные вопросы и ответы, описание изображений и понимание контекста.

Исследования показали, что эффективность модели JARVIS не ограничивается конкретной архитектурой языковой модели. В частности, при использовании в качестве основы Vicuna-7B, JARVIS демонстрирует заметное улучшение точности в задачах, ориентированных на визуальную информацию, достигающее +1.6 пункта в среднем. Это указывает на универсальность модели и ее способность эффективно интегрироваться с различными существующими языковыми моделями, расширяя возможности анализа и понимания мультимодальных данных даже при использовании относительно небольших и доступных основ, таких как Vicuna-7B.

В ходе исследований было установлено, что интеграция модели JARVIS с методами визуальной инструкции, такими как LLaVA, значительно повышает её эффективность. Этот подход основан на согласовании визуальных и текстовых представлений, что достигается с помощью прогнозирования следующего токена (Next Token Prediction, NTP). При использовании языковой модели Qwen2-7B и CLIP ViT-L, комбинация с LLaVA привела к улучшению результатов на $2.4$ процентных пункта в бенчмарке MMMVU и на $0.8$ процентных пункта в MathVISTA, демонстрируя способность модели более точно интерпретировать и обрабатывать визуальную информацию в сочетании с текстовыми данными.

Сравнение трех методов обучения многомодальных моделей (MLLM) на базе Qwen2-7B демонстрирует их способность успешно справляться с разнообразными задачами, включая общие вопросы, задачи на знание, оптическое распознавание символов и задачи, ориентированные на визуальную информацию, как показано на примерах из набора данных Cambrian.
Сравнение трех методов обучения многомодальных моделей (MLLM) на базе Qwen2-7B демонстрирует их способность успешно справляться с разнообразными задачами, включая общие вопросы, задачи на знание, оптическое распознавание символов и задачи, ориентированные на визуальную информацию, как показано на примерах из набора данных Cambrian.

К Истинному Визуальному Пониманию: Перспективы и Направления Развития

Интеграция самообучающихся методов с большими мультимодальными моделями (MLLM), демонстрируемая, например, системой JARVIS, представляет собой важный прорыв на пути к достижению подлинного визуального понимания. Традиционно, MLLM полагались на огромные объемы размеченных данных для обучения, что является дорогостоящим и ограничивающим фактором. Самообучение позволяет моделям извлекать значимые представления из неразмеченных данных, таких как изображения и текст, тем самым расширяя их возможности и уменьшая зависимость от ручной разметки. В случае с JARVIS, использование самообучающихся техник позволило значительно улучшить способность модели к визуальному рассуждению, пониманию контекста и генерации осмысленных ответов на вопросы, связанные с визуальной информацией. Это открывает перспективы для создания искусственного интеллекта, способного не просто распознавать объекты на изображениях, но и понимать их взаимосвязи, интерпретировать сцены и делать логические выводы, приближая нас к созданию систем, действительно «видящих» мир.

Перспективные исследования в области мультимодального искусственного интеллекта направлены на разработку более сложных задач самообучения и их интеграцию в масштабные языковые модели. Существующие методы самообучения, хотя и демонстрируют значительный прогресс, часто ограничиваются простыми задачами, не охватывающими всю сложность визуального мира. Разработка новых, более продвинутых целей самообучения, таких как предсказание пространственных отношений между объектами, понимание причинно-следственных связей в видео или реконструкция скрытых частей изображения, позволит моделям извлекать более глубокое и осмысленное представление о визуальной информации. Объединение этих усовершенствованных методов с более крупными и мощными моделями, обладающими большей вычислительной способностью и объемом параметров, потенциально может привести к значительному скачку в развитии истинного визуального понимания искусственным интеллектом, позволяя создавать системы, способные не просто распознавать объекты на изображении, но и интерпретировать их значение и контекст.

Использование таких моделей, как SigLIP2, в качестве визуальных кодировщиков открывает новые возможности для многомодального искусственного интеллекта. SigLIP2, благодаря своей способности к эффективному представлению визуальной информации, позволяет моделям лучше понимать и интерпретировать изображения. Параллельно с этим, совершенствование методов визуальной настройки инструкций, то есть обучения моделей реагировать на конкретные визуальные запросы, является ключевым фактором для достижения более глубокого и точного понимания. Улучшенные техники настройки позволяют моделям не просто распознавать объекты на изображении, но и понимать контекст, взаимосвязи и сложные детали, что в конечном итоге приближает их к истинному визуальному пониманию и способности к разумным действиям на основе визуальной информации.

Реализация маски внимания последовательно отфильтровывает нерелевантные токены, модифицируя механизм внимания и фокусируя его на значимых элементах входной последовательности.
Реализация маски внимания последовательно отфильтровывает нерелевантные токены, модифицируя механизм внимания и фокусируя его на значимых элементах входной последовательности.

Исследование, представленное в данной работе, демонстрирует стремление к математической чистоте в области мультимодальных больших языковых моделей. Авторы, подобно математикам, ищут фундаментальные принципы, лежащие в основе визуального восприятия. Подход, основанный на самообучении и вдохновленный архитектурой Joint Embedding Predictive, позволяет моделям JARVIS более эффективно понимать и рассуждать о визуальной информации. Это соответствует убеждению, что истинная элегантность алгоритма заключается в его доказуемости, а не просто в способности проходить тесты. Как однажды заметил Янн Лекун: «Машинное обучение — это математика, замаскированная под программированием». Данное исследование подтверждает эту мысль, демонстрируя, что глубокое понимание математических основ необходимо для создания действительно интеллектуальных систем.

Что Дальше?

Представленная работа, несомненно, демонстрирует прогресс в направлении улучшения визуального восприятия больших мультимодальных языковых моделей. Однако, истинная элегантность алгоритма не проявляется в достижении новых рекордов на бенчмарках, а в его внутренней непротиворечивости. Вопрос не в том, насколько хорошо модель «видит», а в том, насколько последовательно она интерпретирует увиденное. Остается нерешенной проблема формальной верификации визуального рассуждения — доказательства, а не просто демонстрации работоспособности.

Акцент на самообучении, безусловно, оправдан, но следует помнить, что любое обучение — это лишь приближение к истине. Вместо бесконечной гонки за размером и сложностью моделей, необходимо сосредоточиться на разработке более эффективных методов представления знаний и алгоритмов логического вывода. Преобразование визуальной информации в математически доказуемые утверждения — вот задача, достойная внимания.

Перспективы, несомненно, связаны с углублением понимания принципов перцептивной организации и интеграцией этих принципов в архитектуру моделей. Необходимо отходить от простого сопоставления признаков и стремиться к созданию систем, способных к абстрактному мышлению и построению причинно-следственных связей. Иначе, все эти усилия останутся лишь имитацией интеллекта, лишенной подлинной глубины.


Оригинал статьи: https://arxiv.org/pdf/2512.15885.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 23:01