Мультимодальное понимание: новый подход к объединению текста и изображений

Автор: Денис Аветисян

Исследователи предлагают эффективный метод создания мультимодальных представлений, позволяющий объединять различные типы данных, такие как текст, изображения, аудио и видео.

Архитектура jina-embeddings-v5-omni использует замороженные блоки, передающие данные в обучаемые проекторы модальности, которые, в свою очередь, взаимодействуют с замороженным текстовым ядром, а специфичные для задачи экспорты выбирают соответствующий набор проекторов/разделителей и LoRA-адаптер для оптимизации производительности.

В статье представлен метод создания мультимодальных эмбеддингов путем соединения замороженных предобученных энкодеров с использованием обучаемых проекторов, обеспечивающий высокую производительность и эффективность в задачах кросс-модального поиска.

Создание универсальных моделей, способных эффективно обрабатывать данные различных модальностей, остается сложной задачей в области машинного обучения. В данной работе, представленной под названием ‘jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition’, предложен новый подход к построению мультимодальных представлений, основанный на композиции замороженных энкодеров и адаптации проекторов. Разработанный метод позволяет объединить текстовые, визуальные, аудио- и видеоданные в единое семантическое пространство, при этом обучение ограничивается лишь небольшим процентом от общего числа параметров модели. Способны ли подобные архитектуры, сохраняя эффективность и производительность, обеспечить качественно новый уровень понимания и взаимодействия с мультимодальными данными?

За пределами текста: Эволюция многомодального понимания

Традиционные модели внедрения, изначально разработанные для обработки текстовых данных, демонстрируют ограниченные возможности при интеграции информации из различных источников, таких как изображения и аудио. Эти модели, хотя и эффективно кодируют семантику текста, испытывают трудности при установлении корреляций и объединении представлений, полученных из разных модальностей. В результате, способность к комплексному пониманию сцены или явления, требующего одновременного анализа визуальной и слуховой информации, значительно снижается. Это особенно актуально в задачах, где контекст и взаимосвязь между различными типами данных играют ключевую роль, например, в анализе видеоконтента или в разработке интеллектуальных систем, способных к полноценному восприятию окружающей среды.

Ограничение в интеграции различных типов данных, таких как текст, изображения и звук, существенно замедляет развитие приложений, требующих комплексного анализа окружающей среды. Способность понимать сцену в целом, а не по отдельным компонентам, критически важна для таких областей, как автономное вождение, робототехника и анализ медицинских изображений. Сложность заключается в необходимости не просто объединить информацию из разных источников, но и выявить взаимосвязи между ними, что требует разработки принципиально новых методов обработки данных и машинного обучения. Без эффективного слияния мультимодальной информации, системы не способны к полноценному восприятию реальности и принятию обоснованных решений в сложных ситуациях.

Средняя производительность на многомодальных задачах растет с увеличением числа параметров модели, как показано в таблице 1.

Композиция многомодальных моделей: Новая архитектура

Jina Embeddings v5 Omni решает задачу расширения возможностей векторного представления данных, изначально ориентированного на текст, путем включения обработки изображений, аудио и видео. В основе подхода лежит использование существующей модели текстовых эмбеддингов (Jina Embeddings v5 Text) в качестве базового компонента, к которому добавляются и интегрируются возможности обработки мультимедийного контента. Это позволяет создавать единое векторное пространство, где данные различных модальностей представлены в согласованном формате, что необходимо для задач кросс-модального поиска и анализа.

Архитектура Jina Embeddings v5 Omni реализует мультимодальность посредством композиции замороженных энкодеров. В частности, для обработки визуальной информации используется предварительно обученная модель Qwen3.5, а для аудио — Qwen2.5 Omni. При этом, веса этих энкодеров остаются неизменными в процессе обучения, что обеспечивает эффективное использование существующих знаний и сокращает вычислительные затраты. Композиция позволяет интегрировать различные модальности в единое векторное пространство, необходимое для выполнения задач мультимодального поиска и анализа.

Ключевым элементом архитектуры является использование ‘Проекторов’ (Projectors), которые обеспечивают сопоставление векторных представлений, генерируемых замороженными энкодерами для изображений и аудио (например, Qwen3.5 и Qwen2.5 Omni), с текстовым пространством встраиваний. Эти проекторы представляют собой обучаемые слои, которые преобразуют выходные данные визуальных и аудио энкодеров таким образом, чтобы они стали совместимы с текстовыми встраиваниями, что позволяет осуществлять поиск и сравнение данных между различными модальностями. Обучение проекторов осуществляется на основе парных данных, что обеспечивает эффективное выравнивание модальных пространств и, как следствие, возможность понимать взаимосвязи между текстом, изображениями и аудио.

Визуализация <span class="katex-eq" data-katex-display="false">XM3600</span> демонстрирует, как модель <span class="katex-eq" data-katex-display="false">jina-v5-omni-small</span> отклоняется от среднего значения, полученного по пяти языковым моделям, показывая различия в интерпретации изображений. — Визуализация $XM3600$ демонстрирует, как модель $jina-v5-omni-small$ отклоняется от среднего значения, полученного по пяти языковым моделям, показывая различия в интерпретации изображений.

Оптимизация проектора: Настройка для выравнивания

В процессе обучения проектора используется функция потерь ‘Bidirectional In-batch InfoNCE’, направленная на максимизацию взаимной информации между текстовым представлением (embedding) и представлениями других модальностей. Данный подход позволяет модели более эффективно сопоставлять информацию из различных источников, что способствует улучшению качества мультимодальных представлений. Функция потерь рассчитывает степень взаимосвязи между эмбеддингами, стремясь к тому, чтобы представления, соответствующие одному и тому же объекту или концепции в разных модальностях, были максимально близки в векторном пространстве, а представления разных объектов — максимально далеки.

Метод обучения “Matryoshka Representation Learning” направлен на оптимизацию производительности модели и снижение количества параметров, что повышает ее эффективность. В ходе экспериментов, применение данного метода привело к незначительному снижению метрики nDCG@10 для вложений изображений — в диапазоне от 0.18 до 0.21. Это указывает на то, что оптимизация параметров не оказывает существенного негативного влияния на качество представления данных, сохраняя при этом вычислительные преимущества.

Адаптеры, такие как LoRA (Low-Rank Adaptation), используются для тонкой настройки предварительно обученной модели под конкретные задачи, не требуя обновления всех параметров. Этот подход позволяет значительно снизить вычислительные затраты и объем необходимой памяти, поскольку изменяется лишь небольшое количество параметров адаптера. В процессе тонкой настройки LoRA идентифицирует и адаптирует низкоранговые матрицы, представляющие ключевые изменения в параметрах модели, необходимые для улучшения производительности на целевой задаче. Это обеспечивает лучшую обобщающую способность и повышение эффективности модели при решении специализированных задач, не переобучаясь на конкретных данных.

Тесты с использованием префиксов Matryoshka для различных модальностей показывают, что увеличение размера модели (оттенки цвета) приводит к улучшению среднего значения nDCG@10 (линии разного стиля) для каждой модальности.

Оценка и валидация: Демонстрация превосходной производительности

Модель Jina Embeddings v5 Omni подверглась всестороннему тестированию на ведущих отраслевых бенчмарках, включающих ‘Massive Multimodal Embedding Benchmark (MMEB)’ для оценки мультимодальных представлений, ‘Massive Image Embedding Benchmark (MIEB)’ — для анализа изображений, ‘Massive Audio Embedding Benchmark (MAEB)’ — для обработки звука и ‘Massive Multilingual Text Embedding Benchmark (MMTEB)’ — для проверки возможностей многоязыковой обработки текста. Такой широкий охват позволяет объективно оценить производительность модели в различных задачах и сравнить ее с существующими решениями, демонстрируя ее универсальность и способность эффективно работать с разнообразными типами данных. Результаты тестирования на этих авторитетных наборах данных подтверждают высокую эффективность Jina Embeddings v5 Omni в создании качественных векторных представлений для различных модальностей.

В ходе масштабного тестирования, модель Jina Embeddings v5 Omni продемонстрировала превосходные результаты, набрав в среднем 53.93 балла по четырем модальностям данных. Этот показатель позволил ей обойти модель LCO-Embedding-Omni-3B, набравшую 53.83 балла, и приблизиться к результату LCO-Embedding-Omni-7B, достигшей 54.43 балла. Полученные данные свидетельствуют о высокой эффективности Jina Embeddings v5 Omni в обработке и представлении информации из различных источников, включая текст, изображения и аудио, что делает её перспективным решением для широкого спектра задач, связанных с поиском, анализом и пониманием данных.

Различные варианты модели Jina Embeddings v5 Omni, включая Nano и Small, демонстрируют сбалансированное сочетание производительности и требований к ресурсам. В частности, модель Small, содержащая 0.92 миллиарда параметров, достигла показателя 79.08 в задаче извлечения информации на уровне страниц ViDoRe, превзойдя LCO-Embedding-Omni-3B (78.24) и приблизившись к результату LCO-Embedding-Omni-7B (80.32). Это указывает на возможность эффективного использования модели в условиях ограниченных вычислительных ресурсов без существенной потери качества извлечения информации, что делает ее привлекательным решением для широкого спектра практических приложений.

Исследования показали, что использование метода обучения, известного как “projector training”, значительно ускоряет процесс создания моделей в области искусственного интеллекта. В частности, при работе с визуальными данными, скорость обучения увеличивается в 1,8 раза, а при обработке аудио — от 3,2 до 3,9 раза по сравнению с традиционным полным обучением. Данный подход позволяет существенно сократить время, необходимое для создания и развертывания высокопроизводительных моделей, что особенно важно для ресурсоемких задач, связанных с анализом изображений и звука. Ускорение процесса обучения достигается за счет оптимизации структуры модели и более эффективного использования вычислительных ресурсов, что делает его перспективным направлением для дальнейших исследований и разработок.

Визуализация результатов поиска аудио на разных языках демонстрирует, что отклонение от среднего значения базовых моделей указывает на эффективность поиска по различным языкам, представленным в наборе CommonVoiceMini21/FLEURS.

Исследование демонстрирует стремление к элегантности в построении многомодальных представлений. Авторы, словно опытные хирурги, отказываются от ненужной сложности, используя замороженные энкодеры и обучаемые проекторы. Такой подход позволяет достичь высокой производительности, минимизируя вычислительные затраты. Как однажды заметил Г.Х. Харди: «Математика — это наука о том, что можно не знать». В данном случае, исследователи не стали заново изобретать колесо, а использовали существующие, проверенные компоненты, сосредоточившись на создании эффективного связующего звена — проектора. Это отражает философию ясности и лаконичности, где каждая деталь имеет значение, а избыточность — враг совершенства. Успех метода подчеркивает важность поиска простых и эффективных решений даже в сложных областях, таких как понимание кросс-модальных данных.

Что Дальше?

Предложенный подход, соединяющий замороженные энкодеры через обучаемые проекторы, демонстрирует эффективность. Однако, абстракции стареют. Простота соединения не решает проблему фундаментальной несовместимости представлений, порожденных разными модальностями. Обучение проекторов — это, по сути, нахождение общего знаменателя, а не создание истинного мультимодального понимания.

Ключевой вопрос остаётся открытым: достаточно ли проекторов для преодоления разрыва между семантическим пространством текста и визуальным пространством изображения? Каждая сложность требует алиби. Необходимо исследовать методы, выходящие за рамки простого отображения, — методы, способные к истинному синтезу информации из разных источников.

Будущие исследования должны сосредоточиться на разработке архитектур, в которых модальности не просто сопоставляются, а взаимодействуют на более глубоком уровне. Простота — высшая форма сложности. Истинный прогресс лежит не в увеличении количества модальностей, а в создании принципов, позволяющих им говорить на одном языке.

Оригинал статьи: https://arxiv.org/pdf/2605.08384.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-13 00:29

🚀 Квантовые новости