За гранью текста: Как мультимодальные модели «видят» мир

Автор: Денис Аветисян

Новое исследование показывает, что большие мультимодальные языковые модели склонны больше доверять визуальной информации, чем текстовой, и выявляет механизмы, лежащие в основе этого предпочтения.

В ходе анализа конфликтных входных данных, представленных в трёх модальностях - тексте, изображении и аудио - наблюдается склонность большой языковой модели (OLLM) отдавать приоритет семантике, передаваемой визуальным каналом, даже если она противоречит информации, полученной из текстовых и аудиоданных. — В ходе анализа конфликтных входных данных, представленных в трёх модальностях — тексте, изображении и аудио — наблюдается склонность большой языковой модели (OLLM) отдавать приоритет семантике, передаваемой визуальным каналом, даже если она противоречит информации, полученной из текстовых и аудиоданных.

Исследование проводит слой-за-слоем анализ мультимодальных моделей, чтобы понять, как формируется предпочтение к визуальным данным и как это связано с галлюцинациями в задачах кросс-модального анализа.

Несмотря на прогресс в создании омнимадальных больших языковых моделей (OLLM), остается неясным, как происходит интеграция различных модальностей и какие предпочтения формируются в процессе обучения. В данной работе, ‘Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models’, авторы исследуют феномен модальных предпочтений в OLLM, обнаружив неожиданный сдвиг парадигмы — преобладание визуальной информации над текстовой. Проведенный анализ слоёв модели показал, что такое предпочтение не является статичным, а формируется постепенно, что позволяет диагностировать и уменьшать кросс-модальные галлюцинации. Возможно ли, используя эти знания, создать более надежные и интерпретируемые омнимадальные модели, способные эффективно обрабатывать информацию из различных источников?

Иллюзии Многоликости: Когда Модели Видят Не То, Что Есть

Современные омнимадальные большие языковые модели демонстрируют впечатляющую способность обрабатывать и интегрировать информацию из различных источников, таких как текст и изображения. Однако, наряду с растущей мощностью, возникает проблема так называемых «кросс-модальных галлюцинаций» — склонности моделей генерировать несоответствующую действительности или попросту вымышленную информацию. Это проявляется в создании неверных описаний изображений, ложных утверждений, основанных на визуальных данных, или несоответствии между текстовым и визуальным содержанием. Несмотря на кажущуюся правдоподобность, сгенерированные ответы могут быть совершенно оторваны от реальности, что представляет серьезную угрозу для надежности систем, использующих омнимадальные модели в критически важных приложениях, требующих высокой точности и достоверности.

Современные эталонные тесты, такие как POPEBenchmark, AHABenchmark и AVHBenchmark, последовательно демонстрируют уязвимость омнимадальных больших языковых моделей к генерации несоответствующей или вымышленной информации. Эти бенчмарки, разработанные для оценки способности моделей к мультимодальному рассуждению, выявляют случаи, когда модели выдают неверные ответы, не соответствующие представленным визуальным или текстовым данным. Подобные несоответствия, известные как «галлюцинации», подчеркивают критическую необходимость углубленного понимания механизмов, лежащих в основе этих ошибок, и разработки более надежных методов оценки и улучшения омнимадальных моделей. Именно детальный анализ результатов этих тестов позволит выявить слабые места и разработать стратегии для повышения точности и достоверности мультимодального анализа.

Возрастающая подверженность омнимадальных моделей к галлюцинациям вызывает серьезные опасения относительно их надежности в приложениях, требующих точного мультимодального рассуждения. Если модель способна генерировать несоответствующую или вымышленную информацию при обработке данных из различных источников — изображений, текста, звука — это ставит под вопрос ее применимость в критически важных областях, таких как медицинская диагностика, автономное вождение или анализ данных в сфере безопасности. Неточности, возникающие из-за галлюцинаций, могут привести к ошибочным решениям и непредсказуемым последствиям, подчеркивая необходимость разработки более устойчивых и достоверных алгоритмов, способных к корректной интерпретации и интеграции информации из различных модальностей. Повышение надежности омнимадальных моделей является ключевой задачей для обеспечения их безопасного и эффективного использования в реальных приложениях.

Анализ распределения вероятностей предсказаний по модальностям с помощью линейных зондов для каждого слоя модели Qwen2.5-Omni-7B на наборах данных POPE, AVHBench (видео-управляемый аудио и аудио-управляемый видео) и AHa-Bench демонстрирует различия в обработке различных модальностей.

Скрытая Архитектура: Слои и Их Модальные Пристрастия

Анализ показывает, что предпочтения к модальности входных данных не являются однородными по всем слоям OLLM (объединенной языковой модели). Ранние слои (EarlyLayers) демонстрируют минимальную предвзятость и обрабатывают все модальности примерно одинаково. Однако, по мере продвижения к средним и поздним слоям (MidToLateLayers), наблюдается усиление выраженности предпочтений к определенным модальностям, что указывает на специализацию этих слоев в обработке конкретных типов входных данных. Это позволяет предположить, что модель формирует представление о данных, разделяя обработку различных модальностей по глубине сети.

Метод LayerWiseProbing, использующий LinearProbe, позволяет декодировать информацию, специфичную для каждой модальности, на каждом слое большой языковой модели. LinearProbe представляет собой линейный классификатор, обученный предсказывать входную модальность (например, текст или изображение) на основе активаций конкретного слоя. Количественная оценка ModalityPreference производится путем измерения точности этого классификатора; более высокая точность указывает на более сильную способность слоя кодировать информацию о данной модальности. Этот процесс повторяется для каждого слоя модели, обеспечивая детальное представление о том, как различные модальности обрабатываются и представляются на разных уровнях иерархии.

Сингулярное разложение (Singular Value Decomposition, SVD) предоставляет возможность визуализации предпочтений модели к различным модальностям входных данных. Применение SVD к активациям отдельных слоев позволяет представить вклад каждой модальности в конечное представление, определяя, насколько сильно модель полагается на информацию из каждой модальности. Визуализация результатов SVD, как правило, осуществляется в виде диаграммы рассеяния, где каждая ось представляет отдельную модальность, а величина точки отражает вес этой модальности в конкретном слое. Это позволяет количественно оценить, какие модальности наиболее важны для принятия решений моделью на разных этапах обработки информации, и как эти предпочтения меняются от слоя к слою.

Анализ предпочтений в различных моделях OLLM, включая Qwen3-Omni-30B-A3B-Instruct и Ming-Lite-Omni 1.5, показывает, что формирование этих предпочтений происходит в четыре фазы в зависимости от глубины слоев модели.

Истоки Искажений: Когда Модальности Вступают в Конфликт

Исследования показывают, что кросс-модальные галлюцинации часто возникают вследствие интерференции между различными модальностями ввода данных. В процессе генерации информации, когда несколько модальностей (например, зрение, слух, текст) предоставляют входные данные, одна модальность может доминировать и искажать информацию, поступающую из других. Это приводит к генерации некорректных или не соответствующих действительности данных, поскольку модель опирается на преобладающую, но потенциально ошибочную информацию из доминирующей модальности, игнорируя или неправильно интерпретируя данные из других источников. Данный механизм является ключевым фактором, способствующим возникновению галлюцинаций в мультимодальных моделях.

Количественная оценка вероятности вмешательства модальности (InterferingModalityProbability) достигается посредством LayerWiseProbing, метода, позволяющего анализировать активации нейронных сетей на различных слоях. Этот подход позволяет точно определить, какая модальность является источником галлюцинаций, путем выявления слоев, в которых доминируют активации, связанные с ошибочной модальностью. Анализ активаций на каждом слое позволяет установить, на каком этапе обработки информации происходит искажение и какая модальность оказывает определяющее влияние на выходные данные модели. Таким образом, LayerWiseProbing предоставляет инструмент для диагностики и устранения причин возникновения галлюцинаций, вызванных конфликтом между модальностями.

Исследования показывают, что в мультимодальных моделях, таких как Gemini 3.1 Pro, визуальная модальность часто доминирует при разрешении конфликтов между модальностями. В тримодальных сценариях, где информация поступает из визуального, аудио и текстовых источников, показатель выбора визуальной модальности (Modality Selection Rate — MSR) достигает 72%. При этом аудиомодальность систематически игнорируется, что приводит к дисбалансу в обработке информации и увеличению вероятности генерации некорректных результатов. Такое предпочтение визуальной модальности является важным фактором, способствующим возникновению галлюцинаций в мультимодальных системах.

Линейный зонд выявляет галлюцинации, предсказывая вероятность предпочтения мешающего сигнала.

Измерение Дисбаланса: Когда Одна Модальность Правит Балом

Для оценки степени предпочтения определенных модальностей в мультимодальных больших языковых моделях (OLLM) был введен новый показатель — ModalitySelectionRate (MSR). Этот метрик позволяет количественно определить, насколько часто модель отдает предпочтение одной модальности (например, зрению) перед другими (такими как звук или текст) при генерации ответов. Высокий MSR указывает на существенный дисбаланс, когда модель склонна игнорировать или недооценивать информацию, поступающую из определенных модальностей. В ходе исследований было установлено, что в ряде случаев показатель MSR для визуальной модальности достигал 72%, что свидетельствует о преобладании зрительной информации, в то время как другие модальности, такие как аудио, часто оказывались недостаточно представлены. Определение и мониторинг MSR является важным шагом для выявления и устранения предвзятости в мультимодальных моделях, что способствует более сбалансированной и надежной генерации контента.

Исследования показали существенный дисбаланс в использовании различных модальностей в мультимодальных больших языковых моделях. В частности, установлено, что визуальная информация доминирует, достигая показателя ModalitySelectionRate (MSR) до 72%, в то время как аудио информация зачастую оказывается недостаточно представленной. Это означает, что модели склонны чаще опираться на визуальные данные при генерации ответов, что может приводить к неточностям или неполноте информации, особенно в тех случаях, когда аудио данные играют важную роль. Выявленный перекос указывает на необходимость разработки методов для более сбалансированного использования всех доступных модальностей, что потенциально позволит улучшить качество и надежность генерируемых ответов.

Эксперименты по обнаружению галлюцинаций продемонстрировали высокую эффективность разработанного подхода: средний показатель AUROC достиг 94% при тестировании трех больших мультимодальных моделей на наборе данных POPE. Это значительно превосходит результаты, полученные при случайном выборе (50%) и прогнозировании на основе ранних слоев нейронной сети (51%). В частности, модель MiniCPM-o-2.6 показала AUPRC в 0.83 на том же наборе данных. Полученные результаты указывают на то, что корректировка дисбаланса между модальностями посредством целенаправленного обучения или архитектурных изменений может существенно снизить частоту возникновения межмодальных галлюцинаций и повысить общую производительность модели, что подтверждается статистически значимой корреляцией между предпочтением определенной модальности и возникновением галлюцинаций (p-value < 1.08e-60, по результатам теста Манна-Уитни).

Сравнительный анализ MSR (%) для различных OLLM моделей в трех бимодальных конфликтных сценариях (текст+изображение, изображение+аудио, текст+аудио) показал различия в их способности к разрешению конфликтов, при этом Qwen3-Omni-30B-A3B-Instruct демонстрирует определенные особенности в каждом сценарии.

Исследование показывает, что все эти омнимадальные языковые модели, несмотря на всю свою продвинутость, имеют чёткие предпочтения. Визуальная информация, судя по всему, доминирует, формируя основу для интерпретаций и, как следствие, галлюцинаций. Это ожидаемо. Ведь продакшен всегда найдет способ сломать элегантную теорию, и в данном случае, «теория» — это попытка создать универсальный, непредвзятый анализатор данных. Как заметил Эдсгер Дейкстра: «Программирование — это не столько искусство создания программ, сколько искусство организации сложности». И эта сложность, в конечном итоге, проявляется в предвзятости моделей к определенным типам входных данных. Сложно удивляться, когда видишь, как слой за слоем модель отдает предпочтение визуальному каналу, игнорируя другие модальности.

Что дальше?

Статья убедительно демонстрирует, что всемодальные большие языковые модели предпочитают картинки. Не то чтобы это было неожиданно — ещё вчера это был простой bash-скрипт, а сегодня это «AI», и ему срочно нужно что-то показывать. Но самое интересное — это не предпочтение само по себе, а то, как оно проявляется на разных уровнях модели и как связано с галлюцинациями. Иными словами, модель не просто видит картинку, она думает, что видит картинку, даже если это не так. И теперь нужно разбираться с последствиями. Документация, как обычно, умалчивает о том, как это всё работает на практике.

Неизбежно возникнет вопрос: можно ли использовать это предпочтение для «лечения» галлюцинаций? Возможно, можно «переучить» модель, заставив её больше доверять тексту. Но давайте будем честны — это лишь отсрочит неизбежное. Технический долг — это просто эмоциональный долг с коммитами. Рано или поздно модель найдёт способ обмануть и текст, и картинки, и, возможно, даже нас самих.

В конечном итоге, всё сводится к интерпретируемости. Мы строим всё более сложные системы, но понимаем их всё меньше. И вот уже начинают шептать о «три-модальных конфликтах» — будто модель сама не знает, чему верить. Похоже, скоро придётся изобретать «отладчик галлюцинаций» — а это, как известно, самый надёжный способ признать, что мы понятия не имеем, что происходит.

Оригинал статьи: https://arxiv.org/pdf/2604.16902.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-21 12:49

🚀 Квантовые новости