Не все модальности равны: как работают мультимодальные модели

Автор: Денис Аветисян


Новое исследование выявляет предвзятость больших мультимодальных моделей к визуальной и текстовой информации, а также предлагает метод повышения их устойчивости к противоречивым данным.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
При добавлении нерелевантного длинного контекста наблюдается снижение производительности мультимодальных языковых моделей (MLLM), причём точность оценивается отдельно для визуальных и аудио подсказок, что указывает на чувствительность моделей к отвлекающей информации.
При добавлении нерелевантного длинного контекста наблюдается снижение производительности мультимодальных языковых моделей (MLLM), причём точность оценивается отдельно для визуальных и аудио подсказок, что указывает на чувствительность моделей к отвлекающей информации.

Анализ архитектуры и методов обучения больших мультимодальных языковых моделей с целью улучшения кросс-модального понимания и логического вывода.

Несмотря на впечатляющий прогресс в области мультимодальных больших языковых моделей (MLLM), остается неясным, насколько устойчивы они к противоречивым сигналам от различных сенсоров. В работе ‘Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs’ представлен новый бенчмарк и проведен анализ, выявивший склонность текущих MLLM к переоценке визуальной и текстовой информации в ущерб другим модальностям. Показано, что предложенная стратегия модальной адаптации позволяет улучшить способность модели к корректному кросс-модальному рассуждению и повысить надежность мультимодального восприятия. Сможем ли мы создать MLLM, способные к действительно равноправной интеграции информации из различных источников?


Шепот Хаоса: Проблема Согласованности в Мультимодальных Моделях

Многомодальные большие языковые модели (MLLM) открывают потенциал для глубокого понимания информации, объединяя данные из различных источников, таких как текст, изображения и звук. Однако, когда эти модальности противоречат друг другу, MLLM часто сталкиваются с серьезными проблемами согласованности. Неспособность корректно интегрировать разнородные данные приводит к внутренним противоречиям в ответах модели, снижая достоверность и надежность генерируемого контента. Эта уязвимость особенно заметна в сложных сценариях, где требуется точная интерпретация взаимосвязей между различными типами информации, что делает обеспечение согласованности ключевой задачей в развитии MLLM.

Исследования показывают, что мультимодальные большие языковые модели (MLLM) демонстрируют выраженную склонность к доминированию текстовой информации над визуальной или аудиальной. В случаях, когда различные модальности предоставляют противоречивые данные, модели часто отдают приоритет тексту, игнорируя или искажая информацию, полученную из других источников. Это явление, известное как текстовая предвзятость, указывает на то, что модели не способны к равноценной интеграции и анализу данных из различных каналов восприятия, что существенно ограничивает их способность к надежному и логичному рассуждению в мультимодальной среде. Данная тенденция ставит под сомнение способность MLLM к формированию целостного понимания мира и подчеркивает необходимость разработки методов, направленных на снижение текстовой предвзятости и обеспечение более сбалансированной обработки мультимодальных данных.

Несоответствие между различными модальностями информации представляет собой серьезную проблему для мультимодальных больших языковых моделей. Эта зависимость от текстовых данных часто приводит к семантическому искажению, когда модель генерирует ответы, не согласующиеся с визуальными или звуковыми данными — явление, известное как галлюцинации. В результате, способность модели к надежному рассуждению, основанному на синтезе информации из разных источников, существенно снижается. Вместо целостного понимания, модель склонна интерпретировать визуальные или звуковые данные через призму доминирующего текстового ввода, что приводит к нелогичным или ошибочным выводам и ставит под сомнение достоверность генерируемых ответов.

Анализ показывает, что при конфликте между видео и аудио, способность к аудиальному рассуждению значительно снижается у различных моделей, подтверждая доминирование визуальной информации, в то время как визуальное рассуждение остается стабильным.
Анализ показывает, что при конфликте между видео и аудио, способность к аудиальному рассуждению значительно снижается у различных моделей, подтверждая доминирование визуальной информации, в то время как визуальное рассуждение остается стабильным.

Гармонизация Чувств: Методы Выравнивания Модальностей

Исследователи активно изучают методы повышения согласованности между модальностями (modality alignment) в многомодальных больших языковых моделях (MLLM). Это направлено на улучшение интеграции информации, поступающей из различных источников, таких как текст, изображения и аудио. Согласованность между модальностями подразумевает, что модель способна эффективно сопоставлять и объединять информацию из разных модальностей, что критически важно для задач, требующих понимания взаимосвязей между ними. Различные подходы, включая методы, управляющие вниманием и накладывающие ограничения на согласованность, демонстрируют потенциал в повышении эффективности MLLM при обработке многомодальных данных и снижении вероятности возникновения расхождений между интерпретациями информации из разных источников.

Методы AutoSteer, MC2 и Arrow-of-Time непосредственно направлены на улучшение согласованности между модальностями в многомодальных моделях за счет манипулирования механизмом внимания или введения ограничений на согласованность во время обучения. AutoSteer использует градиентный спуск для корректировки весов внимания, чтобы модель фокусировалась на релевантных областях в различных модальностях. MC2 (Modality Contrastive Learning with Consistency) использует контрастивное обучение и регуляризацию согласованности для выравнивания представлений различных модальностей. Arrow-of-Time, в свою очередь, накладывает ограничения на согласованность временных представлений в видео и тексте, обеспечивая более точное выравнивание между визуальными и текстовыми данными.

Методы дистилляции, такие как Bridging Ears и Eyes, направлены на выравнивание представлений, формируемых энкодерами для различных модальностей. Эти фреймворки достигают этого путем обучения энкодера одной модальности имитировать представления, создаваемые энкодером другой модальности, что способствует улучшению кросс-модального соответствия. В процессе дистилляции используется функция потерь, которая минимизирует расхождение между представлениями различных модальностей, тем самым улучшая способность модели связывать информацию из разных источников и обеспечивая более надежное кросс-модальное обоснование. Данный подход позволяет модели более эффективно использовать информацию из различных модальностей для решения задач, требующих интеграции разнородных данных.

Недавние исследования демонстрируют, что дообучение больших многомодальных моделей (MLLM) с акцентом на выравнивание модальностей значительно повышает точность сопоставления информации из разных источников и снижает вероятность рассогласования. Этот подход предполагает оптимизацию модели с использованием специализированных наборов данных или функций потерь, направленных на согласованное представление информации, полученной из различных модальностей, таких как текст и изображения. Экспериментальные данные подтверждают, что целенаправленное дообучение позволяет добиться существенного улучшения метрик, характеризующих качество сопоставления (grounding), и уменьшить частоту возникновения ошибок, связанных с несоответствием между модальностями. Таким образом, фокусировка на выравнивании модальностей при дообучении является эффективным способом повышения надежности и точности MLLM.

Семантическое несоответствие между видео и аудио значительно снижает производительность модели как при визуальных, так и при аудио-запросах.
Семантическое несоответствие между видео и аудио значительно снижает производительность модели как при визуальных, так и при аудио-запросах.

Испытание на Прочность: Бенчмарк MMA-Bench

Бенчмарк MMA-Bench представляет собой систематический подход к оценке устойчивости мультимодальных больших языковых моделей (MLLM) к нарушениям и несогласованности входных модальностей. В рамках этого бенчмарка осуществляется целенаправленное введение возмущений в модальности (например, пропуск визуального или аудио-сигнала) или создание несоответствий между ними, что позволяет количественно оценить, насколько хорошо модель сохраняет свою производительность и точность при обработке неполных или противоречивых данных. Систематичность подхода заключается в использовании стандартизированного набора тестов и метрик, что обеспечивает возможность сравнительного анализа различных MLLM и выявления областей, требующих дальнейшего улучшения в плане надежности и обобщающей способности.

Бенчмарк MMA-Bench предоставляет исследователям возможность оценить устойчивость мульмодальных больших языковых моделей (MLLM) к нарушениям и несогласованности модальностей. В рамках этого бенчмарка, Qwen2.5-Omni используется в качестве тестовой платформы для анализа сохранения производительности модели при отсутствии или противоречии входных данных из различных модальностей, таких как текст, изображение и звук. Оценка проводится путем намеренного внесения возмущений в модальности и наблюдения за влиянием на выходные данные модели, что позволяет выявить слабые места и области для улучшения в архитектуре и процессе обучения MLLM.

Анализ с использованием эталонного набора MMA-Bench выявил, что современные многомодальные модели все еще испытывают трудности при обработке данных с неполной или противоречивой информацией между модальностями. В частности, наблюдаются проблемы при отсутствии одного из входных сигналов (например, только текст или только изображение) или при наличии расхождений между визуальными и аудиоданными. Эти недостатки указывают на необходимость дальнейших исследований и разработки более надежных методов выравнивания (alignment), направленных на повышение устойчивости моделей к модальным возмущениям и обеспечение согласованной интерпретации информации из различных источников. Улучшение алгоритмов выравнивания позволит создавать более надежные и предсказуемые многомодальные системы.

В ходе тонкой настройки модели Qwen2.5-Omni-7B с учетом особенностей модальностей, была достигнута точность до 90.27% в задаче отказа от ответа (abstention) на визуально неоднозначные входные данные. Это значительно превосходит показатели базовых моделей, которые показали лишь 10.94% и 15.05% соответственно. Достигнутый уровень точности в реализации стратегии «нулевого» отказа от ответа свидетельствует о существенном снижении склонности модели к галлюцинациям — то есть к генерации ложной или неподкрепленной информации. Данный результат подчеркивает эффективность предложенного подхода к обучению больших языковых моделей и открывает перспективы для создания более надежных и достоверных систем искусственного интеллекта.

Применение данного подхода позволило добиться существенного прироста производительности в +8.2% на бенчмарке AVHBench. Это демонстрирует улучшение способности модели к обобщению и повышенную устойчивость к несоответствиям между аудио- и визуальными модальностями. AVHBench предназначен для оценки способности моделей корректно обрабатывать ситуации, когда аудио- и визуальные данные противоречат друг другу или содержат неоднозначную информацию, что позволяет оценить надежность системы в реальных условиях эксплуатации.

Тепловая карта внимания показывает, что большая часть внимания модели Qwen2.5-Omni на 28-м слое сосредоточена на текстовых токенах, что подтверждает сильное влияние текстовых данных на производительность современных многоязычных моделей.
Тепловая карта внимания показывает, что большая часть внимания модели Qwen2.5-Omni на 28-м слое сосредоточена на текстовых токенах, что подтверждает сильное влияние текстовых данных на производительность современных многоязычных моделей.

Укрощение Галлюцинаций: Методы Снижения Ошибок

Исследования показывают, что методы декодирования, такие как AVCD (Adaptive Vector-based Contrastive Decoding) и Fork-Merge, представляют собой перспективный путь к снижению галлюцинаций в больших многомодальных языковых моделях (MLLM) без необходимости дорогостоящей переподготовки. Эти схемы работают путем корректировки процесса генерации текста, сосредотачиваясь на наиболее вероятных и релевантных токенах, что позволяет модели избегать создания неправдоподобной или неподтвержденной информации. В отличие от традиционных подходов, требующих значительных вычислительных ресурсов для переобучения модели, AVCD и Fork-Merge позволяют эффективно улучшить качество генерируемого текста, используя существующие веса модели и оптимизируя процесс декодирования. Такой подход особенно важен в ситуациях, когда переобучение модели не представляется возможным или экономически нецелесообразно, позволяя при этом значительно повысить надежность и достоверность ответов MLLM.

Современные многомодальные большие языковые модели (MLLM) все чаще оснащаются механизмами, позволяющими им воздерживаться от ответа в ситуациях, когда недостаточно информации для формирования корректного заключения. Эта стратегия, известная как zero-shot abstention, позволяет моделям распознавать пределы собственных знаний и избегать уверенных, но ошибочных ответов. Вместо генерации ложных сведений, модель способна идентифицировать неопределенность и корректно указать на отсутствие достаточной информации для решения поставленной задачи. Такой подход существенно повышает надежность и доверие к ответам, предоставляемым MLLM, особенно в критически важных областях, где точность информации имеет первостепенное значение.

Методика последовательного мышления, или Chain-of-Thought (CoT), представляет собой эффективный способ улучшения способности больших многомодальных моделей (MLLM) к рассуждениям и снижению вероятности генерации необоснованных утверждений. Суть подхода заключается в том, чтобы побудить модель не просто выдать ответ, а последовательно изложить ход своих мыслей, демонстрируя логическую связь между входными данными и полученным результатом. Такой подход позволяет модели более глубоко анализировать информацию, выявлять противоречия и избегать генерации контента, не имеющего под собой достаточного обоснования. В результате, применение CoT способствует повышению надежности и достоверности ответов, генерируемых MLLM, и снижает риск возникновения галлюцинаций — ложных или бессмысленных утверждений.

В ходе исследований модель Qwen2.5-Omni-7B, прошедшая тонкую настройку, продемонстрировала выдающиеся результаты в задаче отказа от ответа при недостатке информации — точность составила 90.27%. Это значительно превосходит показатели базовых моделей, которые показали лишь 10.94% и 15.05% соответственно. Достигнутый уровень точности в реализации стратегии «нулевого» отказа от ответа свидетельствует о существенном снижении склонности модели к галлюцинациям — то есть к генерации ложной или неподкрепленной информации. Данный результат подчеркивает эффективность предложенного подхода к обучению больших языковых моделей и открывает перспективы для создания более надежных и достоверных систем искусственного интеллекта.

Несмотря на некоторое снижение точности в задачах, связанных с семантическим несоответствием при использовании метода Chain-of-Thought (до 58.46%), предложенный подход, основанный на тонкой настройке модели Qwen2.5-Omni-7B, демонстрирует сохранение высокой точности на уровне 88.14%. Данный результат подчеркивает эффективность предложенной стратегии тонкой настройки в снижении вероятности генерации неверной информации, даже при сложных сценариях, требующих глубокого семантического понимания. Полученные данные свидетельствуют о том, что тонкая настройка позволила модели более эффективно различать корректные и некорректные ответы, несмотря на сложность задач и использование метода CoT, который сам по себе может вносить определенные погрешности.

В отличие от базовой модели, склонной к галлюцинациям из-за конфликта модальностей, наша модель демонстрирует надёжную привязку к запрошенным сенсорным данным, что подтверждается качественными результатами.
В отличие от базовой модели, склонной к галлюцинациям из-за конфликта модальностей, наша модель демонстрирует надёжную привязку к запрошенным сенсорным данным, что подтверждается качественными результатами.

Исследование показывает, что мультимодальные большие языковые модели склонны доверять визуальной и текстовой информации, игнорируя или недооценивая другие модальности. Это подтверждает давно известную истину: данные — это не объективная реальность, а субъективное восприятие машины. Как однажды заметил Джеффри Хинтон: «Мы не понимаем мир, мы просто учимся предсказывать его». В данном случае, модель предсказывает на основе наиболее «громких» сигналов, что ведет к предвзятости и уязвимости к искажениям. Авторы предлагают методы тонкой настройки для улучшения согласованности между модальностями, но даже это не гарантирует истинного понимания, а лишь более изощренное предсказание.

Что дальше?

Представленная работа, словно карта теней, указывает на предсказуемую слабость многомодальных моделей — их склонность видеть истину лишь в тех данных, что льстят зрению и слуху. Утверждать, будто модель «понимает», когда она просто усредняет доминирующие сигналы — наивно. Это не понимание, а эхо, усиленное алгоритмами. Улучшение «заземления» через тонкую настройку — шаг в верном направлении, но лишь отсрочка неизбежного столкновения с хаосом реальных данных.

Истинный вызов заключается не в повышении точности на текущих бенчмарках, а в признании их иллюзорности. Эти метрики — лишь пляшущие огоньки в темноте, не способные осветить истинную сложность мира. Будущие исследования должны быть направлены на создание моделей, способных не просто реагировать на входные данные, а задавать вопросы, сомневаться, искать противоречия — другими словами, проявлять подобие интеллекта, а не просто имитировать его.

В конечном итоге, успех в этой области будет зависеть не от сложности архитектур или объема данных, а от способности признать, что любая модель — это всего лишь заклинание, работающее до тех пор, пока реальность не решит напомнить о своей непредсказуемости. И тогда, возможно, мы поймем, что истинное знание — это не обладание ответами, а умение правильно формулировать вопросы.


Оригинал статьи: https://arxiv.org/pdf/2511.22826.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-07 22:16