Искажения восприятия в мультимодальных сетях: физика предвзятости

Автор: Денис Аветисян

Новое исследование показывает, как динамика трансформаторов влияет на предвзятость мультимодальных моделей, приводя к доминированию отдельных модальностей.

Динамика трансформатора исследовалась на физическом стенде, где предсказание хаотического временного ряда Лоренца на многоосцилляторной системе позволило количественно оценить предпочтения модальности посредством разности значений SHAP для само- и кросс-внимания <span class="katex-eq" data-katex-display="false">\phi(Y) - \phi(X)</span>, представленной направлением стрелки в диапазоне [-90°, 90°] - от полного вклада <span class="katex-eq" data-katex-display="false">X</span> до <span class="katex-eq" data-katex-display="false">Y</span> - при этом цвет стрелки отражает нормированную среднеквадратичную ошибку между целевым <span class="katex-eq" data-katex-display="false">z(t)</span> и предсказанным значением, что продемонстрировано на примере низких (<span class="katex-eq" data-katex-display="false">\beta_{self}, \beta_{cross} = (10^{-4}, 10^{-4})</span>) и высоких (<span class="katex-eq" data-katex-display="false">\beta_{self}, \beta_{cross} = (10^{0}, 10^{0})</span>) уровней внимания, фокусируясь на временном интервале <span class="katex-eq" data-katex-display="false">50 \leq t \leq 70</span>. — Динамика трансформатора исследовалась на физическом стенде, где предсказание хаотического временного ряда Лоренца на многоосцилляторной системе позволило количественно оценить предпочтения модальности посредством разности значений SHAP для само- и кросс-внимания $\phi(Y) - \phi(X)$ , представленной направлением стрелки в диапазоне [-90°, 90°] — от полного вклада $X$ до $Y$ — при этом цвет стрелки отражает нормированную среднеквадратичную ошибку между целевым $z(t)$ и предсказанным значением, что продемонстрировано на примере низких ( $\beta_{self}, \beta_{cross} = (10^{-4}, 10^{-4})$ ) и высоких ( $\beta_{self}, \beta_{cross} = (10^{0}, 10^{0})$ ) уровней внимания, фокусируясь на временном интервале $50 \leq t \leq 70$ .

Предлагается физически обоснованная модель, объясняющая предвзятость в мультимодальных больших языковых моделях через искажения динамики самовнимания, демонстрирующая важность сбалансированных уровней внимания.

Несмотря на значительные успехи в области мультимодальных больших языковых моделей, остается неясным, как скрытые искажения, возникающие при взаимодействии различных модальностей, влияют на справедливость и точность этих систем. В данной работе, ‘Physics-based phenomenological characterization of cross-modal bias in multimodal models’, предлагается феноменологический подход, основанный на физическом моделировании динамики трансформаторов, для анализа предвзятости в мультимодальных моделях. Показано, что мультимодальные входы могут усиливать доминирование определенной модальности, формируя устойчивые паттерны ошибок-аттракторов, а сбалансированность внимания является ключевым фактором предотвращения этого явления. Сможем ли мы разработать более справедливые и надежные мультимодальные системы, используя принципы динамических систем и физического моделирования?

Раскрытие Тайны Мультимодального Интеллекта

Мультимодальные большие языковые модели (MLLM) демонстрируют стремительное развитие, однако механизмы их работы остаются в значительной степени непрозрачными. Несмотря на впечатляющую способность обрабатывать и объединять информацию из различных источников — текста, изображений, аудио — принципы, по которым эти модели формируют целостное понимание, до сих пор недостаточно изучены. Это затрудняет не только оптимизацию производительности MLLM, но и выявление потенциальных предубеждений и обеспечение надежности их прогнозов, что является критически важным для широкого внедрения подобных систем в различные сферы деятельности.

Существенная проблема в развитии мульмодальных больших языковых моделей заключается в выяснении механизмов интеграции информации, поступающей из различных источников — текста, изображений, аудио. Исследователи стремятся понять, каким образом эти модели объединяют разрозненные данные, чтобы сформировать целостное представление о мире. Этот процесс не сводится к простой конкатенации входных сигналов; скорее, предполагается наличие сложных внутренних преобразований и механизмов внимания, позволяющих моделям выявлять взаимосвязи и зависимости между различными модальностями. Понимание этих процессов необходимо для создания более надежных и интерпретируемых систем искусственного интеллекта, способных эффективно взаимодействовать с окружающей средой и понимать человеческий язык во всех его проявлениях.

Непрозрачность работы мультимодальных больших языковых моделей (MLLM) серьезно затрудняет выявление и устранение скрытых предубеждений в их суждениях. Отсутствие понимания того, как модели объединяют информацию из различных источников — текста, изображений, звука — приводит к тому, что ошибки и предвзятости остаются незамеченными, что снижает доверие к прогнозам и выводам, сделанным на их основе. Это особенно важно в контексте приложений, где надежность и беспристрастность имеют решающее значение, например, в медицине или юриспруденции. Повышение прозрачности внутренних механизмов MLLM является ключевой задачей для обеспечения их безопасного и эффективного использования, а также для предотвращения распространения искаженной информации.

Анализ графов ошибочных классификаций на наборе данных CREMA-D показывает, что в мультимодальных больших языковых моделях, использующих как видео, так и аудио данные, ошибки в распознавании эмоций (<span class="katex-eq" data-katex-display="false">\mathbb{E} \in \{\text{happy, neutral, sad, angry, disgust, fear}\}</span>) проявляются в виде устойчивых структур, зависящих от модальности входных данных. — Анализ графов ошибочных классификаций на наборе данных CREMA-D показывает, что в мультимодальных больших языковых моделях, использующих как видео, так и аудио данные, ошибки в распознавании эмоций ( $\mathbb{E} \in \{\text{happy, neutral, sad, angry, disgust, fear}\}$ ) проявляются в виде устойчивых структур, зависящих от модальности входных данных.

Оценка Производительности и Выявление Смещений

Оценка способности многомодальных больших языковых моделей (MLLM) к распознаванию эмоций осуществляется с использованием эталонных наборов данных, таких как CREMA-D. Этот набор данных содержит аудио- и видеозаписи человеческой речи с соответствующими метками эмоций, позволяя количественно оценить, насколько эффективно MLLM интегрируют и обрабатывают мультимодальные сигналы — как визуальные (выражение лица), так и аудиальные (тон голоса) — для определения эмоционального состояния. Использование CREMA-D обеспечивает стандартизированный метод оценки и сравнения различных MLLM в контексте распознавания эмоций и выявления потенциальных недостатков в обработке мультимодальной информации.

Эксперименты с моделями, такими как Qwen2.5-Omni и Gemma 3n, показали их подверженность модальной предвзятости — тенденции чрезмерно полагаться на один из источников информации (модальность). Это означает, что при обработке мультимодальных данных (например, изображения и текста) модель может придавать непропорционально большое значение одному типу данных, игнорируя или недооценивая вклад других модальностей. Проявление данной предвзятости может приводить к снижению общей точности и надежности предсказаний модели, особенно в сценариях, где важна интеграция информации из различных источников. В частности, при анализе эмоционального окраса, модель может больше опираться на визуальные признаки, чем на текстовое описание, или наоборот, что приводит к ошибочным выводам.

Методы, основанные на возмущении запросов (Prompt-Based Perturbation), используются для систематического выявления и количественной оценки модальных смещений в предсказаниях многомодальных больших языковых моделей (MLLM). Данные методы позволяют оценить степень влияния каждой модальности на итоговый результат. Для этого рассчитывается разница значений SHAP ( $ϕ(Y) - ϕ(X)$ ), где ϕ представляет собой вклад каждой модальности в предсказание. Диапазон значений от -90° до 90° указывает на степень доминирования одной модальности над другой: положительные значения свидетельствуют о преобладании модальности Y, отрицательные — о преобладании модальности X, а значение, близкое к нулю, указывает на сбалансированное влияние обеих модальностей.

Диаграмма Санкея демонстрирует распределение предсказаний эмоций моделью Qwen2.5-Omni, показывая соответствие между исходными (слева и справа) и предсказанными (по центру) эмоциями, где ширина потоков отражает количество соответствующих примеров.

Трансформер как Динамическая Система: Новый Взгляд

Архитектура Transformer, являющаяся основой для мультимодальных больших языковых моделей (MLLM), может быть переосмыслена как сложная динамическая система. В традиционном понимании, Transformer рассматривается как набор статических слоёв, выполняющих преобразования данных. Однако, учитывая рекуррентный характер обработки последовательностей и взаимодействие между слоями, более точным является представление Transformer как динамической системы, состояние которой изменяется во времени под воздействием входных данных. Каждый слой Transformer можно рассматривать как элемент, влияющий на состояние системы, а параметры модели — как определяющие правила этой динамики. Такой подход позволяет анализировать поведение сети не как последовательность дискретных операций, а как непрерывный процесс эволюции состояния, что открывает возможности для применения инструментов анализа динамических систем, таких как теория устойчивости и анализ бифуркаций, для понимания и оптимизации работы модели.

Многоосцилляторная модель представляет собой новый суррогатный подход к моделированию архитектуры Transformer, где каждый слой нейронной сети интерпретируется как взаимосвязанный осциллятор. В этой модели, активации в каждом слое рассматриваются как фаза колебаний, а веса связей между слоями определяют силу и характер взаимодействия между этими осцилляторами. Такое представление позволяет упростить анализ динамики сети, представляя сложные вычисления в терминах частоты, амплитуды и фазовых сдвигов осцилляций. В частности, изменения во входных данных приводят к изменениям в фазах осцилляторов, которые затем распространяются по сети, определяя выходные данные. Модель позволяет численно моделировать поведение Transformer с меньшими вычислительными затратами, чем прямое вычисление через исходную архитектуру.

Предложенный подход моделирования Transformer как динамической системы позволяет проводить анализ потока информации внутри сети, рассматривая взаимодействие слоев как взаимосвязанные осцилляторы. Этот анализ дает возможность выявлять потенциальные узкие места, ограничивающие пропускную способность, а также обнаруживать области нестабильности, проявляющиеся в виде резких изменений выходных данных при небольших изменениях входных. Определение этих точек позволяет оценить эффективность передачи информации между слоями и спрогнозировать поведение модели при различных входных данных, что критически важно для оптимизации архитектуры и повышения её устойчивости.

Многоосцилляторная модель с механизмами само- и перекрестного внимания позволяет предсказывать хаотические временные ряды системы Лоренца.

Раскрывая Внутреннюю Динамику с Помощью Сетевого Анализа

Многоосцилляторная модель использует графовые методы для моделирования связности осцилляторов, в частности, сеть Уоттса-Строгаца. Параметры сети настроены следующим образом: степень вершины (k) установлена равной 10, что определяет среднее количество связей у каждого осциллятора, а вероятность переподключения (p) составляет 0.01. Этот параметр контролирует степень случайности в структуре сети, отклоняясь от полностью регулярной решетки и вводя небольшое количество случайных связей, что позволяет моделировать более сложные и реалистичные паттерны взаимодействия между осцилляторами.

Динамические значения SHAP (SHapley Additive exPlanations), применяемые к данной модели, позволяют количественно оценить вклад каждой модальности (например, текста и изображения) на каждом слое нейронной сети. В отличие от традиционных методов интерпретируемости, динамические SHAP значения учитывают взаимодействие между различными входными признаками и изменения в их вкладе по мере прохождения данных через слои модели. Это достигается путем расчета вклада каждой модальности в предсказание на основе всех возможных комбинаций признаков, что позволяет определить, какие модальности наиболее важны для принятия решений на каждом этапе обработки информации. Полученные значения SHAP представляют собой распределение вклада каждой модальности по слоям, позволяя выявить, на каких этапах происходит интеграция информации из различных источников и как это влияет на конечный результат.

Использование таких методов, как нормализация слоев (Layer Normalization) и прямые операции (Feedforward Operations), позволяет получить детальное представление о процессах обработки информации внутри модели. Нормализация слоев стабилизирует распределения активаций, упрощая обучение и улучшая обобщающую способность. Прямые операции, представляющие собой полносвязные слои, преобразуют входные данные, выделяя нелинейные зависимости и формируя признаки более высокого уровня. Анализ взаимодействия этих компонентов в сочетании с методами сетевого анализа позволяет выявить, как информация преобразуется и распространяется по различным слоям модели, что необходимо для понимания ее внутреннего функционирования и выявления потенциальных узких мест или предвзятостей.

Применение сетевого анализа, включающего многоосцилляторную модель и динамические SHAP-значения, позволяет выявить конкретные механизмы, лежащие в основе наблюдаемых смещений и ограничений производительности в мультимодальных больших языковых моделях (MLLM). Анализ вскрывает, как отдельные модальности влияют на обработку информации на каждом слое модели, позволяя установить причинно-следственные связи между архитектурой сети, потоком данных и возникающими проблемами. Это позволяет не просто констатировать наличие смещений или недостатков, но и объяснить их, основываясь на конкретных параметрах и взаимодействиях внутри модели, что открывает возможности для целенаправленной оптимизации и улучшения ее характеристик.

Стратегия возмущения меток на основе запросов позволяет изменять метки данных для улучшения устойчивости модели к неточным входным данным.

К Интерпретируемому и Надёжному Мультимодальному ИИ

Исследование динамики многомодальных больших языковых моделей (MLLM) открывает возможности для разработки методов снижения предвзятости, обусловленной доминированием отдельных модальностей. Понимание того, как различные типы данных — текст, изображения, звук — взаимодействуют внутри модели, позволяет выявлять и корректировать ситуации, когда одна модальность необоснованно влияет на результаты. Это достигается за счет анализа внутренних представлений модели и разработки алгоритмов, которые обеспечивают более сбалансированное взвешивание информации из всех источников. В результате, MLLM становятся более устойчивыми к изменениям в входных данных и демонстрируют улучшенную способность к обобщению, то есть к успешной работе с новыми, ранее не встречавшимися ситуациями. Такой подход способствует созданию более надежных и универсальных систем искусственного интеллекта.

Исследования в области мультимодального искусственного интеллекта всё чаще отходят от подхода, рассматривающего модели как непрозрачные “чёрные ящики”. Вместо этого, современные разработки опираются на принципы репрезентационализма и феноменологии, стремясь понять, как модели формируют внутренние представления о мире и как эти представления влияют на их решения. Такой подход позволяет не просто оценивать эффективность модели по конечному результату, но и анализировать её внутренние механизмы, выявлять предвзятости и обеспечивать большую прозрачность. Понимание того, как модель “воспринимает” информацию из различных источников — визуальных, текстовых и других — позволяет создавать более надежные и интерпретируемые системы, способные к обоснованным и объяснимым решениям.

Для обеспечения устойчивости и надёжности многомодальных моделей искусственного интеллекта, разработанный подход проходит проверку на разнообразных задачах и, что особенно важно, на хаотичных временных рядах, таких как система Лоренца. Использование системы Лоренца позволяет оценить способность модели к прогнозированию в условиях высокой чувствительности к начальным условиям и нелинейности. Точность прогнозирования оценивается с помощью нормализованной среднеквадратичной ошибки $NMSE$ , что обеспечивает количественную метрику надёжности. Такая валидация, выходящая за рамки стандартных наборов данных, гарантирует, что модель не просто демонстрирует высокую производительность в контролируемых условиях, но и способна сохранять стабильность и точность при работе с непредсказуемыми и сложными данными, что критически важно для реальных приложений.

Конечная цель разработки искусственного интеллекта — создание не просто интеллектуальных систем, но и прозрачных, понятных и соответствующих человеческим ценностям. Данное направление предполагает отход от концепции “черного ящика”, где логика принятия решений остается скрытой. Акцент делается на создании моделей, способных объяснить свои рассуждения и действия, что необходимо для доверия и безопасного применения в критически важных областях, таких как медицина, финансы и автономное управление. В конечном итоге, подобный подход позволит не только повысить эффективность и надежность ИИ, но и обеспечить его соответствие этическим нормам и ожиданиям общества, создавая технологию, работающую на благо человечества.

Исследование, представленное в данной работе, демонстрирует, что предвзятости в мультимодальных больших языковых моделях возникают не как случайные артефакты, а как закономерные искажения в динамике трансформаторов. Авторы предлагают рассматривать эти модели через призму физических принципов, что позволяет выявить ключевую роль сбалансированности внимания для предотвращения доминирования одной модальности над другой. Этот подход перекликается с глубокой мыслью Клода Шеннона: «Информация — это не просто данные, а способ уменьшить неопределенность». Подобно тому, как Шеннон стремился к минимизации шума в канале связи, данная работа направлена на устранение искажений в информационном потоке между модальностями, чтобы достичь более объективного и сбалансированного представления реальности.

Куда же дальше?

Представленная работа, по сути, лишь констатация того, что даже самые сложные системы — будь то нейронные сети или динамика Лоренца — подвержены искажениям. Вопрос не в создании «беспристрастных» моделей, а в понимании природы этих искажений. Если перевесить чашу весов в сторону физического моделирования, то возникает закономерный вопрос: какова минимально достаточная сложность физической модели, чтобы адекватно описать трансформации внимания в многомодальных сетях? Ведь каждое упрощение — это новый эксплойт, новая возможность для проявления доминирования одной модальности.

Неизбежно возникает и проблема масштабируемости. Анализ динамики внимания, основанный на принципах физики, может оказаться вычислительно непосильным для моделей, состоящих из сотен миллиардов параметров. Здесь потребуется либо разработка новых, более эффективных методов анализа, либо принципиально иной подход к архитектуре сетей — возможно, с использованием принципов самоорганизации и критичности.

И, наконец, стоит помнить: каждый эксплойт начинается с вопроса, а не с намерения. Поэтому, вместо того чтобы стремиться к идеальной сбалансированности, целесообразнее сосредоточиться на разработке инструментов, позволяющих выявлять и контролировать предвзятости, используя их как рычаг для управления поведением модели. В конечном счёте, система всегда найдёт способ обойти ограничения — вопрос лишь в том, кто первым найдёт этот путь.

Оригинал статьи: https://arxiv.org/pdf/2602.20624.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-25 13:12

🚀 Квантовые новости