Визуальные галлюцинации: Как сделать «зрение» нейросетей более надежным

Автор: Денис Аветисян


Исследование посвящено проблеме ложных утверждений, генерируемых моделями, работающими с изображениями и текстом, и предлагает способ повысить точность их ответов.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Архитектура, представленная на рисунке, демонстрирует модификацию подхода к слиянию визуальных и языковых представлений, где усредненное визуальное представление последовательно присоединяется к каждому токеновому вложению перед проецированием, что способствует обучению модели визуально информированным текстовым вложениям и улучшает её способность к вниманию к визуальному входу.
Архитектура, представленная на рисунке, демонстрирует модификацию подхода к слиянию визуальных и языковых представлений, где усредненное визуальное представление последовательно присоединяется к каждому токеновому вложению перед проецированием, что способствует обучению модели визуально информированным текстовым вложениям и улучшает её способность к вниманию к визуальному входу.

В статье рассматривается метод снижения галлюцинаций в больших моделях «зрение-язык» за счет балансировки внимания между визуальными и текстовыми данными.

Несмотря на впечатляющие успехи больших мультимодальных моделей, склонность к «галлюцинациям» – генерации не соответствующих действительности утверждений – остается серьезной проблемой. В работе ‘Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings’ авторы выявляют предвзятость в архитектурах LVLM в сторону текстовой модальности, обусловленную простым добавлением визуальных эмбеддингов к текстовой последовательности. Предлагаемый метод усовершенствует текстовые эмбеддинги путем интеграции усредненных визуальных признаков, что значительно снижает количество галлюцинаций и улучшает визуальное обоснование ответов. Какие более сложные стратегии слияния модальностей могут еще эффективнее выровнять визуальную и текстовую информацию и повысить надежность LVLM?


Иллюзии в Мультимодальных Моделях: Проблема Галлюцинаций

Крупные мультимодальные модели, объединяющие обработку изображений и текста, демонстрируют впечатляющие возможности, однако склонны к генерации выходных данных, не имеющих визуального обоснования – это явление известно как галлюцинация. Данная тенденция обусловлена дисбалансом между модальностями. В результате модель может генерировать неточные детали, не соответствующие изображению. Существующие эталонные наборы данных (MMVP-MLLM, POPE, MERLIN, Mementos) подчеркивают сложность оценки и смягчения галлюцинаций. Необходимы строгие методы тестирования и разработки моделей для обеспечения достоверности генерируемого контента.

Исследования с использованием эталонных наборов данных POPE A-OKVQA, HallusionBench, MMVP и Mementosbenchmarks демонстрируют, что VisAlign последовательно улучшает производительность при обнаружении и исправлении галлюцинаций, связанных с объектами, действиями, атрибутами и отношениями.
Исследования с использованием эталонных наборов данных POPE A-OKVQA, HallusionBench, MMVP и Mementosbenchmarks демонстрируют, что VisAlign последовательно улучшает производительность при обнаружении и исправлении галлюцинаций, связанных с объектами, действиями, атрибутами и отношениями.

Простое решение не обязательно короткое, оно логически завершённое.

Кросс-Модальное Выравнивание: Гармония Визуального и Текстового

Эффективная интеграция визуальных и текстовых данных требует надежного кросс-модального выравнивания, обеспечивающего связь между представлениями обеих модальностей. Несоответствие в представлениях может привести к потере информации. Один из подходов предполагает использование усредняющего объединения для снижения размерности визуальных вложений, что упрощает процесс обучения. VisAlign предлагает новый метод интеграции визуальной информации непосредственно в текстовые вложения, противодействуя модальному дисбалансу и обеспечивая более равномерный вклад обеих модальностей.

Анализ распределения оценок внимания в первых шести слоях моделей Video-LLaVA и VisAlign показывает, что VisAlign изменяет паттерны внимания, в то время как Video-LLaVA обрабатывает токены в фиксированном порядке, используя цветовое кодирование для отображения интенсивности внимания.
Анализ распределения оценок внимания в первых шести слоях моделей Video-LLaVA и VisAlign показывает, что VisAlign изменяет паттерны внимания, в то время как Video-LLaVA обрабатывает токены в фиксированном порядке, используя цветовое кодирование для отображения интенсивности внимания.

Экспериментальная Валидация: Сравнение с Передовыми Моделями

Для оценки эффективности VisAlign необходимо сравнение с передовыми моделями, такими как Video-LLaVA и LLaVA 1.5. Video-LLaVA, использующая механизм внимания, представляет собой надежную базовую модель для сравнения. Экспериментальные результаты демонстрируют, что интеграция VisAlign с Video-LLaVA приводит к значительному снижению галлюцинаций и улучшению визуального обоснования. На бенчмарке MMVP-MLLM достигнуто улучшение на 9.33%, а на MME – с 54.5% до 57.09%. Полученные данные подтверждают, что VisAlign эффективно дополняет существующие модели.

Исследования, проведенные с использованием Video-LLaVA (lin2023video), выявили склонность модели к галлюцинациям.
Исследования, проведенные с использованием Video-LLaVA (lin2023video), выявили склонность модели к галлюцинациям.

Снижение Галлюцинаций: Контрастивная Декодировка и За её Пределами

Помимо VisAlign, существуют и другие методы снижения галлюцинаций на этапе инференса, такие как Visual Contrastive Decoding. Данные подходы переранжируют кандидаты в ответы, выбирая наиболее соответствующие визуальному входу. Комбинированное использование VisAlign и Visual Contrastive Decoding (VCD) демонстрирует улучшенные результаты, достигая точности в 58.8% и F1-score в 70.04% на MME, с F1-score в 69.63%. Подобно тому, как чистый код стремится к однозначности, эти методы стремятся к точности в генерации ответов, исключая галлюцинации.

Качественные результаты, полученные на эталонном наборе данных Mementos (wang2024mementos), показывают, что выделенный красным текст указывает на галлюцинированный контент, в то время как текст, выделенный синим, представляет собой соответствующие исправления.
Качественные результаты, полученные на эталонном наборе данных Mementos (wang2024mementos), показывают, что выделенный красным текст указывает на галлюцинированный контент, в то время как текст, выделенный синим, представляет собой соответствующие исправления.

Исследование, представленное в статье, стремится к достижению точности в больших визуально-языковых моделях путём балансировки внимания между визуальными и текстовыми данными. Это напоминает подход к элегантности, где каждая операция должна иметь чёткое обоснование. Как однажды заметил Дэвид Марр: “Представление является фундаментальным понятием в когнитивной науке, поскольку оно позволяет нам понимать, как мозг преобразует сенсорную информацию в полезные формы.” Именно такое преобразование, фокусировка на визуальном обосновании, как описано в статье относительно внимания, позволяет модели формировать более достоверные и согласованные ответы. Корректное представление данных, как и в случае с балансировкой внимания, является основой для надёжных результатов.

Что дальше?

Представленная работа, хотя и демонстрирует определенный прогресс в смягчении галлюцинаций в больших визуально-языковых моделях, лишь слегка приоткрывает завесу над фундаментальной проблемой: надежностью дедуктивного вывода в системах, основанных на статистической корреляции. Улучшение баланса внимания между модальностями – шаг, несомненно, полезный, но он не устраняет корень зла – неспособность модели к истинному пониманию. До тех пор, пока ответы генерируются на основе вероятностных распределений, а не логических заключений, надежда на полностью достоверные результаты остается иллюзией.

Особое внимание следует уделить разработке методов, позволяющих верифицировать достоверность генерируемого текста, используя не только визуальный контекст, но и внешние источники знаний. Необходимо исследовать способы интеграции формальных логических систем с нейронными сетями, чтобы обеспечить детерминированность и воспроизводимость результатов. Иначе, каждая новая модель будет лишь усложнять механизм генерации случайных, но правдоподобных ошибок.

В конечном итоге, успех в данной области зависит не от увеличения масштаба моделей, а от фундаментального пересмотра архитектуры и принципов обучения. Необходимо стремиться к созданию систем, способных не просто имитировать интеллект, но и демонстрировать истинное понимание и логическое мышление. Иначе, все усилия по смягчению галлюцинаций будут напоминать попытки залатать дыры в заведомо несостоятельном корабле.


Оригинал статьи: https://arxiv.org/pdf/2511.05017.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-10 13:43