Иллюзии Искусственного Разума: Как Мультимодальные Модели Искажают Реальность

Автор: Денис Аветисян

Новое исследование выявляет склонность современных мультимодальных моделей к галлюцинациям при обработке сложных и негативных запросов.

Для тонкой настройки модели используются разнообразные фразы, извлеченные из длинных подписей к изображениям Pixmo и модифицированные с помощью большой языковой модели PHI-4-14B, что позволяет формировать как позитивные, так и негативные пары «запрос-ответ» посредством шаблонного составления или генерации самой моделью.

Представлен набор тестов FINER и метод дообучения FINER-Tuning для повышения надежности мультимодальных моделей в понимании визуальной информации.

Несмотря на значительные успехи в области мультимодального машинного обучения, большие языковые модели, обрабатывающие изображения и текст, подвержены галлюцинациям, особенно при ответах на детализированные вопросы. В статье ‘FINER: MLLMs Hallucinate under Fine-grained Negative Queries’ представлена новая методика оценки и коррекции данной проблемы, включающая в себя набор бенчмарков FINER и метод дообучения FINER-Tuning. Показано, что модели склонны к ошибкам при одновременном наличии неточностей и корректно распознанных элементов на изображении, однако предложенный метод дообучения позволяет добиться прироста до 24.2% в снижении галлюцинаций. Возможно ли дальнейшее улучшение надежности и точности мультимодальных моделей за счет более тонкой настройки и разработки новых стратегий обучения?

Разоблачение Иллюзий: Вызов Визуального Рассуждения

Современные большие мультимодальные модели (MLLM) демонстрируют впечатляющие результаты в широком спектре задач, успешно обрабатывая и объединяя информацию из различных источников, включая текст и изображения. Однако, несмотря на эти достижения, точное рассуждение на основе визуального контента остается сложной проблемой. Модели часто способны идентифицировать объекты на изображении, но испытывают трудности при установлении логических связей между ними, интерпретации сложных сцен или выводе заключений, требующих глубокого понимания контекста. Эта неспособность к надежному визуальному рассуждению ограничивает их применение в задачах, где критически важна точность и достоверность, таких как анализ медицинских изображений или автономная навигация роботов.

Критическим недостатком современных больших мультимодальных моделей (MLLM) является склонность к «галлюцинациям» — генерации ответов, не подкрепленных визуальным содержанием изображения. Особенно ярко эта проблема проявляется в сложных сценах, где множество объектов и взаимосвязей затрудняют точное понимание. Модели могут выдавать правдоподобные, но ложные утверждения о происходящем на изображении, что ставит под сомнение их надежность в задачах, требующих высокой фактической точности. Этот феномен связан с тем, что модели часто полагаются на статистические закономерности в данных обучения, а не на глубокое понимание визуальной информации, что приводит к ошибкам в интерпретации и генерации ответов, несоответствующих реальному содержанию изображения.

Ненадёжность больших мультимодальных моделей (MLLM) представляет серьёзную проблему для практического применения в сферах, где требуется абсолютная точность. Например, в задачах роботизированной навигации, неверная интерпретация визуальной информации может привести к столкновениям или отклонению от маршрута. Аналогично, в медицинской диагностике, галлюцинации и неточности в анализе изображений, таких как рентгеновские снимки или МРТ, могут привести к ошибочным диагнозам и неправильному лечению. В этих критически важных областях, даже незначительные ошибки в визуальном рассуждении могут иметь серьёзные последствия, подчеркивая необходимость разработки более надежных и точных моделей, способных безошибочно интерпретировать визуальную информацию и предоставлять фактические ответы.

Примеры вопросов FINER-CompreCap с множественным выбором ответов по каждой категории демонстрируют возможности больших мультимодальных моделей (MLLM) в понимании и ответах на вопросы.

Строящая Основа: Конструирование Графов Сцен

Точность визуального рассуждения напрямую зависит от полного понимания объектов, их атрибутов и взаимосвязей, представленных на изображении. Для эффективного анализа и интерпретации визуальной информации необходимо идентифицировать все значимые объекты, определять их характеристики (цвет, размер, материал и т.д.) и устанавливать отношения между ними (например, «стоит на», «рядом с», «содержит»). Отсутствие или неточность в определении любого из этих элементов существенно снижает способность системы к корректному визуальному выводу и принятию обоснованных решений на основе визуальных данных. Поэтому, качественный анализ изображений требует комплексного подхода к идентификации и описанию всех составляющих сцены.

Графы сцен (GS) представляют собой структурированное представление визуальной информации, позволяющее формально описать объекты, их атрибуты и взаимосвязи в изображении. В GS объекты выступают в роли узлов, а отношения между ними — в роли ребер. Каждый узел содержит информацию об объекте, включая его класс (например, «стул», «человек»), а каждое ребро описывает тип связи (например, «находится_над», «рядом_с»). Такое представление позволяет алгоритмам компьютерного зрения выполнять логический вывод и анализ, основанный на семантическом понимании сцены, а не просто на распознавании пикселей. Формальная структура графа сцен облегчает обработку и интерпретацию визуальных данных различными алгоритмами и системами искусственного интеллекта.

Построение высококачественных графов сцен требует применения надежных методов обнаружения объектов, распознавания атрибутов и извлечения связей. Обнаружение объектов, как правило, осуществляется с использованием алгоритмов глубокого обучения, таких как Faster R-CNN или YOLO, для идентификации и локализации объектов на изображении. Распознавание атрибутов, включающее определение характеристик объектов (например, цвет, материал, форма), часто реализуется с помощью классификаторов, обученных на размеченных данных. Извлечение связей, критически важное для установления отношений между объектами (например, «стоит на», «рядом с»), предполагает применение моделей, способных анализировать пространственное расположение и семантическое взаимодействие между обнаруженными объектами. Эффективность каждого из этих этапов напрямую влияет на качество и точность всего графа сцен.

В FINER-CompreCap, существующие аннотации, подобные сценарным графам (SG) из CompreCap[31], упрощаются Qwen3-14B[51] путём преобразования предложений с атрибутами в более лаконичные фразы.

Утончённая Настройка: Смягчение Галлюцинаций с Помощью Отрицательных Запросов

FINER-Tuning — это новый подход к обучению мультимодальных больших языковых моделей (MLLM), направленный на снижение склонности к галлюцинациям — генерации неверной или не соответствующей визуальными данными информации. В отличие от традиционных методов, фокусирующихся на увеличении объема обучающих данных, FINER-Tuning использует специализированную стратегию обучения, позволяющую модели более эффективно различать правдивые и ложные утверждения. Данный подход позволяет повысить надежность MLLM при решении задач, требующих точного понимания визуального контекста и минимизации генерации вымышленных деталей.

Метод FINER-Tuning использует генерацию негативных запросов для создания сложных примеров, направленных на выявление неточностей в ответах мультимодальных больших языковых моделей (MLLM). Этот процесс предполагает автоматическое формирование вопросов, которые требуют от модели знаний, не содержащихся в предоставленном визуальном контексте, или содержат ложные предположения. Сгенерированные негативные запросы специально разработаны для того, чтобы спровоцировать модель на выдачу галлюцинаций, позволяя оценить её способность различать достоверную информацию от недостоверной и выявлять слабые места в процессе рассуждений. Набор таких запросов используется в процессе обучения для повышения устойчивости модели к выдаче неправдоподобных ответов.

Обучение модели с использованием специально разработанных «сложных» примеров направлено на снижение зависимости от ложных корреляций и повышение акцента на визуальные доказательства. В процессе FINER-Tuning, создаются запросы, которые требуют от модели сопоставления ответа с представленным изображением, а не с общими знаниями или статистическими закономерностями. Это достигается путем генерации негативных примеров, которые намеренно содержат неверную информацию или требуют детального анализа визуального контента для правильного ответа, что стимулирует модель к более точному использованию визуальных данных при генерации ответов и снижает вероятность галлюцинаций.

Для обучения FINER-Tuning была создана обучающая выборка, содержащая положительные (зеленые) и отрицательные (красные) пары запросов и ответов для четырех подмножеств: Multi-obj, Multi-attr, Multi-rel и Wh, представленные в виде <span class="katex-eq" data-katex-display="false">(x,q^{+},a^{+}_{+},a^{-}_{+})</span> и <span class="katex-eq" data-katex-display="false">(x,q^{-},a^{+}_{-},a^{-}_{-})</span> кортежей. — Для обучения FINER-Tuning была создана обучающая выборка, содержащая положительные (зеленые) и отрицательные (красные) пары запросов и ответов для четырех подмножеств: Multi-obj, Multi-attr, Multi-rel и Wh, представленные в виде $(x,q^{+},a^{+}_{+},a^{-}_{+})$ и $(x,q^{-},a^{+}_{-},a^{-}_{-})$ кортежей.

Строгая Оценка с Использованием Наборов Данных FINER

Для оценки разработанного подхода используются датасеты FINER-DOCCI и FINER-CompreCap, специально разработанные для оценки галлюцинаций в мультимодальных больших языковых моделях (MLLM). FINER-DOCCI фокусируется на визуальном вопросно-ответном формате, требующем понимания сложных сцен и контекста, в то время как FINER-CompreCap проверяет способность моделей к пониманию и генерации подробных описаний изображений. Оба датасета характеризуются высоким уровнем сложности и детализации, что позволяет проводить всестороннюю оценку способности моделей избегать генерации неправдоподобной или противоречивой информации.

Наборы данных FINER-DOCCI и FINER-CompreCap предоставляют широкий спектр сложных визуальных сцен и требующих анализа запросов. Высокий уровень согласованности с оценками, данными людьми — более 90% согласованности парных ответов — указывает на значительную сложность и требовательность этих бенчмарков к моделям мультимодального анализа. Это свидетельствует о том, что для достижения высокой производительности на этих наборах данных требуется продвинутое понимание сцены и способность к точному ответу на сложные вопросы.

В ходе экспериментов FINER-обучение последовательно демонстрирует превосходство над базовыми моделями на наборах данных FINER-DOCCI и FINER-CompreCap. При использовании модели InternVL3.5-8B, FINER-обучение достигло улучшения точности на 5.5% на AMBER (дискриминативная задача) и на 15.7% и 15.3% на HaloQuest (генеративная задача). Данные результаты подтверждают значительное снижение частоты галлюцинаций в моделях, прошедших FINER-обучение, по сравнению с исходными базовыми моделями.

Для создания набора данных FINER используются графы сцен, полученные из существующих источников (DOCCI и CompreCap), а для генерации негативных графов применяются модели Qwen3-14B и Gemini-2.0-Flash, после чего формируются вопросы с множественным выбором на основе заданных правил.

К Надёжному и Достоверному Мультимодальному Искусственному Интеллекту

Решение проблемы галлюцинаций в мультимодальных больших языковых моделях (MLLM) посредством метода FINER-Tuning открывает широкие перспективы для их применения в различных областях. Устранение тенденции к генерации неверной или не соответствующей действительности информации значительно повышает надежность этих систем, что критически важно для таких задач, как робототехника и автономная навигация, где ошибки могут иметь серьезные последствия. Повышенная точность визуального рассуждения, достигнутая благодаря FINER-Tuning, делает MLLM более пригодными для использования в медицинской диагностике по изображениям, а также в разработке вспомогательных технологий для людей с ограниченными возможностями. Таким образом, методика FINER-Tuning не просто улучшает производительность MLLM, но и расширяет границы их практического применения, приближая эру действительно надежного и полезного искусственного интеллекта.

Надёжное визуальное рассуждение играет ключевую роль в развитии широкого спектра передовых технологий. От робототехники и автономной навигации, где точная интерпретация визуальной информации необходима для безопасного и эффективного функционирования, до медицинской визуализации и вспомогательных технологий, где правильная диагностика и поддержка зависят от безошибочного анализа изображений, способность искусственного интеллекта к пониманию и интерпретации визуальных данных становится критически важной. Разработка систем, способных не просто распознавать объекты на изображениях, но и делать обоснованные выводы на основе визуальной информации, открывает новые возможности для автоматизации сложных задач и повышения качества жизни людей, особенно в областях, где требуется высокая точность и надёжность.

Перспективные исследования направлены на интеграцию графов знаний и каузального рассуждения в архитектуру многомодальных ИИ-систем. Такой подход позволит не просто распознавать закономерности в данных, но и понимать причинно-следственные связи, лежащие в их основе. Это критически важно для повышения надежности и доверия к ИИ, особенно в областях, требующих высокой точности и обоснованности принимаемых решений. Использование графов знаний обеспечит структурированное представление информации, а каузальное рассуждение позволит моделировать сложные взаимодействия и прогнозировать последствия действий, что значительно снизит вероятность галлюцинаций и ошибок в рассуждениях, обеспечивая более глубокое и осмысленное взаимодействие ИИ с окружающим миром.

Использование FINER-Tuning позволяет значительно повысить точность <span class="katex-eq" data-katex-display="false">Acc_{paired}</span> при увеличении количества объектов, атрибутов и отношений, как показано на графиках для моделей FINER-CompreCap и FINER-DOCCI. — Использование FINER-Tuning позволяет значительно повысить точность $Acc_{paired}$ при увеличении количества объектов, атрибутов и отношений, как показано на графиках для моделей FINER-CompreCap и FINER-DOCCI.

Исследование, представленное в статье, подчеркивает важность точной оценки работы мультимодальных больших языковых моделей (MLLM) при обработке детализированных негативных запросов. Авторы демонстрируют, что стандартные методы обучения часто приводят к галлюцинациям — генерации неверной информации. В этой связи, подход FINER-Tuning, представленный в работе, направлен на повышение надежности ответов моделей. Как отмечал Дэвид Марр: «Представление — это не просто копирование входных данных, а построение новой, полезной структуры». Эта фраза точно отражает суть FINER, поскольку предложенный метод фокусируется на создании более обоснованного и точного представления о входных данных, что позволяет снизить вероятность галлюцинаций и повысить качество ответов на сложные запросы.

Что Дальше?

Представленный анализ, хоть и демонстрирует улучшение в обработке негативных запросов, не решает фундаментальную проблему: склонность больших мультимодальных языковых моделей к галлюцинациям. Улучшение метрик на разработанном наборе данных FINER — это, несомненно, шаг вперёд, но и лишь подтверждение того, что существующие методы обучения зачастую оптимизируют видимость корректности, а не истинную логическую последовательность. Достижение подлинного понимания требует не просто улучшения способности отвечать на сложные вопросы, но и способности знать, когда ответ отсутствует или является неопределённым.

Будущие исследования должны сосредоточиться на разработке методов, способных не просто генерировать правдоподобные ответы, но и предоставлять доказательства или обоснования для своих утверждений. Иначе говоря, необходимо отойти от парадигмы «чёрного ящика» и стремиться к созданию моделей, чьи рассуждения можно проследить и проверить. Простая оптимизация на тестовых данных — это лишь иллюзия прогресса, а истинная элегантность заключается в доказуемости алгоритма.

Особый интерес представляет исследование возможности интеграции формальных методов верификации в архитектуру мультимодальных моделей. Отказ от эвристик и стремление к математической чистоте — вот путь к созданию систем, способных не просто «работать», но и действительно понимать окружающий мир. Пока же, необходимо признать, что мы находимся лишь в начале пути к созданию искусственного интеллекта, который действительно заслуживает этого названия.

Оригинал статьи: https://arxiv.org/pdf/2603.17662.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-20 01:22

🚀 Квантовые новости