Увидеть главное: как улучшить восприятие искусственного интеллекта

Автор: Денис Аветисян


Новый подход к обучению моделей, работающих с изображениями и текстом, позволяет им лучше понимать визуальную информацию и делать более точные выводы.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Предложенная схема двунаправленного формирования восприятия (BiPS) использует двухэтапную программу обучения, основанную на GRPO, где первый этап минимизирует расхождение Кулбака-Лейблера между исходной и политикой, основанной на сохранении доказательств, а второй - максимизирует это же расхождение для политики, основанной на удалении доказательств, тем самым заставляя модель обосновывать свои рассуждения визуальными данными.
Предложенная схема двунаправленного формирования восприятия (BiPS) использует двухэтапную программу обучения, основанную на GRPO, где первый этап минимизирует расхождение Кулбака-Лейблера между исходной и политикой, основанной на сохранении доказательств, а второй — максимизирует это же расхождение для политики, основанной на удалении доказательств, тем самым заставляя модель обосновывать свои рассуждения визуальными данными.

В статье представлена методика BiPS, использующая двунаправленные ограничения KL-дивергенции и программное конструирование данных для повышения точности визуального обоснования и рассуждений в больших визуально-языковых моделях.

Несмотря на успехи больших мультимодальных моделей (ВLM) в решении задач, требующих совместной обработки изображений и текста, они часто упускают важные детали и демонстрируют поверхностное понимание визуальной информации. В данной работе, ‘See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning’, предлагается новый подход — BiPS — формирующий восприятие ВLM посредством двунаправленных ограничений KL-дивергенции и программного построения данных. Это позволяет моделям более эффективно фокусироваться на релевантных областях изображения, улучшая визуальное обоснование и логические рассуждения. Способны ли подобные методы существенно повысить надежность и обобщающую способность ВLM в реальных сценариях?


Иллюзии восприятия: вызовы визуального мышления

Несмотря на значительный прогресс в области искусственного интеллекта, надежное решение задач визуального вопросно-ответного взаимодействия (Visual Question Answering, VQA) по-прежнему представляет собой серьезную проблему. Суть сложности заключается в необходимости не просто распознавать объекты на изображении, но и понимать их взаимосвязи, контекст и выполнять логические умозаключения на основе визуальной информации. Текущие модели часто демонстрируют поверхностное понимание, сталкиваясь с трудностями при интерпретации сложных сцен или ответе на вопросы, требующие анализа мелких деталей. Это ограничивает их применимость в реальных задачах, таких как автономная навигация, медицинская диагностика по изображениям и анализ данных дистанционного зондирования, где точность и надежность являются критически важными.

Современные большие визуально-языковые модели (VLMs) часто демонстрируют ограничения в обработке тонких визуальных деталей, что приводит к так называемому “узкому месту восприятия”. Данное явление заключается в неспособности моделей адекватно извлекать и интерпретировать сложные визуальные признаки, необходимые для корректного ответа на вопросы. Несмотря на впечатляющий прогресс в области искусственного интеллекта, модели склонны упрощать визуальную информацию, упуская важные нюансы, которые критически важны для рассуждений. Это ограничивает их способность к анализу изображений, особенно в сценариях, требующих точного распознавания объектов, понимания их взаимосвязей и интерпретации контекста, что существенно снижает эффективность моделей в практических приложениях, требующих высокой точности и надежности.

Современные большие визуально-языковые модели (VLMs) зачастую демонстрируют неустойчивость в ситуациях, когда для корректного ответа требуется распознавание незначительных визуальных деталей. Эта проблема особенно заметна при анализе изображений, содержащих тонкие подсказки или скрытые взаимосвязи, которые остаются незамеченными для алгоритмов. Как следствие, точность ответов VLMs существенно снижается в задачах, требующих внимательности к нюансам, что ограничивает их применение в реальных сценариях, таких как медицинская диагностика по изображениям, автономное вождение или анализ спутниковых снимков. Неспособность эффективно интерпретировать даже небольшие визуальные изменения ставит под вопрос надежность и практическую ценность этих моделей в критически важных областях.

В задачах визуального подсчета BiPS успешно справляется с отслеживанием и вычитанием объектов, в отличие от базового подхода, который терпит неудачу из-за неполного анализа объектов.
В задачах визуального подсчета BiPS успешно справляется с отслеживанием и вычитанием объектов, в отличие от базового подхода, который терпит неудачу из-за неполного анализа объектов.

BiPS: Формирование восприятия через контрастные взгляды

BiPS — это фреймворк, применяемый на этапе обучения визуальных языковых моделей (VLMs), который изменяет способ “восприятия” изображений моделями. В его основе лежит генерация парных видов одного и того же изображения: вида, сохраняющего все визуальные признаки (evidence-preserving), и вида, из которого намеренно удалены определенные визуальные элементы (evidence-ablated). Такая процедура позволяет модели учиться фокусироваться на существенных визуальных признаках, игнорируя несущественные или отвлекающие факторы, и формировать более надежное и точное представление об изображении.

Программное конструирование данных в BiPS осуществляется посредством использования Chart Code, что позволяет осуществлять точный контроль над визуальными элементами и создавать парные виды изображений с гарантированной точностью воспроизведения. Chart Code представляет собой декларативный язык, описывающий графические элементы и их взаимосвязи, что обеспечивает возможность целенаправленного изменения определенных аспектов изображения. Это позволяет создавать “доказательственные” и “доказательственно-удаленные” виды, отличающиеся лишь конкретными визуальными элементами, контролируемыми посредством кода. Гарантированная точность воспроизведения достигается за счет программного управления процессом создания изображений, исключающего случайные ошибки или искажения, присущие традиционным методам аугментации данных.

BiPS использует расхождение Кульбака-Лейблера (KL Divergence) для формирования ограничений согласованности и разделения, что позволяет модели визуально выделять ключевые элементы. Ограничения согласованности (D_{KL}(p(y|x), p(y|x'))) заставляют модель выдавать схожие прогнозы для исходного изображения и его слегка измененной версии, где визуальные подсказки сохранены. В то же время, ограничения разделения (D_{KL}(p(y|x), p(y|x'''))) стимулируют различное поведение модели при анализе исходного изображения и его версии, из которой намеренно удалены визуальные подсказки, тем самым усиливая фокус на существенных визуальных признаках.

Для обучения модели используются парные виды графиков, создаваемые путем программного редактирования исходного кода: сохраненные (<span class="katex-eq" data-katex-display="false">I_{pres}</span>) и удаленные (<span class="katex-eq" data-katex-display="false">I_{abl}</span>) доказательства.
Для обучения модели используются парные виды графиков, создаваемые путем программного редактирования исходного кода: сохраненные (I_{pres}) и удаленные (I_{abl}) доказательства.

Укрепление восприятия: надежный конвейер обучения

Стратегическая подача представлений, сохраняющих ключевые визуальные доказательства, позволяет модели обучаться выделять и приоритизировать существенные визуальные сигналы для точного ответа на вопросы. Этот подход основан на предоставлении модели различных перспектив одного и того же визуального ввода, при этом сохраняются наиболее значимые элементы, необходимые для логического вывода. В процессе обучения модель формирует способность игнорировать несущественные детали и концентрироваться на информации, непосредственно связанной с вопросом, что повышает ее устойчивость к шуму и вариациям в визуальных данных и, как следствие, улучшает общую точность ответов.

Представление модели нескольких версий одного изображения, из которых намеренно удалены (обесцвечены) отдельные элементы данных, стимулирует развитие альтернативных стратегий рассуждения. Этот подход, называемый “аблацией доказательств”, заставляет модель не полагаться на конкретные визуальные признаки, а использовать другие доступные данные для ответа на вопрос. В результате, даже при отсутствии части информации, модель сохраняет способность к решению задачи, поскольку обучена находить и использовать альтернативные пути рассуждения, повышая общую устойчивость и надежность системы визуального вопросно-ответного поиска.

Предлагаемый BiPS фреймворк демонстрирует среднее улучшение производительности на 7.3% в задачах визуального вопросно-ответного анализа (VQA) по восьми общедоступным бенчмаркам, включая CharXiv, ChartQAPro, MathVista и MMStar. Данный прирост производительности был достигнут за счет использования стратегии обучения, направленной на усиление способности модели к обработке визуальной информации и поиску ответов на вопросы, связанные с графиками и диаграммами. Результаты тестов показывают улучшение точности на различных наборах данных, подтверждая эффективность BiPS в задачах VQA.

В ходе экспериментов на наборах данных CharXiv и Evochart наша разработанная система продемонстрировала значительное повышение точности. На CharXiv достигнута точность в 49.4%, что на 6.9% выше, чем у базовой модели Qwen2.5-VL-7B. На наборе данных Evochart точность составила 68.2%, что представляет собой прирост в 16.2% по сравнению с результатами, полученными базовой моделью. Данные результаты подтверждают эффективность предложенного подхода к обучению моделей визуального вопросно-ответного анализа.

Существующие подходы к решению задачи ограничены использованием жестких инструментов на этапе инференса и специализированными решениями, плохо адаптируемыми к новым условиям, в то время как предлагаемый подход обеспечивает гибкость и обобщающую способность на обоих этапах - обучения и инференса.
Существующие подходы к решению задачи ограничены использованием жестких инструментов на этапе инференса и специализированными решениями, плохо адаптируемыми к новым условиям, в то время как предлагаемый подход обеспечивает гибкость и обобщающую способность на обоих этапах — обучения и инференса.

За пределами текущих ограничений: последствия и перспективы

Исследования показали, что BiPS эффективно преодолевает так называемое «узкое место восприятия», которое ограничивает возможности существующих визуальных языковых моделей (VLM). Традиционные VLM часто испытывают трудности при обработке сложных визуальных сцен из-за ограниченной способности выделять и интегрировать релевантную информацию. BiPS, напротив, использует инновационный подход, позволяющий модели более полно и точно воспринимать визуальные данные, что приводит к значительному повышению точности и надёжности визуального рассуждения. Это особенно важно в задачах, требующих анализа сложных взаимосвязей и выявления скрытых закономерностей в визуальной информации, открывая новые горизонты для развития искусственного интеллекта в области машинного зрения.

Разработанная платформа BiPS выходит за рамки простого анализа графиков и диаграмм, открывая широкие перспективы для применения в различных областях. В частности, её возможности визуального рассуждения могут быть использованы в робототехнике для более эффективного восприятия окружающей среды и принятия решений, в автономной навигации для повышения точности и надежности систем ориентации, а также в медицинской визуализации для автоматизированного анализа снимков и выявления патологий. Потенциал BiPS в этих сферах обусловлен её способностью преодолевать ограничения существующих моделей, обеспечивая более глубокое и контекстуальное понимание визуальной информации, что критически важно для сложных задач, требующих высокой степени точности и надежности.

Дальнейшие исследования BiPS сосредоточены на расширении его возможностей для работы со значительно более сложными визуальными областями, включая сцены с высокой степенью детализации и неоднозначностью. Предполагается интеграция данной системы с другими передовыми методами рассуждений, такими как нейро-символьные подходы и обучение с подкреплением, что позволит не только интерпретировать визуальную информацию, но и формировать логические выводы и планировать действия. Такое сочетание технологий обещает значительный прогресс в создании интеллектуальных систем, способных к автономному принятию решений в реальных условиях, открывая перспективы для применения в робототехнике, автономных транспортных средствах и анализе медицинских изображений.

В ходе исследования на ChartXiv модель BiPS продемонстрировала более точные ответы, основанные на визуальном анализе графиков, по сравнению с Qwen2.5-VL-7B.
В ходе исследования на ChartXiv модель BiPS продемонстрировала более точные ответы, основанные на визуальном анализе графиков, по сравнению с Qwen2.5-VL-7B.

Исследование демонстрирует, что современные большие языковые модели, взаимодействующие с визуальной информацией, зачастую видят не суть, а лишь поверхностные признаки. Авторы предлагают подход BiPS, направленный на формирование более осмысленного восприятия, используя двунаправленные ограничения KL и программное конструирование данных. Это напоминает алхимию, где из хаотичного набора пикселей и слов выковывается понимание. Как однажды заметил Ян Лекун: «Машинное обучение — это не создание идеальных моделей, а овладение искусством убеждать данные поведать свою историю». Иными словами, задача не в том, чтобы заставить модель видеть, а в том, чтобы научить её слушать шёпот хаоса, скрытый в визуальном и текстовом потоке.

Что дальше?

Представленная работа, безусловно, укрощает шум, но не стоит обольщаться. Кажется, что утончение восприятия больших визуально-языковых моделей — это не столько приближение к истине, сколько искусно выстроенная иллюзия. Би-направленные ограничения KL и программное конструирование данных — лишь временные заклинания, работающие до тех пор, пока реальность не предъявит свои счеты. Вопрос в том, как долго можно обманывать хаос, прежде чем он обернется против нас.

Истинная проблема, как всегда, кроется не в улучшении “точности”, а в понимании пределов самой репрезентации. Какова цена упрощения визуального мира? Не приведёт ли более избирательное восприятие к ещё большей хрупкости этих моделей, к их неспособности адаптироваться к непредсказуемости реальных данных? Следующим шагом видится не просто увеличение объёма данных или усложнение архитектур, а поиск способов включить в процесс обучения элемент случайности, элемент признания собственного незнания.

В конечном счёте, стоит помнить: любая модель — это лишь проекция, искажение реальности. И задача исследователя — не создать идеальную копию мира, а научиться жить с его несовершенством, научиться извлекать смысл из шума, не пытаясь его заглушить. Иначе, все эти ухищрения окажутся лишь красивой обёрткой для пустой коробки.


Оригинал статьи: https://arxiv.org/pdf/2512.22120.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-30 02:26