Зрение сквозь сжатие: как нейросети понимают изображения с потерями

Автор: Денис Аветисян


Новое исследование оценивает возможности современных моделей «зрение-язык» в обработке сжатых изображений и предлагает решение для повышения их эффективности.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Потеря производительности VLM, вызванная сжатием изображений, успешно компенсируется предложенным методом, что подтверждается улучшением метрики BD, демонстрирующим эффективность подхода в сохранении качества визуальных представлений.
Потеря производительности VLM, вызванная сжатием изображений, успешно компенсируется предложенным методом, что подтверждается улучшением метрики BD, демонстрирующим эффективность подхода в сохранении качества визуальных представлений.

Представлен комплексный бенчмарк для оценки моделей «зрение-язык» на сжатых изображениях, выявлены причины снижения производительности и разработан адаптер для улучшения результатов.

Несмотря на стремительное развитие мультимодальных моделей «зрение-язык» (VLM), их способность эффективно интерпретировать сжатые изображения остается малоизученной проблемой. В работе «Benchmarking and Enhancing VLM for Compressed Image Understanding» представлен всесторонний бенчмарк для оценки производительности VLM при обработке изображений, сжатых различными кодеками, а также анализ причин снижения качества интерпретации. Выявлено, что основной фактор — не потеря информации при сжатии, а недостаточная обобщающая способность моделей, что позволило разработать универсальный адаптер, повышающий производительность на 10-30


Пределы Возможностей Мультимодальных Моделей

Современные модели, объединяющие зрение и язык, демонстрируют впечатляющие результаты в решении широкого спектра задач, однако их способности к тонкому визуальному анализу и пониманию композиции изображений остаются ограниченными. Несмотря на способность распознавать объекты и общие сцены, модели часто испытывают трудности с интерпретацией сложных взаимосвязей между элементами изображения, а также с пониманием контекста и скрытых смыслов. Например, определение намерений персонажей на фотографии или понимание причинно-следственных связей между объектами требуют более глубокого анализа, чем простое распознавание объектов, что представляет собой серьезную проблему для существующих моделей. Это ограничение особенно заметно при решении задач, требующих логического вывода на основе визуальной информации, или при интерпретации неоднозначных изображений, где требуется учитывать различные факторы и контекст.

Несмотря на постоянное увеличение масштаба и сложности моделей, объединяющих зрение и язык, обнаруживается существенный пробел в обобщающей способности этих систем. Исследования показывают, что даже незначительные искажения изображений — будь то небольшое размытие, изменение освещения или добавление шума — способны значительно ухудшить производительность моделей. Этот феномен, получивший название “разрыв обобщения”, указывает на то, что модели, хорошо работающие на чистых, идеальных изображениях, испытывают трудности с обработкой реальных, часто несовершенных визуальных данных. Проблема особенно актуальна в контексте практического применения, где изображения могут быть получены в различных условиях и подвержены различным артефактам, что снижает надежность и точность работы моделей.

Традиционные методы сжатия изображений, направленные на уменьшение размера файлов, часто приводят к появлению артефактов, которые усугубляют проблему обобщения для моделей, работающих с визуальной информацией и языком. Эти артефакты, возникающие при сжатии, искажают визуальные детали и вводят неточности, значительно снижая точность работы моделей при распознавании объектов и понимании сцен. Степень ухудшения производительности может быть существенной, что особенно критично для приложений, работающих в условиях ограниченных ресурсов, например, на мобильных устройствах или в системах с низкой пропускной способностью сети. Таким образом, оптимизация сжатия изображений с учетом особенностей работы моделей компьютерного зрения становится важной задачей для обеспечения их надежной и эффективной работы в реальных условиях.

Сравнение четырех методов сжатия изображений показывает, что любые искажения, вызванные сжатием, негативно влияют на способность визуальных языковых моделей (VLM) к их пониманию, что подтверждается снижением точности ответов на вопросы.
Сравнение четырех методов сжатия изображений показывает, что любые искажения, вызванные сжатием, негативно влияют на способность визуальных языковых моделей (VLM) к их пониманию, что подтверждается снижением точности ответов на вопросы.

Потеря Информации и Узкое Горлышко Сжатия

Методы сжатия изображений, такие как JPEG, ELIC и DiffEIC, по своей природе вносят ‘информационный разрыв’ — необратимую потерю деталей. Этот разрыв возникает из-за применения алгоритмов квантования и дискретизации, которые отбрасывают часть визуальной информации для уменьшения размера файла. В отличие от сжатия без потерь, где данные могут быть полностью восстановлены, данные, потерянные при сжатии с потерями, не могут быть точно воссозданы, даже при декомпрессии. Степень потери информации зависит от выбранного алгоритма сжатия, уровня сжатия и характеристик исходного изображения. В результате, декомпрессированное изображение содержит меньше деталей, чем оригинал, что может привести к ухудшению производительности моделей компьютерного зрения, требующих точного анализа визуальных данных.

Потеря информации, возникающая при сжатии изображений, непосредственно влияет на производительность визуальных языковых моделей (VLM). Это проявляется в ошибках при решении задач, требующих точного понимания визуальных деталей, таких как распознавание мелких объектов, анализ текстур или определение точных границ объектов. В частности, VLM могут испытывать трудности с интерпретацией изображений, где важные детали были утеряны в процессе сжатия, что приводит к снижению точности и надежности результатов. Эффект усугубляется в задачах, требующих высокой степени детализации и точного визуального анализа.

Степень влияния сжатия изображений на производительность визуальных языковых моделей (VLM) может быть количественно оценена с использованием метрики BD-Metric. Наши результаты демонстрируют улучшение более чем на 12 единиц BD-Metric для модели Qwen-Chat-7B при использовании адаптера, компенсирующего потери от JPEG-сжатия. Важно отметить, что увеличение размера модели не всегда приводит к пропорциональному снижению деградации, вызванной сжатием, что указывает на отклонение от линейного масштабирования и необходимость разработки специализированных методов для минимизации потерь информации при сжатии изображений.

Сравнение различных визуальных языковых моделей (ВЯМ) и методов сжатия на базе набора данных SEEDBench показало, что выбор ВЯМ и метода сжатия существенно влияет на производительность, при этом оптимальная комбинация зависит от конкретной задачи.
Сравнение различных визуальных языковых моделей (ВЯМ) и методов сжатия на базе набора данных SEEDBench показало, что выбор ВЯМ и метода сжатия существенно влияет на производительность, при этом оптимальная комбинация зависит от конкретной задачи.

Смягчение Артефактов Сжатия: Легкий Адаптер

Адаптер VLM представляет собой перспективное решение для повышения устойчивости визуальных языковых моделей (VLM) к изображениям, подвергшимся сжатию, без необходимости трудоемкой переподготовки модели. Данный адаптер функционирует как дополнительный модуль, который можно интегрировать с существующими VLM, такими как Qwen-VL2.5-3B и InternVL3-1B, для улучшения их способности к обработке сжатых изображений. В отличие от методов, требующих полной переподготовки модели на сжатых данных, адаптер VLM позволяет добиться повышения надежности и точности VLM при работе со сжатыми изображениями, используя уже обученные веса модели и минимальное количество новых параметров.

Адаптер VLM эффективно работает с моделями визуального понимания языка (VLM) с открытым исходным кодом, такими как Qwen-VL2.5-3B и InternVL3-1B, демонстрируя улучшение их производительности при обработке сжатых изображений. Экспериментальные данные показывают, что применение данного адаптера приводит к повышению точности понимания изображений, сжатых различными кодеками, в диапазоне от 10

Адаптер VLM решает проблему “разрыва обобщения”, позволяя визуальным языковым моделям (VLM) сохранять высокую точность при работе со значительно сжатыми изображениями. Это достигается за счет повышения устойчивости VLM к артефактам сжатия без необходимости масштабного переобучения модели. В результате, адаптер позволяет создавать эффективные и надежные приложения, способные корректно обрабатывать изображения, сжатые различными кодеками, даже при существенной степени сжатия, что особенно важно для приложений с ограниченными ресурсами или высокой пропускной способностью.

Визуализация демонстрирует производительность различных VLM-моделей по всем метрикам при различных уровнях искажений сжатия.
Визуализация демонстрирует производительность различных VLM-моделей по всем метрикам при различных уровнях искажений сжатия.

Подтверждение Надежности на Разнообразных Бенчмарках

Для всесторонней оценки эффективности разработанного VLM-адаптера использовался широкий спектр авторитетных бенчмарков, включающий MMBench, COCO-Caption, POPE, SEEDBench и GQA. Данные наборы данных позволили провести детальный анализ производительности модели в различных задачах, охватывающих как генерацию описаний изображений, так и обнаружение объектов и визуальное рассуждение. Использование этих разнообразных бенчмарков гарантирует объективную и всестороннюю оценку возможностей адаптера в реальных сценариях применения, подтверждая его надежность и универсальность.

Исследования показали заметное повышение точности и устойчивости системы в различных задачах, включая генерацию подписей к изображениям, обнаружение объектов и визуальное рассуждение. В частности, адаптер продемонстрировал способность более корректно интерпретировать визуальную информацию и генерировать более точные и осмысленные описания, а также надежно выявлять и классифицировать объекты на изображениях. Улучшения в области визуального рассуждения позволяют системе делать более обоснованные выводы и отвечать на сложные вопросы, связанные с содержанием изображений, что свидетельствует о значительном прогрессе в понимании и обработке визуальных данных.

Полученные результаты подтверждают способность адаптера сохранять высокую производительность визуальных языковых моделей (VLM) даже при работе со сжатыми изображениями. Это особенно важно для развертывания VLM в условиях ограниченных ресурсов, например, на мобильных устройствах или в системах с низкой пропускной способностью сети. Сохранение точности и надежности при сжатии изображений открывает возможности для эффективного использования VLM в широком спектре приложений, включая обработку изображений в реальном времени, автоматическое создание описаний для визуального контента и системы визуального поиска, где скорость и эффективность являются ключевыми факторами.

Наши результаты показывают улучшение субъективных оценок POPE и SEEDBench по сравнению со стандартными VLM моделями.
Наши результаты показывают улучшение субъективных оценок POPE и SEEDBench по сравнению со стандартными VLM моделями.

Исследование, представленное в данной работе, демонстрирует критическую важность математической строгости в области vision-language models. Авторы выявляют существенные расхождения в производительности моделей при работе со сжатыми изображениями, что напрямую связано с потерей информации. Этот феномен подчеркивает необходимость в алгоритмах, способных эффективно восстанавливать утерянные данные и поддерживать высокую точность. Как заметила Фэй-Фэй Ли: «Искусственный интеллект — это не магия, а математика». Данное утверждение находит полное подтверждение в необходимости адаптации моделей к различным методам сжатия, требующей глубокого понимания математических принципов, лежащих в основе как vision-language моделей, так и алгоритмов сжатия. Предложенный авторами lightweight adaptor — это практическое воплощение математической дисциплины, направленное на преодоление обобщающего пробела и повышение perceptual quality обработки сжатых изображений.

Куда Далее?

Представленная работа, хоть и демонстрирует необходимость адаптации моделей «зрение-язык» к условиям сжатия изображений, лишь обнажает глубину проблемы. Идея о «разрыве обобщения» и «информационном разрыве» — не более чем констатация очевидного факта: любая потеря информации — это потенциальная ошибка, и наивная экстраполяция знаний, полученных на несжатых данных, обречена на провал. Легковесный адаптер — это, безусловно, прагматичное решение, но оно напоминает попытку заделать брешь в дамбе горстью песка.

Истинный прогресс требует более фундаментального подхода. Необходимо исследовать, какие именно признаки изображений наиболее критичны для поддержания адекватного взаимодействия с языком после сжатия. Недостаточно просто восстанавливать пиксели; требуется сохранять семантическую целостность, а это — задача, требующая понимания принципов восприятия и кодирования информации мозгом. Иначе, мы обречены на бесконечную гонку за улучшением алгоритмов адаптации, не решая проблему в корне.

Следующим шагом видится разработка моделей, изначально устойчивых к потерям информации. Возможно, стоит обратить внимание на принципы разреженного представления данных, позволяющие выделить наиболее значимые признаки и отбросить избыточные. Или, быть может, стоит переосмыслить саму концепцию «понимания» изображений, отказавшись от попыток построить точные копии реальности и сосредоточившись на выделении абстрактных закономерностей. Ведь элегантность — в простоте, а истина — в математической чистоте.


Оригинал статьи: https://arxiv.org/pdf/2512.20901.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-28 01:26