Зрение машин: как программирование помогает понимать изображения

Автор: Денис Аветисян

Новый подход позволяет моделям искусственного интеллекта использовать код как инструмент для более точного и гибкого анализа визуальной информации.

В ходе обучения и развертывания модели CodeVision наблюдается тройное преимущество, позволяющее оптимизировать процесс: повышение эффективности, снижение вычислительных затрат и улучшение общей производительности, что демонстрирует её значительный вклад в область машинного обучения.

В статье представлена платформа CodeVision, позволяющая мультимодальным большим языковым моделям использовать код в качестве инструмента для визуального мышления, повышения устойчивости к искажениям изображений и решения сложных задач.

Несмотря на успехи мультимодальных больших языковых моделей в обработке изображений, их способность к надежному и гибкому визуальному мышлению остается ограниченной. В работе «Thinking with Programming Vision: Towards a Unified View for Thinking with Images» предложен фреймворк CodeVision, использующий код в качестве универсального инструмента для визуального рассуждения, что позволяет преодолеть хрупкость моделей при изменении ориентации изображений и повысить эффективность решения сложных задач. Этот подход демонстрирует значительное улучшение производительности и позволяет моделям осваивать такие навыки, как составление цепочек инструментов, эффективное их применение и восстановление после ошибок. Какие новые перспективы открываются для развития искусственного интеллекта, способного к гибкому и надежному визуальному мышлению, подобному человеческому?

Хрупкость Визуального Восприятия: Уязвимость MLLM к Ориентации

Несмотря на значительный прогресс в области многомодального понимания, современные мультимодальные большие языковые модели (MLLM) демонстрируют удивительную хрупкость при столкновении даже с незначительными искажениями изображений. Исследования показывают, что незначительные изменения, такие как небольшие повороты или отражения, способны существенно повлиять на способность модели правильно интерпретировать визуальную информацию и давать точные ответы. Данная уязвимость указывает на то, что, несмотря на впечатляющие достижения в обработке данных, текущие подходы к визуальному рассуждению остаются недостаточно устойчивыми к незначительным изменениям входных данных, что ставит под вопрос надежность и практическую применимость этих моделей в реальных условиях.

Современные мультимодальные большие языковые модели (MLLM) демонстрируют неожиданную уязвимость к изменениям ориентации изображений, таким как повороты и отражения. Исследования показывают, что даже незначительные изменения в положении объекта на картинке могут существенно снизить способность модели к точному рассуждению и интерпретации визуальной информации. Этот феномен указывает на то, что MLLM, несмотря на впечатляющие успехи в понимании мультимодальных данных, все еще испытывают трудности с базовой пространственной ориентацией и не способны надежно извлекать смысл из изображений, подвергшихся простым геометрическим преобразованиям. Данная особенность подчеркивает необходимость разработки более устойчивых и надежных алгоритмов визуального рассуждения, способных справляться с вариациями в представлении визуальных данных.

Хрупкость восприятия изображений, проявляющаяся в уязвимости современных мультимодальных больших языковых моделей (MLLM) к даже незначительным изменениям ориентации, указывает на существенный пробел в их способности к визуальному мышлению. Исследования показывают, что простые повороты или отражения изображений могут существенно снизить точность ответов этих моделей, ставя под сомнение надежность текущих подходов к обработке визуальной информации. Эта чувствительность к ориентации подчеркивает, что MLLM зачастую полагаются на поверхностные признаки изображений, а не на глубокое понимание объектов и их взаимосвязей, что ограничивает их способность к обобщению и адаптации к новым, незнакомым ситуациям. Таким образом, преодоление этой хрупкости является ключевой задачей для создания действительно надежных и интеллектуальных систем искусственного интеллекта.

Несмотря на успешное обнаружение и вырезку целевого текста, модель продемонстрировала неэффективность, выделив слишком широкую и длинную область, что указывает на необходимость улучшения точности определения границ.

Инструментальное Расширение Рассуждений: Управление Визуальными Данными

В рамках подхода Tool-Augmented Reasoning (TAR) многомодальные большие языковые модели (MLLM) активно воздействуют на визуальные входные данные посредством набора инструментов обработки изображений. В отличие от стандартных MLLM, которые пассивно принимают изображения, TAR предполагает динамическое изменение визуальной информации перед этапом рассуждений. Это достигается путем активного использования инструментов для корректировки изображений, улучшения их качества или изменения представления, что позволяет модели более эффективно извлекать и обрабатывать информацию из визуального контента. TAR позволяет MLLM выходить за рамки простой интерпретации изображений и переходить к активному управлению визуальными данными для повышения точности и надежности рассуждений.

Подход, использующий инструментальное расширение рассуждений, позволяет моделям корректировать проблемные вариации изображений, такие как ориентация, до этапа логического вывода. Это позволяет обойти присущую стандартным многомодальным большим языковым моделям (MLLM) хрупкость, проявляющуюся в чувствительности к незначительным изменениям входных данных. Предварительная нормализация изображений, включающая поворот, масштабирование или выравнивание, повышает устойчивость модели к вариациям представления одного и того же визуального объекта, обеспечивая более надежные результаты рассуждений даже при неидеальных входных данных.

В основе данного подхода лежит концепция “Код как Инструмент” (Code-as-Tool), представляющая собой фреймворк, позволяющий большой мультимодальной модели (MLLM) динамически генерировать программный код для выполнения операций над изображениями. Этот код, написанный на языке программирования, таком как Python, служит для вызова функций обработки изображений, например, поворота, изменения масштаба или коррекции освещения. MLLM, таким образом, выступает не только как потребитель визуальной информации, но и как активный манипулятор ею, используя сгенерированный код для предварительной обработки входных данных перед этапом рассуждений. Данная возможность позволяет модели самостоятельно корректировать дефекты или вариации изображений, повышая устойчивость и точность ответов.

Модель продемонстрировала способность к обобщению, самостоятельно объединив инструменты улучшения контрастности и преобразования в оттенки серого для выполнения запроса пользователя, несмотря на отсутствие этих инструментов в обучающей выборке.

MVToolBench: Эталон для Композиционного Использования Инструментов

Представляем MVToolBench — новый бенчмарк, разработанный для оценки способности моделей координировать использование нескольких инструментов последовательно для решения сложных задач визуального рассуждения. В отличие от существующих бенчмарков, фокусирующихся на использовании одного инструмента, MVToolBench требует от моделей планирования и выполнения цепочки действий с различными инструментами, что имитирует более реалистичные сценарии решения задач. Бенчмарк предназначен для оценки не только способности модели вызывать инструменты, но и способности определять оптимальную последовательность их применения для достижения желаемого результата. Он позволяет оценить, насколько эффективно модель может анализировать визуальную информацию, определять необходимые шаги и оркестрировать работу инструментов для выполнения сложных задач.

MVToolBench использует в качестве основы набор данных HierText и расширяет его, интегрируя разнообразный инструментарий. Включенные инструменты охватывают базовые операции обработки изображений, такие как обрезка (Crop Tool) и коррекция ориентации, а также более сложные функции, необходимые для решения задач визуального рассуждения. Этот набор инструментов позволяет оценивать способность модели не просто использовать отдельные инструменты, но и эффективно комбинировать их для достижения оптимальных результатов в контексте сложных задач.

В основе MVToolBench лежит оценка не просто способности модели использовать отдельные инструменты, а её умения стратегически комбинировать их для достижения оптимальных результатов в решении сложных задач визуального рассуждения. Этот акцент на композиции инструментов отличает MVToolBench от существующих бенчмарков. В ходе тестирования фреймворк CodeVision продемонстрировал передовые результаты, достигнув показателя в 60.1 по данной метрике, что подтверждает эффективность предложенного подхода к оценке.

Постоянный рост точности на бенчмарках OCRBench, ChartQAPro и MVToolBench в процессе обучения с подкреплением указывает на то, что модель еще не достигла насыщения и может выиграть от дальнейшего увеличения объема данных и задач.

Расширение Возможностей: Универсальный Инструментарий

Разработанная структура «Код как инструмент» обеспечивает бесшовную интеграцию разнообразных инструментов, выходящих за рамки стандартного набора MVToolBench. Это позволяет применять специализированные бенчмарки для решения широкого спектра задач, включая распознавание печатного текста посредством OCRBench, анализ графиков с помощью ChartQAPro, выполнение задач общего визуального рассуждения, реализуемых в V*, и даже взаимодействие человека с роботом через HRBench. Такой подход значительно расширяет возможности системы, позволяя ей адаптироваться к новым типам визуальных проблем и эффективно решать их, используя наиболее подходящие инструменты из доступного арсенала.

В основе подхода лежит концепция представления любой визуальной задачи как последовательности вызовов специализированных инструментов. Вместо разработки отдельных алгоритмов для каждой проблемы, система рассматривает решение как оркестровку доступных инструментов, каждый из которых предназначен для выполнения определенной подзадачи. Это позволяет создать универсальный интерфейс для визуального анализа, где сложные задачи разбиваются на простые, решаемые с помощью отдельных «инструментов». Такой подход не только упрощает процесс разработки и отладки, но и обеспечивает гибкость и расширяемость системы, позволяя легко добавлять новые инструменты и адаптироваться к новым типам визуальных задач. В результате, система способна решать широкий спектр задач, от распознавания текста на изображениях до понимания графиков и взаимодействия с роботами, используя единый, унифицированный подход к визуальному решению проблем.

В основе расширяемости предложенного инструментария лежит использование плотной функции вознаграждения, стимулирующей эффективный выбор последовательности инструментов и наказывающей за неэффективные действия. Внедрение “награды за стратегию” способствует оптимальному планированию решения задач, а “штрафы за ограничения” предотвращают нерациональное использование ресурсов. Результаты показывают значительное улучшение производительности: предложенный подход почти удваивает показатель Gemini2.5-Pro на платформе MVToolBench, достигая 60.1 балла против 32.6, и демонстрирует прирост в 17.4% на OCRBench (с трансформациями) по сравнению с базовыми моделями. Таким образом, разработанная система не только расширяет возможности решения визуальных задач, но и обеспечивает более рациональное и эффективное использование доступных инструментов.

Обучение с подкреплением показывает, что агент успешно осваивает стратегическое использование инструментов для решения задач, о чём свидетельствует устойчивый рост общей и промежуточной награды.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем, способных к более надежному и гибкому визуальному мышлению. Авторы подчеркивают, что использование кода в качестве инструмента позволяет преодолеть хрупкость моделей перед искажениями изображений и повысить их способность к решению сложных задач. В контексте этого подхода, слова Джеффри Хинтона приобретают особую значимость: «Я думаю, что в конечном итоге мы сможем создавать системы, которые будут учиться, как люди, и которые смогут решать проблемы, которые мы даже не можем представить». Эта цитата отражает веру в потенциал искусственного интеллекта, способного к настоящему пониманию и адаптации, что является ключевой целью разработки CodeVision и подобных фреймворков.

Куда же дальше?

Представленный подход, хотя и демонстрирует определенную устойчивость к дефектам изображений, всё же оставляет открытым вопрос о фундаментальной надежности. Доказательство устойчивости к любым искажениям — задача, требующая не просто эмпирических наблюдений, но и строгой математической формализации. Иначе говоря, не достаточно показать, что система работает на предложенном наборе тестов; необходимо доказать, что она будет работать всегда, в любой возможной ситуации.

Использование кода как инструмента представляется элегантным решением, однако истинная сила заключается не в простом использовании, а в возможности автоматического доказательства корректности этого использования. Следующим шагом видится разработка формальных методов верификации, гарантирующих, что сгенерированный код действительно решает поставленную задачу и не содержит скрытых ошибок. Без этого, мы имеем дело лишь с более сложной, но не более надежной системой.

В конечном итоге, задача визуального рассуждения сводится к задаче логического вывода. Искусственный интеллект, претендующий на интеллектуальное превосходство, должен уметь не просто “видеть” и “действовать”, но и объяснять свои действия с математической точностью. В противном случае, это всего лишь сложная имитация, лишенная истинной глубины.

Оригинал статьи: https://arxiv.org/pdf/2512.03746.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-04 22:11

🚀 Квантовые новости