Видят ли модели «зрение-язык» цифры?

Автор: Денис Аветисян

Новый бенчмарк MeasureBench проверяет, насколько хорошо ИИ понимает показания измерительных приборов.

Анализ производительности и эффективности различных крупных визуально-языковых моделей демонстрирует, что точность обратно пропорциональна среднему количеству токенов, выявляя неизбежный компромисс между вычислительными затратами и качеством результата.

Исследователи представляют MeasureBench — новый набор данных и эталон для оценки способности моделей понимать визуальные измерения, выявляя слабые места в точном восприятии и числовом мышлении.

Несмотря на успехи в обработке изображений и естественного языка, точное считывание показаний измерительных приборов остается сложной задачей для современных моделей. В работе ‘Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench’ представлен новый бенчмарк MeasureBench и конвейер для синтеза данных, предназначенные для оценки и улучшения способности моделей «зрение-язык» к интерпретации визуальных измерений. Эксперименты показали, что даже самые передовые модели испытывают трудности с точной локализацией индикаторов и последующим извлечением числовых значений, что указывает на фундаментальные ограничения в пространственной привязке. Может ли создание более детализированных и реалистичных наборов данных стать ключом к развитию более точного и надежного визуального восприятия у моделей «зрение-язык»?

Бесполезная Точность: Вызов Интерпретации Аналоговых Приборов

Точная интерпретация показаний аналоговых приборов критически важна в науке и технике, однако представляет значительную проблему для современных систем искусственного интеллекта. Сложность заключается в интеграции визуального восприятия с числовой интерпретацией и разнообразии конструкций приборов. Существующие Визуально-Языковые Модели (VLM) испытывают трудности с тонким визуальным пониманием и числовым рассуждением, достигая лишь 30.3% точности на реальных изображениях и 26.1% на синтетических. Это указывает на ограниченные возможности обобщения и адаптации к новым сценариям.

Анализ примера показал, что зеленый текст соответствует информации, представленной на изображении, в то время как желтый текст указывает на противоречия.

В конечном итоге, каждая попытка автоматизировать измерение лишь фиксирует неизбежные погрешности.

MeasureBench: Новый Эталон для Визуального Рассуждения

Для оценки VLM в задаче считывания показаний с различных измерительных приборов разработан новый эталонный набор данных MeasureBench. Он предназначен для всесторонней проверки способности моделей интерпретировать визуальную информацию. Набор данных включает изображения реальных и синтетически сгенерированных приборов, что обеспечивает надежный и разнообразный тестовый набор. Синтетические данные генерируются с использованием 2D и 3D рендеринга в Blender, позволяя создавать реалистичные изображения с контролируемыми параметрами.

Исследование примеров из реального набора данных MeasureBench выявило, что четыре представленных дизайна часто используются в различных измерительных приборах.

Обучение с Подкреплением: Тонкая Настройка VLM

В рамках MeasureBench для тонкой настройки VLM применяется обучение с подкреплением, управляемое алгоритмом GRPO. Этот подход направлен на улучшение локализации указателей, интерпретации масштаба и распознавания единиц измерения. Модели демонстрируют точность выше 90% в распознавании единиц измерения, однако основная проблема остается извлечением значений. Обучение с подкреплением позволило увеличить точность с 11.0% до 35.2% на синтетическом тестовом наборе.

Предложенный конвейер успешно сгенерировал дополнительные примеры синтетических измерительных приборов.

Импликации и Будущее: За пределами Точности

Разработка MeasureBench продемонстрировала прогресс в интерпретации показаний приборов. Эталон включает разнообразный набор изображений и требует от моделей не только идентификации типа прибора, но и точного определения отображаемого значения. Улучшенные возможности по считыванию показаний приборов имеют прямые применения в автоматизированном контроле качества, удаленном мониторинге и робототехнике. Gemini 2.5 Pro демонстрирует наивысшую точность, достигая 30.3% на реальных изображениях и 30.9% по точности определения значения.

Оценка точности по категориям приборов для различных моделей на реальном подмножестве данных показала различия в производительности между ними.

Будущие исследования сосредоточатся на расширении MeasureBench и изучении возможностей использования еще более продвинутых VLM, таких как Gemini 2.5 Pro и GPT-5. Каждая «революционная» технология завтра станет техдолгом.

Исследование, представленное в статье, неизбежно указывает на узкие места современных vision-language моделей при интерпретации показаний измерительных приборов. Заманчивая теория о всемогуществе больших моделей разбивается о суровую реальность необходимости точного считывания мелких деталей и численных значений. Как метко заметил Эндрю Ын: «Мы часто переоцениваем то, что можем сделать за год, и недооцениваем то, что можем сделать за десять лет.». Создание MeasureBench – это не просто benchmark, это признание того, что даже самые передовые системы далеки от совершенства в области fine-grained visual understanding. Иначе говоря, это очередной пункт в техническом долге, который рано или поздно придётся выплачивать.

Что дальше?

Представленный здесь MeasureBench, как и любой новый бенчмарк, неизбежно станет очередным полем битвы для алгоритмов, а не индикатором реального прогресса. Заманчиво полагать, что улучшение показателей на синтетически сгенерированных изображениях приведёт к пониманию тонкостей визуального восприятия, но история показывает обратное. Каждый «прорыв» в области vision-language моделей лишь добавляет новый слой абстракции, скрывающий фундаментальную неспособность к реальному пониманию. Скорее всего, возникнет гонка по оптимизации под MeasureBench, создавая модели, умеющие читать цифры на искусственных шкалах, но теряющиеся в хаосе реального мира.

Очевидно, что истинная сложность заключается не в распознавании цифр, а в понимании контекста измерения. Какова точность прибора? Какие единицы измерения используются? Эти вопросы требуют не просто визуального восприятия, а знания предметной области – ресурса, который алгоритмам, как правило, не предоставляется. Более того, документация к этим новым моделям, как обычно, останется мифом, созданным менеджерами, а CI – храмом, в котором молятся, чтобы ничего не сломалось.

Поэтому, вероятно, следующее поколение исследований будет направлено на создание ещё более сложных синтетических данных, имитирующих все возможные вариации освещения, угла обзора и шума. Каждая «революционная» технология завтра станет техдолгом. Продакшен всегда найдёт способ сломать элегантную теорию. И в конечном итоге, вопрос остаётся открытым: действительно ли мы стремимся к пониманию, или просто к более совершенным алгоритмам распознавания образов?

Оригинал статьи: https://arxiv.org/pdf/2510.26865.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-04 21:48

🚀 Квантовые новости