Визуальный интеллект: новая эра понимания графиков

Автор: Денис Аветисян


Представлен комплексный подход к созданию данных для обучения моделей, способных к сложному анализу визуальной информации.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Автоматизированный конвейер ChartM3 последовательно генерирует диаграммы, начиная с формулирования вопросов и извлечения подходящих шаблонов из базы данных с использованием RAG, а затем переходя к кодогенерации структурированных данных, рендеринга и синтезу аналитического кода для создания пар вопросов и ответов, требующих многоступенчатого визуального рассуждения, и завершая процесс всесторонней оценкой качества и сложности данных на основе модельного анализа.
Автоматизированный конвейер ChartM3 последовательно генерирует диаграммы, начиная с формулирования вопросов и извлечения подходящих шаблонов из базы данных с использованием RAG, а затем переходя к кодогенерации структурированных данных, рендеринга и синтезу аналитического кода для создания пар вопросов и ответов, требующих многоступенчатого визуального рассуждения, и завершая процесс всесторонней оценкой качества и сложности данных на основе модельного анализа.

Исследователи разработали ChartM3 – конвейер и набор данных для создания многомерных и многошаговых задач визуального рассуждения при анализе графиков, направленный на улучшение возможностей больших мультимодальных языковых моделей.

Несмотря на успехи мультимодальных больших языковых моделей, их способность к сложному анализу графиков ограничена недостатком разнообразных и реалистичных обучающих данных. В данной работе представлена система ‘ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension’ – автоматизированный конвейер для генерации датасетов визуального рассуждения, использующий подход, основанный на коде, и стратегию chain-of-thought. Разработанный датасет ChartM$^3$, включающий 38 тысяч графиков и 142 тысячи вопросов-ответов, значительно улучшает способность моделей к обобщению и решению сложных задач анализа графиков. Способны ли подобные датасеты стать основой для создания более интеллектуальных систем, способных эффективно интерпретировать и использовать информацию, представленную в визуальной форме?


Визуальный Анализ: Преодолевая Границы Понимания

Современные мультимодальные большие языковые модели (MLLM) демонстрируют ограниченные возможности в понимании сложных графиков, снижая их аналитический потенциал. Несмотря на прогресс, обработка визуальной информации, требующая логического анализа, остаётся сложной задачей. Существующие наборы данных, такие как ChartQA и PlotQA, недостаточны для полноценной оценки глубины рассуждений моделей.

ChartM3 охватывает девять основных категорий типов диаграмм, включающих в общей сложности 62 подкатегории, что позволяет оценить производительность различных многомодальных больших языковых моделей (MLLM) в различных задачах.
ChartM3 охватывает девять основных категорий типов диаграмм, включающих в общей сложности 62 подкатегории, что позволяет оценить производительность различных многомодальных больших языковых моделей (MLLM) в различных задачах.

Ключевым препятствием является неспособность моделей к многоступенчатым рассуждениям, основанным на коде. Разработка алгоритмов, способных к последовательному анализу и формулированию логических выводов, является важным направлением исследований.

ChartM3: Конвейер для Генерации Сложных Данных

Представлен ChartM3 – многоступенчатый конвейер, управляемый кодом, для создания сложных наборов данных, оценивающих понимание диаграмм. Конвейер обеспечивает автоматизированное формирование разнообразных визуальных представлений и связанных с ними вопросов. В основе ChartM3 лежит база данных шаблонов диаграмм и технология Retrieval-Augmented Generation (RAG), генерирующая широкий спектр шаблонов.

База данных ChartM3Template содержит примеры шаблонов диаграмм, используемых для оценки и обучения моделей.
База данных ChartM3Template содержит примеры шаблонов диаграмм, используемых для оценки и обучения моделей.

Для повышения сложности задач интегрирована логика Long Chain-of-Thought (CoT). Итоговый набор данных включает 38.4 тысячи диаграмм и 142 тысячи пар «вопрос-ответ», предоставляя масштабный ресурс для обучения и оценки моделей.

Обеспечение Качества Данных и Валидация Рассуждений

Для обеспечения высокого качества данных, сгенерированные диаграммы и вопросы подвергаются строгой фильтрации с использованием выполнения кода. Этот процесс верифицирует ответы и подтверждает логические цепочки рассуждений. Выполнение сгенерированного кода позволяет оценить корректность решений и выявить ошибочные вопросы, предоставляя эталонную истину для оценки MLLM.

В ходе анализа результатов оценки ChartM3, модель, обученная с использованием CoT-SFT, успешно анализирует медианы по категориям в процессе рассуждения и выдает правильный рейтинг, в отличие от GPT-4o и базовой модели, предоставивших неверные ответы.
В ходе анализа результатов оценки ChartM3, модель, обученная с использованием CoT-SFT, успешно анализирует медианы по категориям в процессе рассуждения и выдает правильный рейтинг, в отличие от GPT-4o и базовой модели, предоставивших неверные ответы.

Разработанный набор данных включает тщательно проверенную коллекцию из 2871 образца для решения сложных задач понимания диаграмм, поддерживая продвинутые задачи рассуждения, включая сравнение нескольких диаграмм.

Оптимизация Рассуждений: Обучение с Подкреплением и Тонкая Настройка

Представленная работа демонстрирует эффективность ChartM3 в контролируемой тонкой настройке (Supervised Fine-tuning) MLLM Qwen-VL, значительно улучшив её способности к пониманию графиков. Результаты показывают прирост производительности в 7.60% и 15.0% по сравнению с моделями Qwen2.5-VL-3B и LLaVA-OV-7B на бенчмарке ReachQA. Для дальнейшей оптимизации использовано обучение с подкреплением (Reinforcement Learning) с моделью вознаграждения, достигнув улучшения в 7.4% на ChartM3. Использование CoT-SFT позволило модели Claude 3.5 Sonnet достичь точности в 66.18% на тестовом наборе.

При оценке сценариев с несколькими диаграммами, GPT демонстрирует ограничения в межграфическом анализе, неверно ссылаясь на данные из первого графика при анализе роста возобновляемой энергии с 2000 по 2020 год, в то время как модель, обученная с использованием CoT-SFT, правильно определяет уровень возобновляемой энергии в 2020 году ниже 1500 единиц, обеспечивая более точный прогноз по сравнению с Claude 3.5 Sonnet.
При оценке сценариев с несколькими диаграммами, GPT демонстрирует ограничения в межграфическом анализе, неверно ссылаясь на данные из первого графика при анализе роста возобновляемой энергии с 2000 по 2020 год, в то время как модель, обученная с использованием CoT-SFT, правильно определяет уровень возобновляемой энергии в 2020 году ниже 1500 единиц, обеспечивая более точный прогноз по сравнению с Claude 3.5 Sonnet.

ChartM3 представляет собой не только сложный набор данных для оценки, но и открывает путь к созданию более надёжных и интеллектуальных систем визуального рассуждения.

Исследование, представленное в статье, демонстрирует стремление к созданию структурированных данных для обучения моделей визуального мышления. Этот подход находит отклик в словах Фэй-Фэй Ли: “Искусственный интеллект должен быть направлен на расширение возможностей человека, а не на его замену.” Создание датасета ChartM3, как и вся работа, направлена на улучшение способности машин понимать сложные визуальные данные и рассуждать на их основе, что является важным шагом к созданию более интеллектуальных и полезных систем. Многоступенчатый процесс генерации данных, описанный в статье, позволяет создавать сложные сценарии, требующие от моделей глубокого анализа и логических выводов. Это способствует развитию не просто распознавания образов, а именно способности к рассуждению, что соответствует главной цели — расширению возможностей человека с помощью искусственного интеллекта.

Что впереди?

Представленный подход, хоть и демонстрирует возможности автоматизированного построения данных для оценки визуального мышления, всё же оставляет ряд вопросов нерешенными. Очевидно, что синтетические данные, какими бы сложными они ни были, не могут полностью отразить всю многогранность реальных графиков и диаграмм, встречающихся в естественной среде. Внимательно проверяйте границы данных, чтобы избежать ложных закономерностей, ведь кажущаяся сложность алгоритма генерации не гарантирует истинной репрезентативности.

Перспективы развития лежат в плоскости более глубокой интеграции с реальными данными и активного обучения. Необходимо исследовать, как можно использовать небольшие объемы размеченных реальных данных для уточнения и корректировки параметров генерации, а также для выявления и устранения систематических ошибок. Интересным направлением представляется разработка алгоритмов, способных оценивать «правдоподобность» сгенерированных графиков, основываясь на статистических свойствах реальных данных.

В конечном счете, задача состоит не в создании всё более сложных наборов синтетических данных, а в разработке моделей, способных к истинному пониманию визуальной информации. Иными словами, необходимо сместить акцент с «количества» на «качество» – от количества шагов в логической цепочке к глубине и осмысленности самого мышления. Понимание системы – это исследование её закономерностей, а не просто их имитация.


Оригинал статьи: https://arxiv.org/pdf/2511.02415.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-05 11:02