Автор: Денис Аветисян
Представлен комплексный подход к созданию данных для обучения моделей, способных к сложному анализу визуальной информации.

Исследователи разработали ChartM3 – конвейер и набор данных для создания многомерных и многошаговых задач визуального рассуждения при анализе графиков, направленный на улучшение возможностей больших мультимодальных языковых моделей.
Несмотря на успехи мультимодальных больших языковых моделей, их способность к сложному анализу графиков ограничена недостатком разнообразных и реалистичных обучающих данных. В данной работе представлена система ‘ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension’ – автоматизированный конвейер для генерации датасетов визуального рассуждения, использующий подход, основанный на коде, и стратегию chain-of-thought. Разработанный датасет ChartM$^3$, включающий 38 тысяч графиков и 142 тысячи вопросов-ответов, значительно улучшает способность моделей к обобщению и решению сложных задач анализа графиков. Способны ли подобные датасеты стать основой для создания более интеллектуальных систем, способных эффективно интерпретировать и использовать информацию, представленную в визуальной форме?
Визуальный Анализ: Преодолевая Границы Понимания
Современные мультимодальные большие языковые модели (MLLM) демонстрируют ограниченные возможности в понимании сложных графиков, снижая их аналитический потенциал. Несмотря на прогресс, обработка визуальной информации, требующая логического анализа, остаётся сложной задачей. Существующие наборы данных, такие как ChartQA и PlotQA, недостаточны для полноценной оценки глубины рассуждений моделей.

Ключевым препятствием является неспособность моделей к многоступенчатым рассуждениям, основанным на коде. Разработка алгоритмов, способных к последовательному анализу и формулированию логических выводов, является важным направлением исследований.
ChartM3: Конвейер для Генерации Сложных Данных
Представлен ChartM3 – многоступенчатый конвейер, управляемый кодом, для создания сложных наборов данных, оценивающих понимание диаграмм. Конвейер обеспечивает автоматизированное формирование разнообразных визуальных представлений и связанных с ними вопросов. В основе ChartM3 лежит база данных шаблонов диаграмм и технология Retrieval-Augmented Generation (RAG), генерирующая широкий спектр шаблонов.

Для повышения сложности задач интегрирована логика Long Chain-of-Thought (CoT). Итоговый набор данных включает 38.4 тысячи диаграмм и 142 тысячи пар «вопрос-ответ», предоставляя масштабный ресурс для обучения и оценки моделей.
Обеспечение Качества Данных и Валидация Рассуждений
Для обеспечения высокого качества данных, сгенерированные диаграммы и вопросы подвергаются строгой фильтрации с использованием выполнения кода. Этот процесс верифицирует ответы и подтверждает логические цепочки рассуждений. Выполнение сгенерированного кода позволяет оценить корректность решений и выявить ошибочные вопросы, предоставляя эталонную истину для оценки MLLM.

Разработанный набор данных включает тщательно проверенную коллекцию из 2871 образца для решения сложных задач понимания диаграмм, поддерживая продвинутые задачи рассуждения, включая сравнение нескольких диаграмм.
Оптимизация Рассуждений: Обучение с Подкреплением и Тонкая Настройка
Представленная работа демонстрирует эффективность ChartM3 в контролируемой тонкой настройке (Supervised Fine-tuning) MLLM Qwen-VL, значительно улучшив её способности к пониманию графиков. Результаты показывают прирост производительности в 7.60% и 15.0% по сравнению с моделями Qwen2.5-VL-3B и LLaVA-OV-7B на бенчмарке ReachQA. Для дальнейшей оптимизации использовано обучение с подкреплением (Reinforcement Learning) с моделью вознаграждения, достигнув улучшения в 7.4% на ChartM3. Использование CoT-SFT позволило модели Claude 3.5 Sonnet достичь точности в 66.18% на тестовом наборе.

ChartM3 представляет собой не только сложный набор данных для оценки, но и открывает путь к созданию более надёжных и интеллектуальных систем визуального рассуждения.
Исследование, представленное в статье, демонстрирует стремление к созданию структурированных данных для обучения моделей визуального мышления. Этот подход находит отклик в словах Фэй-Фэй Ли: “Искусственный интеллект должен быть направлен на расширение возможностей человека, а не на его замену.” Создание датасета ChartM3, как и вся работа, направлена на улучшение способности машин понимать сложные визуальные данные и рассуждать на их основе, что является важным шагом к созданию более интеллектуальных и полезных систем. Многоступенчатый процесс генерации данных, описанный в статье, позволяет создавать сложные сценарии, требующие от моделей глубокого анализа и логических выводов. Это способствует развитию не просто распознавания образов, а именно способности к рассуждению, что соответствует главной цели — расширению возможностей человека с помощью искусственного интеллекта.
Что впереди?
Представленный подход, хоть и демонстрирует возможности автоматизированного построения данных для оценки визуального мышления, всё же оставляет ряд вопросов нерешенными. Очевидно, что синтетические данные, какими бы сложными они ни были, не могут полностью отразить всю многогранность реальных графиков и диаграмм, встречающихся в естественной среде. Внимательно проверяйте границы данных, чтобы избежать ложных закономерностей, ведь кажущаяся сложность алгоритма генерации не гарантирует истинной репрезентативности.
Перспективы развития лежат в плоскости более глубокой интеграции с реальными данными и активного обучения. Необходимо исследовать, как можно использовать небольшие объемы размеченных реальных данных для уточнения и корректировки параметров генерации, а также для выявления и устранения систематических ошибок. Интересным направлением представляется разработка алгоритмов, способных оценивать «правдоподобность» сгенерированных графиков, основываясь на статистических свойствах реальных данных.
В конечном счете, задача состоит не в создании всё более сложных наборов синтетических данных, а в разработке моделей, способных к истинному пониманию визуальной информации. Иными словами, необходимо сместить акцент с «количества» на «качество» – от количества шагов в логической цепочке к глубине и осмысленности самого мышления. Понимание системы – это исследование её закономерностей, а не просто их имитация.
Оригинал статьи: https://arxiv.org/pdf/2511.02415.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Квантовый прыжок: сможем ли мы наконец разгадать тайну сворачивания белков?
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Память как основа разума: новый подход к генерации ответов
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Разделяй и властвуй: Новый подход к классификации текстов
2025-11-05 11:02