Автор: Денис Аветисян
Исследователи представили RealChart2Code — масштабный набор данных и методику оценки, позволяющие проверить способность искусственного интеллекта интерпретировать сложные визуализации.

Представлен RealChart2Code — новый бенчмарк для оценки больших языковых моделей в задачах генерации кода на основе данных визуализации, выявляющий существенные ограничения современных систем.
Несмотря на впечатляющие успехи моделей «зрение-язык» в генерации кода, их способность воспроизводить сложные визуализации на основе реальных данных оставалась малоизученной. В работе ‘RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation’ представлен новый масштабный бенчмарк, включающий более 2800 примеров, основанных на аутентичных наборах данных и задачах с четко сформулированными аналитическими целями. Полученные результаты демонстрируют существенное снижение производительности ведущих моделей при работе с реальными данными и многопанельными графиками, выявляя разрыв между проприетарными и открытыми моделями. Какие дальнейшие исследования необходимы для преодоления этих ограничений и повышения эффективности моделей в задачах автоматической визуализации данных?
Вызовы Автоматической Визуализации Данных
Несмотря на значительный прогресс в области машинного обучения, автоматическое создание графиков и диаграмм на основе данных остается сложной задачей. Современные алгоритмы часто испытывают трудности при обработке неструктурированных или больших объемов информации, что приводит к созданию неоптимальных или требующих ручной доработки визуализаций. Автоматизация требует не только распознавания типов данных и выбора подходящего графика, но и понимания контекста и целей визуализации, что пока выходит за рамки возможностей большинства существующих систем. Эффективное решение этой проблемы имеет важное значение для облегчения анализа данных и повышения продуктивности специалистов, работающих с информацией.
Традиционные методы автоматической визуализации данных зачастую сталкиваются с трудностями при работе со сложными типами графиков. Вместо полноценной автоматизации, они требуют значительных усилий по ручной настройке и доработке, чтобы добиться желаемой наглядности и точности отображения информации. Это связано с тем, что алгоритмы часто не способны самостоятельно определить оптимальный способ представления данных для сложных взаимосвязей, что приводит к необходимости вмешательства специалиста для корректировки масштаба, цветовой схемы, подписей и других параметров. В результате, несмотря на прогресс в области машинного обучения, создание информативных и эстетически привлекательных визуализаций для сложных наборов данных остается трудоемкой задачей, требующей сочетания автоматизированных инструментов и экспертных знаний.

RealChart2Code: Строгий Бенчмарк для Оценки Систем
RealChart2Code представляет собой масштабный бенчмарк, использующий реалистичные наборы данных, полученные из соревнований Kaggle, для моделирования задач визуализации данных, встречающихся в реальной практике. Наборы данных включают в себя разнообразные типы табличных данных, типичные для анализа данных, и охватывают широкий спектр сценариев, требующих создания визуализаций. Использование данных Kaggle обеспечивает актуальность и сложность задач, приближая их к реальным потребностям специалистов в области анализа данных и визуализации информации. Объем и разнообразие наборов данных позволяют проводить всестороннюю оценку возможностей различных моделей и инструментов в области автоматической генерации кода для визуализации.
RealChart2Code включает в себя два основных типа задач: воспроизведение диаграмм и их уточнение. Воспроизведение диаграмм предполагает генерацию кода, необходимого для создания визуализации по заданному образцу. Уточнение диаграмм, в свою очередь, требует итеративной отладки сгенерированного кода для достижения соответствия целевой визуализации. Этот процесс моделирует реальные сценарии, в которых разработчик или аналитик данных должен не только создать диаграмму, но и исправить ошибки или внести изменения в существующий код для улучшения или адаптации визуализации под новые требования или данные.
Проектирование RealChart2Code делает акцент на всесторонней оценке, охватывая широкий спектр типов диаграмм и уровней сложности. Анализ результатов демонстрирует существенный разрыв в возможностях современных больших языковых моделей (LLM) в контексте реальных задач визуализации данных. Бенчмарк включает в себя диаграммы различной сложности, от простых столбчатых графиков до сложных многомерных визуализаций, что позволяет выявить ограничения LLM в обработке и генерации кода для разнообразных сценариев. Результаты показывают, что LLM часто испытывают трудности с точной интерпретацией визуальных элементов и трансляцией их в функциональный код, особенно при работе с более сложными диаграммами, требующими детального контроля над визуальными параметрами и взаимодействиями.

Большие Языковые Модели как Генераторы Графиков: Возможности и Ограничения
В рамках исследования была проведена оценка производительности больших языковых моделей (LLM) с открытым и закрытым исходным кодом в задаче генерации кода для построения диаграмм. Для оценки использовался датасет RealChart2Code, позволяющий количественно оценить способность моделей преобразовывать визуальные представления данных в исполняемый код. Исследование охватило широкий спектр моделей, включая как коммерческие решения, так и модели с открытым доступом, для выявления сильных и слабых сторон каждой архитектуры в контексте автоматизированной генерации диаграмм.
При генерации кода диаграмм большими языковыми моделями (LLM) часто возникают типичные ошибки. К ним относятся синтаксические ошибки в генерируемом коде, приводящие к невозможности его интерпретации, ошибки сопоставления данных, когда значения, представленные на визуальной диаграмме, некорректно связываются с переменными в коде, и ошибки компоновки, проявляющиеся в неправильном расположении элементов диаграммы или нарушении общей структуры. Эти ошибки указывают на сложность для LLM точного преобразования визуальной информации в корректный и функциональный программный код.
В ходе тестирования на наборе данных RealChart2Code модель Claude-4.5-Opus показала результат 8.2, в то время как Qwen3-VL-235B набрала 3.6. Данное сравнение демонстрирует существенную разницу в производительности между проприетарными и открытыми языковыми моделями при генерации кода для графиков. Разница в 4.6 балла указывает на то, что Claude-4.5-Opus значительно превосходит Qwen3-VL-235B в точности и корректности генерируемого кода, необходимого для визуализации данных.
Наблюдаемые ошибки при генерации кода диаграмм крупными языковыми моделями (LLM) указывают на сложность точной трансляции визуальных представлений данных в корректные программные реализации. LLM испытывают трудности с поддержанием синтаксической точности генерируемого кода, что приводит к ошибкам компиляции или интерпретации. Кроме того, возникают проблемы с сопоставлением данных, когда модель некорректно связывает визуальные элементы диаграммы с соответствующими данными, что приводит к неверному отображению информации. Наконец, LLM часто сталкиваются с трудностями при точном воспроизведении желаемого макета диаграммы, что приводит к несоответствиям между визуальным представлением и сгенерированным кодом.

Надежная Оценка с Использованием Многоагентных Судей и Экспертов-Людей
В рамках исследования была применена многоагентная система оценки, использующая коллектив независимых экспертов для анализа корректности и качества графических представлений данных. Данный подход позволяет преодолеть ограничения, связанные с субъективностью единичной оценки, и обеспечить более надежный и всесторонний анализ. Каждый агент в системе самостоятельно оценивает диаграммы по заданным критериям, а затем результаты агрегируются для формирования итоговой оценки. Такая архитектура не только повышает объективность, но и позволяет выявлять различные аспекты качества, которые могли бы быть упущены при использовании единственного оценщика, что особенно важно для сложных визуализаций и интерпретации данных.
Автоматизированная оценка, проведенная в рамках исследования, продемонстрировала высокую степень согласованности между различными оценочными агентами. Показатель Флейсса Каппа, равный 0.8239, свидетельствует о практически полной уверенности в том, что все автоматизированные судьи оценивают графики единообразно и объективно. Этот результат подтверждает надежность и стабильность системы автоматической оценки, позволяя использовать её для последовательной и беспристрастной проверки качества визуализации данных. Высокий показатель согласованности является ключевым фактором для обеспечения достоверности и реплицируемости результатов анализа, особенно в контексте автоматизированной проверки большого количества графиков.
Исследование демонстрирует высокую степень согласованности между автоматизированной и экспертной оценкой качества графиков. Коэффициент Коэна, достигший значения 0.83, подтверждает, что автоматизированная система способна достоверно воспроизводить суждения, выносимые людьми-экспертами. Такое соответствие указывает на надежность автоматизированного подхода и его потенциал для эффективной и объективной оценки визуализации данных, что особенно важно при работе с большими объемами информации и ограниченными ресурсами для проведения ручной проверки.
Оценка, проводимая экспертами-людьми, играет важную дополняющую роль к автоматизированным метрикам при анализе визуализации данных. В то время как алгоритмы способны объективно измерять точность и соответствие графика заданным критериям, человеческий взгляд позволяет оценить более тонкие аспекты, такие как эстетичность, наглядность и эффективность представления информации. Эксперты могут определить, насколько визуализация привлекательна для восприятия, насколько легко интерпретируются представленные данные и насколько успешно она передает ключевые закономерности. Такой подход позволяет получить комплексную оценку, сочетающую объективные показатели и субъективное восприятие, что особенно важно для создания действительно эффективных и понятных визуализаций.

Исследование RealChart2Code демонстрирует, что даже самые передовые языковые модели сталкиваются с трудностями при интерпретации сложных визуализаций данных, особенно когда речь идет о реальных, а не синтетических данных. Это закономерно. Как однажды заметил Линус Торвальдс: «Плохой дизайн, плохие компромиссы — вот что отличает работающее ПО от красивой теории». Создание надежной системы для генерации кода по диаграммам — это не просто вопрос алгоритмов, а умение смириться с несовершенством входных данных и сложностью реальных сценариев. Оценка моделей на синтетических данных даёт лишь иллюзию прогресса, тогда как настоящая проверка происходит при столкновении с хаосом реального мира и многопанельными макетами.
Что дальше?
Представленная работа, выявляя пропасти между декларациями о всемогуществе больших языковых моделей и их реальной способностью интерпретировать визуальные данные, не столько решает проблему, сколько обнажает её глубину. Эта «RealChart2Code» — не пункт назначения, а лишь маркер на карте, указывающий на неизведанные территории. Системы, способные генерировать код на основе диаграмм, — не инструменты автоматизации, а экосистемы, требующие постоянного ухода и адаптации. Иллюзия идеального решения, способного безупречно обрабатывать любой график, опасна: в таком решении просто не остаётся места для человеческого взгляда, способного обнаружить нюансы и противоречия.
Очевидно, что акцент должен сместиться с простого увеличения объёма обучающих данных на понимание природы этих данных. Сложность не в количестве диаграмм, а в их разнообразии, в неявных предположениях, заложенных в каждой визуализации. Недостаточно научить модель «видеть» столбцы и круги; необходимо научить её распознавать намерения, стоящие за этими формами. Иными словами, необходимо перестать строить системы и начать их выращивать.
Помните: система, которая никогда не даёт сбой, мертва. Сбой — это не ошибка, а акт очищения, сигнал о том, что необходимо пересмотреть архитектуру, переосмыслить предположения. В конечном счёте, ценность исследования заключается не в создании идеального инструмента, а в углублении понимания границ возможного.
Оригинал статьи: https://arxiv.org/pdf/2603.25804.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Внимание в сети: Новый подход к ускорению больших языковых моделей
- Химический синтез под контролем искусственного интеллекта: новые горизонты
- Внимание на границе: почему трансформеры нуждаются в «поглотителях»
- Искусственный нос будущего: как квантовая механика и машинное обучение распознают запахи
- Творческий процесс под микроскопом: от логов к искусственному интеллекту
- Язык тела под присмотром ИИ: архитектура и гарантии
- S-Chain: Когда «цепочка рассуждений» в медицине ведёт к техдолгу.
- Генетическая приоритизация: новый взгляд на отбор генов
- Оптимизация квантовых схем: новый алгоритм для NISQ-устройств
- Квантовый дозор: Новая система обнаружения аномалий для умных сетей
2026-03-30 22:16