Автор: Денис Аветисян
Исследователи выявили слабое место современных мультимодальных моделей в решении научных и инженерных задач и предложили способ усилить их способность понимать визуальную информацию.

Предложена методика, основанная на обучении с использованием кода, и представлен новый бенчмарк STEM2Code-Eval для оценки визуального восприятия в STEM-областях.
Несмотря на успехи мультимодальных больших языковых моделей (MLLM), их эффективность в решении задач STEM-области часто ограничена, что ставит под вопрос первопричину неудач — дефицит перцептивных способностей или ограниченность логического вывода. В работе ‘CodePercept: Code-Grounded Visual STEM Perception for MLLMs’ проведено систематическое исследование, выявившее, что именно перцептивные ограничения являются основным препятствием для MLLM при обработке визуальной информации в STEM-области. Предлагаемый подход основан на использовании кода в качестве мощного перцептивного посредника, что позволило создать масштабный набор данных ICC-1M и новый бенчмарк STEM2Code-Eval для оценки и улучшения визуального понимания. Сможет ли данная методика, основанная на коде, значительно повысить надежность и точность MLLM в решении сложных задач, требующих глубокого понимания визуальной информации в STEM-области?
Визуальное восприятие как узкое место в задачах STEM
Крупные мультимодальные модели (MLLM) демонстрируют существенные трудности в решении задач, требующих глубокого понимания визуальной информации и функциональных взаимосвязей в областях STEM (наука, технология, инженерия и математика). Несмотря на впечатляющие успехи в обработке естественного языка и изображений, эти модели часто не способны адекватно интерпретировать сложные диаграммы, графики и схемы, характерные для научных и инженерных дисциплин. Это проявляется в неспособности правильно увязывать визуальные элементы с соответствующими математическими или физическими принципами, что приводит к ошибкам в решении задач и анализе данных. Существующие подходы, как правило, недостаточно учитывают необходимость точной интерпретации визуальной информации для достижения корректных результатов в STEM-областях, подчеркивая важность дальнейших исследований в этой области.
Ограничение, получившее название “узкое место восприятия”, существенно препятствует способности больших мультимодальных моделей (MLLM) точно интерпретировать диаграммы, графики и другие визуальные представления, критически важные для решения задач в области науки, технологий, инженерии и математики. Эксперименты по масштабированию показали, что улучшение способности моделей к визуальному восприятию последовательно демонстрирует более значительные результаты, чем простое увеличение вычислительных ресурсов, направленное на усиление логического вывода. Это указывает на то, что фундаментальная проблема заключается не в недостатке вычислительной мощности для обработки информации, а в неспособности адекватно извлечь и понять смысл из визуальных данных, что становится главным препятствием на пути к созданию действительно интеллектуальных систем в STEM-областях.
Существующие подходы к интерпретации визуальной информации в задачах STEM часто сталкиваются с проблемой недостаточной связи с исполняемым кодом, что приводит к ошибкам. Вместо того, чтобы проверять логичность визуальных представлений через фактическое выполнение соответствующих операций, многие модели ограничиваются поверхностным анализом. Это означает, что даже если модель правильно идентифицирует элементы на диаграмме или графике, она не способна подтвердить, соответствует ли эта интерпретация реальным физическим или математическим принципам, лежащим в основе визуализации. Невозможность верификации через исполняемый код особенно критична в сложных STEM-задачах, где даже небольшая ошибка в интерпретации визуальной информации может привести к серьезным неточностям в решении. В результате, модели оказываются неспособны к надежному пониманию и использованию визуальных данных в контексте научных и инженерных проблем.
![Анализ масштабирования показывает, что восприятие является узким местом в решении STEM-задач, поскольку увеличение масштаба компонентов восприятия последовательно превосходит увеличение масштаба компонентов рассуждений, как продемонстрировано на моделях Qwen3-VL-Thinking[36] и датасете MathVision[46].](https://arxiv.org/html/2603.10757v1/figure/mathvision_performance_with_labels_1.png)
CodePercept: Основа для логической интерпретации визуальных данных
В основе CodePercept лежит использование кода в качестве промежуточного представления для визуальной информации. Такой подход обеспечивает логическую согласованность и функциональную корректность интерпретации изображений, поскольку код, в отличие от простого текстового описания, требует строгой синтаксической и семантической правильности. Это позволяет системе не только «видеть» объекты на изображении, но и понимать их взаимосвязи и потенциальные действия, которые с ними связаны, что способствует более надежной и точной интерпретации визуального контента. Использование кода как посредника гарантирует, что любые выводы, сделанные на основе изображения, могут быть однозначно проверены и воспроизведены.
В основе CodePercept лежит двунаправленный процесс преобразования между визуальными данными и исполняемым кодом. Используя модели генерации изображений по текстовому описанию (Image Captioning), система преобразует входные изображения в текстовые описания, которые затем используются для генерации кода. В обратном направлении, сгенерированный код может быть использован для воссоздания или визуализации исходного изображения посредством моделей генерации изображений по коду (Code Generation). Данный подход позволяет не только интерпретировать визуальную информацию, но и проверять ее логическую состоятельность через исполнение сгенерированного кода, обеспечивая более надежное и функциональное понимание визуальных данных.
Ключевым преимуществом подхода Code-Grounded Captioning является повышение точности описания изображений за счет сопоставления текстовых описаний с генерируемым исполняемым кодом. В отличие от традиционных методов, где описание формируется непосредственно из визуальных признаков, данный подход обеспечивает логическую согласованность между изображением, его кодовым представлением и текстовым описанием. Если описание не соответствует сгенерированному коду, система автоматически корректирует описание, гарантируя, что оно отражает функциональное содержание изображения и его логическую структуру. Это позволяет значительно снизить количество неточных или вводящих в заблуждение описаний, особенно в сложных визуальных сценах.
Для оптимизации процесса генерации кода в CodePercept используется обучение с подкреплением, в частности, алгоритм GRPO (Guided Reinforcement Policy Optimization). GRPO позволяет итеративно улучшать политику генерации кода, максимизируя вознаграждение, которое определяется корректностью и функциональностью сгенерированного кода при выполнении соответствующих визуальных задач. Алгоритм использует градиенты политики для корректировки параметров модели, направляя генерацию в сторону более эффективных и точных решений. В процессе обучения, GRPO оценивает сгенерированный код на основе его способности выполнять задачи, отраженные во входном визуальном представлении, и использует эту оценку для обновления политики генерации.

STEM2Code-Eval: Эталон для проверки функциональной корректности моделей
STEM2Code-Eval представляет собой эталонный набор данных, предназначенный для оценки возможностей больших мультимодальных языковых моделей (MLLM) в генерации кода, воспроизводящего заданные изображения. В отличие от задач, фокусирующихся исключительно на синтаксической корректности кода, STEM2Code-Eval требует от моделей одновременного понимания визуального контента и способности преобразовать его в функционально эквивалентный код. Это подразумевает не только распознавание объектов и их взаимосвязей на изображении, но и правильную интерпретацию намерений, заложенных в визуальном представлении, для генерации кода, который точно воспроизводит исходное изображение или его логическое соответствие. Таким образом, бенчмарк оценивает способность моделей к комплексному пониманию и интеграции визуальной и функциональной информации.
В качестве ключевой метрики оценки в STEM2Code-Eval используется реконструкция изображения (Image Reconstruction), определяющая степень соответствия между исходным визуальным вводом и изображением, сгенерированным на основе сгенерированного кода. Этот метод оценки подразумевает, что сгенерированный код должен быть способен воссоздать визуальные характеристики исходного изображения, что позволяет количественно оценить способность модели понимать визуальную информацию и преобразовывать её в функциональный код. Оценка проводится путем сравнения пикселей сгенерированного изображения с пикселями исходного изображения, используя метрики, такие как среднеквадратичная ошибка (MSE) или структурное подобие (SSIM), для определения степени сходства.
Для оценки производительности и надежности генерируемого кода в STEM2Code-Eval используются метрики “Процент успешно выполненного кода” (Execution Rate) и “Качество кода” (Code Quality). “Процент успешно выполненного кода” отражает долю образцов кода, которые успешно выполняются без ошибок, демонстрируя способность модели генерировать синтаксически и семантически корректный код. “Качество кода” оценивает читаемость, эффективность и соответствие кода лучшим практикам программирования. Высокий процент успешно выполненного кода, наблюдаемый в ходе тестирования, указывает на высокую надежность и функциональность генерируемых решений.
Бенчмарк STEM2Code-Eval обучается и валидируется с использованием масштабного набора данных ICM-1M, состоящего из триплетов «изображение-описание-код». Этот набор данных содержит миллионы примеров, где каждому изображению соответствует текстовое описание и соответствующий код, реализующий визуальное представление. Использование ICM-1M обеспечивает надежную основу для оценки способности моделей машинного обучения понимать визуальные данные и генерировать функционально корректный код, способный воспроизвести исходное изображение на основе текстового описания.

Влияние и перспективы развития системы CodePercept
Разработанный фреймворк CodePercept открывает новые перспективы для многомодальных больших языковых моделей (MLLM) благодаря преодолению разрыва между восприятием и действием. Он позволяет моделям не просто распознавать визуальную информацию, но и преобразовывать её в конкретные действия, например, в код, решающий поставленную задачу. Это создаёт возможности для применения MLLM в таких областях, как научные открытия, где модели могут анализировать данные и генерировать гипотезы, инженерное проектирование, где они способны разрабатывать и оптимизировать конструкции, и образовательные инструменты, предоставляя интерактивные и персонализированные обучающие среды. Способность к функциональной корректности, заложенная в CodePercept, позволяет MLLM действовать как интеллектуальные помощники, способные не только “видеть”, но и “понимать” принципы, лежащие в основе сложных STEM-концепций, что значительно расширяет спектр решаемых ими задач.
В основе разработанного подхода лежит акцент на функциональной корректности, что позволяет моделям не просто распознавать визуальные элементы, но и понимать лежащие в их основе принципы STEM-дисциплин. Это означает, что модель способна не только “видеть” схему электрической цепи, но и предсказать ее поведение, или не просто “видеть” математическую формулу, но и проверить ее корректность и применить к решению аналогичных задач. Такой подход обеспечивает более глубокое понимание, выходящее за рамки простого распознавания образов, и позволяет моделям выполнять более сложные рассуждения и решать проблемы, требующие знания фундаментальных принципов науки, техники, инженерии и математики. В отличие от моделей, ориентированных исключительно на визуальное восприятие, данная система стремится к пониманию смысла и функциональности объектов и процессов.
Дальнейшие исследования сосредоточены на расширении возможностей CodePercept для работы с более сложными предметными областями, выходящими за рамки текущего охвата. Особое внимание уделяется интеграции данной системы с другими способами рассуждений, такими как символьные вычисления и вероятностные модели. Предполагается, что объединение CodePercept с этими модальностями позволит создать мультимодальные системы, способные не только понимать и интерпретировать визуальную информацию, но и эффективно решать задачи, требующие абстрактного мышления и логического вывода. Такой подход открывает перспективы для создания интеллектуальных систем, способных к глубокому анализу данных и генерации новых знаний в различных областях науки и техники.
Дальнейшее расширение набора данных ICM-1M за счет включения более разнообразных и сложных задач в области естественных наук, техники, инженерии и математики (STEM) представляется критически важным для повышения устойчивости и обобщающей способности моделей, основанных на коде. Увеличение объема и сложности задач позволит этим моделям лучше справляться с непредсказуемыми сценариями и более эффективно решать проблемы, выходящие за рамки тех, на которых они были изначально обучены. Пополнение ICM-1M задачами, требующими не только визуального восприятия, но и глубокого понимания физических принципов и математических зависимостей, позволит создать более надежные и универсальные инструменты для научных исследований, инженерного проектирования и образовательных целей. Такой подход, несомненно, способствует созданию интеллектуальных систем, способных к самостоятельному обучению и адаптации к новым вызовам.

Исследование демонстрирует, что визуальное восприятие является ключевым ограничением для мультимодальных больших языковых моделей (MLLM) в области STEM. Авторы статьи справедливо отмечают, что модели испытывают трудности не в логических рассуждениях, а именно в интерпретации визуальной информации. В этой связи, подход, основанный на привязке визуальных данных к коду, представляется перспективным решением. Как однажды заметил Джеффри Хинтон: «Попытки создать машины, которые думают как люди, обречены на провал, если мы не научим их видеть мир так, как видим его мы». Данное утверждение перекликается с основным тезисом работы — необходимо совершенствовать способность моделей к визуальному пониманию, чтобы раскрыть их потенциал в решении сложных STEM-задач.
Куда двигаться дальше?
Представленная работа, выявляя узкое место в визуальном восприятии для мультимодальных больших языковых моделей (MLLM) в STEM-областях, закономерно ставит вопрос о природе самого “понимания”. Попытка “заземлить” визуальное восприятие через код — это не просто технический прием, но и философский жест: вместо имитации интеллекта, предлагается его реконструировать, используя формальные языки как посредника между пикселями и абстрактными понятиями. Однако, возникает вопрос: достаточно ли “кода”, чтобы полностью охватить многогранность визуального мира, или это лишь упрощенная проекция, удобная для машинного анализа, но далёкая от истинного понимания?
Созданный бенчмарк STEM2Code-Eval, безусловно, станет ценным инструментом для оценки прогресса. Тем не менее, необходимо помнить, что любой тест — это лишь срез реальности, а не сама реальность. Будущие исследования должны сосредоточиться не только на улучшении показателей в существующих задачах, но и на создании принципиально новых, требующих от моделей более глубокого и контекстуального понимания визуальной информации. Особенно интересным представляется изучение возможности интеграции различных модальностей — не только изображения и кода, но и, например, тактильных ощущений или звука — для создания более целостной картины мира.
Иронично, но поиск искусственного интеллекта, способного к STEM-рассуждениям, может привести к углублению нашего понимания самого процесса мышления. Возможно, истинное открытие заключается не в создании машины, которая решает задачи, а в осознании того, как мы сами это делаем — и в признании того, что даже самые сложные алгоритмы — лишь бледная тень человеческого разума.
Оригинал статьи: https://arxiv.org/pdf/2603.10757.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовые нейросети на службе нефтегазовых месторождений
- Квантовая обработка данных: новый подход к повышению точности моделей
- Квантовый Переход: Пора Заботиться о Криптографии
- Сохраняя геометрию: Квантование для эффективных 3D-моделей
- Укрощение шума: как оптимизировать квантовые алгоритмы
- Квантовые прорывы: Хорошее, плохое и смешное
- Квантовые вычисления: от шифрования армагеддона до диверсантов космических лучей — что дальше?
- Миллиардные обещания, квантовые миражи и фотонные пончики: кто реально рулит новым золотым веком физики?
- Функциональные поля и модули Дринфельда: новый взгляд на арифметику
- Квантовая криптография: от теории к практике
2026-03-13 02:54