Визуальное мышление: как обучить ИИ рассуждать, глядя на мир

Автор: Денис Аветисян

Новый подход к созданию масштабных наборов данных позволяет языковым моделям лучше понимать изображения и решать сложные визуальные задачи.

Эта двухэтапная система синтеза формирует вопросы с множественным выбором из плотных описаний и метаданных о заземленных объектах, акцентируя внимание на масштабе и разнообразии, а также обучая базовым когнитивным навыкам, таким как проверка, отслеживание и исправление, а затем усложняет эти вопросы, преобразуя их в задачи визуального рассуждения, требующие декомпозиции и более высокого порядка мышления, при этом для каждого этапа создаются цепочки рассуждений путем дистилляции CoT из визуально-языковых моделей и их расширения с помощью LLM, что приводит к цепочкам, которые соответствуют распределению выходов VLM, но имеют большую глубину рассуждений.

Исследователи разработали метод генерации синтетических данных для обучения моделей рассуждению на основе визуальной информации, демонстрируя улучшенную производительность и перенос знаний между модальностями.

Несмотря на значительный прогресс в мультимодальном обучении, создание масштабных, ориентированных на зрение наборов данных для сложных задач рассуждения остается сложной задачей. В работе ‘Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale’ представлен новый фреймворк для синтеза крупномасштабного, высококачественного набора данных, основанного на визуальных рассуждениях. Показано, что обучение модели Qwen2.5-VL-7B на этих данных превосходит существующие открытые аналоги и даже конкурирует с закрытыми моделями, демонстрируя перенос знаний в текстовые и аудио задачи. Какие новые горизонты откроет систематическое масштабирование синтетических данных для развития более мощных и универсальных моделей визуального рассуждения?

Преодолевая Разрыв в Рассуждениях Визуально-Языковых Моделей

Современные мультимодальные модели, объединяющие обработку изображений и естественного языка, демонстрируют значительный прогресс в понимании визуальной информации. Однако, несмотря на успехи, они часто испытывают трудности в задачах, требующих сложных, многоступенчатых рассуждений. Существующие наборы данных не всегда обеспечивают достаточную глубину и сложность для эффективной тренировки моделей в задачах, требующих тонкого понимания и логических выводов.

Модель, прошедшая обучение с использованием методов SFT и RL, демонстрирует нелинейный процесс рассуждений, включающий самопроверку и откат, для исправления первоначальной ошибочной оценки, в отличие от базовой модели, которая завершается с неправильным ответом, основанным на этой же ошибке, при этом использование подписей и привязки к визуальным данным служит мостом между языком и зрением.

Разработка новых подходов к созданию обучающих данных и архитектур моделей, способных к более глубокому и логичному рассуждению, представляется ключевой задачей. Мы стремимся к созданию систем, способных не просто видеть, но и понимать.

Двухэтапная Архитектура для Синтеза Данных

Предложенный подход использует детальные текстовые описания изображений из набора данных DOCCI для создания начального набора вопросов с множественным выбором, автоматизируя процесс генерации данных и избегая ручной аннотации.

Добавление метаданных, таких как ограничивающие рамки, к подробным подписям позволяет добиться более разнообразной и контролируемой генерации вопросов с множественным выбором, успешно масштабируя процесс до 1 миллиона+ примеров.

Разработанная двухэтапная структура синтеза применяет метод «Упрочнение Композиции» для преобразования простых вопросов в сложные задачи, требующие многошагового логического вывода. Это позволяет сформировать набор данных, включающий более миллиона примеров задач, ориентированных на визуальный логический вывод.

Синтез Цепочек Рассуждений и Дистилляция Модели

Для генерации пошаговых объяснений к каждому вопросу используется методология Reasoning Trace Synthesis. Рассуждения дистиллируются из больших визуально-языковых моделей (VLMs), таких как Qwen2.5-VL-7B, Qwen3-235B-A22B-Thinking и R1-671B, структурируя процесс принятия решений моделью.

Модель, прошедшая дополнительное обучение на собранных данных, демонстрирует улучшенный процесс рассуждений в сравнении с базовой моделью.

Использование GRPO позволило достичь точности 0.757 на V* и MMLU-Pro, превзойдя базовый уровень SFT, равный 0.716. Полученные результаты демонстрируют эффективность предложенного подхода к улучшению способности моделей к логическому мышлению.

Оценка и Расширение Способностей к Рассуждению

Набор данных Long Grounded Thoughts Dataset разработан для использования как в подходах обучения с подкреплением в автономном режиме, так и в онлайн-режиме, предоставляя возможность для обучения моделей, способных к более глубокому и обоснованному рассуждению.

Эффективность использования данного набора данных продемонстрирована с использованием методов GRPO для пост-тренировки и стандартных алгоритмов обучения с подкреплением в онлайн-режиме, что привело к значительному улучшению производительности моделей. В частности, наблюдается увеличение на +4.07 пункта в MMLU-PRO, +3.02 пункта в MMAU-Music и +10 пунктов в NiEH single-evidence QA.

После дополнительного обучения модель Qwen-2.5 Omni демонстрирует улучшенные возможности временного рассуждения, успешно решая вопросы, связанные с совместным решением задач, основанных на аудио и звуковых событиях, в отличие от базовой модели Qwen-2.5 Omni.

Подобно тщательно выстроенной симфонии, этот набор данных раскрывает потенциал моделей, позволяя им достигать более высоких уровней понимания и рассуждения.

Исследование демонстрирует, что масштабируемость синтетических данных играет ключевую роль в улучшении визуального рассуждения больших языковых моделей. Подход, описанный в статье, позволяет создавать обширные наборы данных, что, в свою очередь, способствует более глубокому пониманию и решению сложных задач. Как однажды заметил Эндрю Ын: “Мы должны быть осторожны с тем, как мы строим модели машинного обучения. Модель, которая хорошо работает на тренировочных данных, но плохо работает на новых данных, — это плохая модель.” Эта мысль особенно актуальна в контексте генерации синтетических данных, где качество и разнообразие данных напрямую влияют на обобщающую способность модели и ее способность к эффективному визуальному рассуждению. Гармоничное сочетание масштаба и качества данных, описанное в работе, позволяет достичь элегантности в решении задачи обучения моделей.

Что впереди?

Представленная работа, словно тщательно настроенный инструмент, демонстрирует возможность синтеза разумных визуальных проблем в масштабе. Однако, мелодия не всегда совершенна. Вопрос не в том, сколько данных можно создать, а в том, насколько глубоко эти данные отражают сложность реального мира. Искусственно созданные «рассуждения», как и любая имитация, рискуют стать поверхностными, лишенными той тонкой нюансировки, что рождается из истинного опыта.

Следующим шагом представляется не просто увеличение масштаба синтетических данных, а углубление их семантической насыщенности. Необходимо искать способы внедрения в процесс генерации элементов случайности и неопределенности, чтобы модели учились не просто решать задачи, а адаптироваться к новым, непредсказуемым ситуациям. Любая деталь важна, даже если её не замечают, и именно в этих незаметных деталях кроется истинный вызов для исследователей.

В конечном итоге, элегантность искусственного интеллекта заключается не в его способности имитировать разум, а в его способности расширять границы нашего понимания. Истинная гармония достигается тогда, когда форма и функция неразрывно связаны, когда каждый элемент интерфейса «поёт» в унисон с общей целью. В этом направлении и следует искать вдохновение для дальнейших исследований.

Оригинал статьи: https://arxiv.org/pdf/2511.05705.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-11 22:14

🚀 Квантовые новости