Автор: Денис Аветисян
Новый подход к созданию масштабных наборов данных позволяет языковым моделям лучше понимать изображения и решать сложные визуальные задачи.

Исследователи разработали метод генерации синтетических данных для обучения моделей рассуждению на основе визуальной информации, демонстрируя улучшенную производительность и перенос знаний между модальностями.
Несмотря на значительный прогресс в мультимодальном обучении, создание масштабных, ориентированных на зрение наборов данных для сложных задач рассуждения остается сложной задачей. В работе ‘Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale’ представлен новый фреймворк для синтеза крупномасштабного, высококачественного набора данных, основанного на визуальных рассуждениях. Показано, что обучение модели Qwen2.5-VL-7B на этих данных превосходит существующие открытые аналоги и даже конкурирует с закрытыми моделями, демонстрируя перенос знаний в текстовые и аудио задачи. Какие новые горизонты откроет систематическое масштабирование синтетических данных для развития более мощных и универсальных моделей визуального рассуждения?
Преодолевая Разрыв в Рассуждениях Визуально-Языковых Моделей
Современные мультимодальные модели, объединяющие обработку изображений и естественного языка, демонстрируют значительный прогресс в понимании визуальной информации. Однако, несмотря на успехи, они часто испытывают трудности в задачах, требующих сложных, многоступенчатых рассуждений. Существующие наборы данных не всегда обеспечивают достаточную глубину и сложность для эффективной тренировки моделей в задачах, требующих тонкого понимания и логических выводов.

Разработка новых подходов к созданию обучающих данных и архитектур моделей, способных к более глубокому и логичному рассуждению, представляется ключевой задачей. Мы стремимся к созданию систем, способных не просто видеть, но и понимать.
Двухэтапная Архитектура для Синтеза Данных
Предложенный подход использует детальные текстовые описания изображений из набора данных DOCCI для создания начального набора вопросов с множественным выбором, автоматизируя процесс генерации данных и избегая ручной аннотации.

Разработанная двухэтапная структура синтеза применяет метод «Упрочнение Композиции» для преобразования простых вопросов в сложные задачи, требующие многошагового логического вывода. Это позволяет сформировать набор данных, включающий более миллиона примеров задач, ориентированных на визуальный логический вывод.
Синтез Цепочек Рассуждений и Дистилляция Модели
Для генерации пошаговых объяснений к каждому вопросу используется методология Reasoning Trace Synthesis. Рассуждения дистиллируются из больших визуально-языковых моделей (VLMs), таких как Qwen2.5-VL-7B, Qwen3-235B-A22B-Thinking и R1-671B, структурируя процесс принятия решений моделью.

Использование GRPO позволило достичь точности 0.757 на V* и MMLU-Pro, превзойдя базовый уровень SFT, равный 0.716. Полученные результаты демонстрируют эффективность предложенного подхода к улучшению способности моделей к логическому мышлению.
Оценка и Расширение Способностей к Рассуждению
Набор данных Long Grounded Thoughts Dataset разработан для использования как в подходах обучения с подкреплением в автономном режиме, так и в онлайн-режиме, предоставляя возможность для обучения моделей, способных к более глубокому и обоснованному рассуждению.
Эффективность использования данного набора данных продемонстрирована с использованием методов GRPO для пост-тренировки и стандартных алгоритмов обучения с подкреплением в онлайн-режиме, что привело к значительному улучшению производительности моделей. В частности, наблюдается увеличение на +4.07 пункта в MMLU-PRO, +3.02 пункта в MMAU-Music и +10 пунктов в NiEH single-evidence QA.

Подобно тщательно выстроенной симфонии, этот набор данных раскрывает потенциал моделей, позволяя им достигать более высоких уровней понимания и рассуждения.
Исследование демонстрирует, что масштабируемость синтетических данных играет ключевую роль в улучшении визуального рассуждения больших языковых моделей. Подход, описанный в статье, позволяет создавать обширные наборы данных, что, в свою очередь, способствует более глубокому пониманию и решению сложных задач. Как однажды заметил Эндрю Ын: “Мы должны быть осторожны с тем, как мы строим модели машинного обучения. Модель, которая хорошо работает на тренировочных данных, но плохо работает на новых данных, — это плохая модель.” Эта мысль особенно актуальна в контексте генерации синтетических данных, где качество и разнообразие данных напрямую влияют на обобщающую способность модели и ее способность к эффективному визуальному рассуждению. Гармоничное сочетание масштаба и качества данных, описанное в работе, позволяет достичь элегантности в решении задачи обучения моделей.
Что впереди?
Представленная работа, словно тщательно настроенный инструмент, демонстрирует возможность синтеза разумных визуальных проблем в масштабе. Однако, мелодия не всегда совершенна. Вопрос не в том, сколько данных можно создать, а в том, насколько глубоко эти данные отражают сложность реального мира. Искусственно созданные «рассуждения», как и любая имитация, рискуют стать поверхностными, лишенными той тонкой нюансировки, что рождается из истинного опыта.
Следующим шагом представляется не просто увеличение масштаба синтетических данных, а углубление их семантической насыщенности. Необходимо искать способы внедрения в процесс генерации элементов случайности и неопределенности, чтобы модели учились не просто решать задачи, а адаптироваться к новым, непредсказуемым ситуациям. Любая деталь важна, даже если её не замечают, и именно в этих незаметных деталях кроется истинный вызов для исследователей.
В конечном итоге, элегантность искусственного интеллекта заключается не в его способности имитировать разум, а в его способности расширять границы нашего понимания. Истинная гармония достигается тогда, когда форма и функция неразрывно связаны, когда каждый элемент интерфейса «поёт» в унисон с общей целью. В этом направлении и следует искать вдохновение для дальнейших исследований.
Оригинал статьи: https://arxiv.org/pdf/2511.05705.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Квантовый скачок: от лаборатории к рынку
- Визуальное мышление нового поколения: V-Thinker
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Квантовые эксперименты: новый подход к воспроизводимости
- Симметрия в квантовом машинном обучении: поиск оптимального баланса
- Квантовый взгляд на биомедицинскую визуализацию
- Квантовый скачок из Андхра-Прадеш: что это значит?
2025-11-11 22:14