Визуальный интеллект: Модели учатся видеть и рассуждать самостоятельно

Автор: Денис Аветисян


Новая разработка позволяет моделям компьютерного зрения и обработки естественного языка развивать свои способности к визуальному мышлению, используя лишь изображения и процесс самообучения.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В разработанной структуре VisPlay, обучение ведется посредством совместной эволюции компонента, генерирующего вопросы на основе изображения, и многомодального решателя, где оптимизация первого осуществляется через максимизацию неопределенности замороженного решателя, измеряемой согласованностью генерируемых ответов, а второго - на отобранном наборе сложных вопросов, с использованием псевдо-меток, полученных на основе голосования большинства.
В разработанной структуре VisPlay, обучение ведется посредством совместной эволюции компонента, генерирующего вопросы на основе изображения, и многомодального решателя, где оптимизация первого осуществляется через максимизацию неопределенности замороженного решателя, измеряемой согласованностью генерируемых ответов, а второго — на отобранном наборе сложных вопросов, с использованием псевдо-меток, полученных на основе голосования большинства.

Представлена система VisPlay, использующая обучение с подкреплением для автономного улучшения возможностей мультимодального рассуждения на основе неразмеченных данных.

Обучение моделей «зрение-язык» часто требует больших объемов размеченных данных или специфических эвристик. В данной работе представлена система VisPlay: Self-Evolving Vision-Language Models from Images, — самообучающийся алгоритм, использующий обучение с подкреплением для автономного улучшения способностей моделей к визуальному мышлению на основе неразмеченных изображений. VisPlay реализует взаимодействие двух ролей — генератора вопросов и многомодального решателя — для итеративного повышения качества рассуждений. Позволит ли подобный подход к самообучению создать более интеллектуальные и адаптивные мультимодальные системы?


Пределы Современных Визуально-Языковых Моделей

Несмотря на значительный прогресс в области компьютерного зрения и обработки естественного языка, современные модели, объединяющие эти возможности — так называемые Vision-Language Models (VLMs) — демонстрируют ограниченные способности при решении задач, требующих глубокого понимания визуальной информации и сложных умозаключений. Эти модели часто успешно справляются с простыми задачами, такими как распознавание объектов или подписи к изображениям, однако испытывают трудности при анализе сложных сцен, требующих понимания взаимосвязей между объектами, пространственных отношений и контекстуальной информации. Например, при интерпретации диаграмм или понимании последовательности действий, изображенных на видео, VLM часто допускают ошибки, свидетельствующие о недостатке способности к абстрактному мышлению и логическому выводу, необходимому для полноценного визуального рассуждения. Это ограничивает их применение в областях, где требуется надежная и точная интерпретация визуальных данных, таких как автономная навигация, медицинская диагностика и научные исследования.

Существующие оценочные наборы данных для моделей, объединяющих зрение и язык, зачастую не способны полноценно проверить способность этих моделей к интеграции визуальной информации с накопленными знаниями. В большинстве случаев, тесты ограничиваются распознаванием отдельных объектов или простыми связями между ними, игнорируя необходимость в сложном логическом выводе и контекстуальном понимании. Это приводит к завышенной оценке производительности моделей в искусственной среде и существенным трудностям при применении их к реальным задачам, требующим не просто идентификации объектов, а анализа их взаимосвязей, понимания причинно-следственных связей и экстраполяции знаний на новые ситуации. Недостаток нюансов в тестовых данных не позволяет адекватно оценить способность модели к решению проблем, требующих глубокого понимания визуального контекста и интеграции этого понимания с общими знаниями о мире.

Отсутствие надёжного визуального мышления существенно замедляет развитие приложений, требующих глубокого понимания изображений. Например, интерпретация научных диаграмм, где необходимо соотнести визуальные элементы с абстрактными концепциями, остаётся сложной задачей для современных моделей. То же касается и понимания реального пространства — для автономных систем или робототехники критически важно не просто распознавать объекты, но и понимать их взаимное расположение и связи, что требует нетривиальных навыков пространственного анализа и логических выводов, которые пока недоступны существующим алгоритмам. Данный пробел в возможностях ограничивает потенциал искусственного интеллекта в областях, где визуальная информация является ключевой для принятия решений и взаимодействия с миром.

Последовательные этапы эволюции (Evo 1-5) значительно повысили среднюю точность модели Qwen2.5-VL-3B-Instruct на семи наборах данных, превзойдя базовую модель, обученную на Vision-47K с использованием GRPO, что подтверждает эффективность VisPlay.
Последовательные этапы эволюции (Evo 1-5) значительно повысили среднюю точность модели Qwen2.5-VL-3B-Instruct на семи наборах данных, превзойдя базовую модель, обученную на Vision-47K с использованием GRPO, что подтверждает эффективность VisPlay.

VisPlay: Саморазвивающаяся Архитектура Рассуждений

VisPlay — это новый фреймворк обучения с подкреплением (RL), предназначенный для автономного улучшения навыков рассуждений визуальных языковых моделей (VLM) без использования размеченных данных. В основе фреймворка лежит способность VLM самостоятельно генерировать задачи и оценивать собственные ответы, что позволяет непрерывно совершенствовать процессы визуального анализа и интеграции знаний. Отсутствие необходимости в ручной разметке данных делает VisPlay особенно эффективным решением для масштабирования и адаптации VLM к различным задачам, требующим сложных рассуждений на основе визуальной информации.

В основе VisPlay лежит динамическое взаимодействие между компонентом «Вопрошающий, обусловленный изображением» и «Мультимодальным рассуждающим». Вопрошающий генерирует вопросы, основанные на представленном изображении, а рассуждающий компонент пытается на них ответить. Этот процесс формирует самообучающийся цикл, в котором вопросы и ответы служат сигналами для улучшения обоих компонентов без использования размеченных данных. Вопрошающий адаптирует сложность вопросов на основе производительности рассуждающего, создавая тем самым постоянный стимул для совершенствования навыков визуального рассуждения и интеграции знаний. Такая архитектура позволяет системе самостоятельно обучаться и развивать свои способности к анализу изображений и логическому мышлению.

В основе VisPlay лежит механизм непрерывного улучшения навыков визуального рассуждения и интеграции знаний посредством генерации сложных вопросов и оценки ответов, предоставляемых мультимодальным Reasoner. Система динамически создает вопросы, направленные на выявление слабых мест Reasoner в понимании визуальной информации и ее связи с имеющимися знаниями. Оценка ответов Reasoner осуществляется на основе корректности и полноты, что позволяет системе корректировать процесс генерации вопросов и тем самым повышать сложность и релевантность задаваемых задач. Этот цикл самообучения обеспечивает постоянное совершенствование Reasoner в решении задач визуального рассуждения без использования размеченных данных.

Усиление Рассуждений с Использованием Целевых Наград

Для повышения эффективности обучения модели рассуждений, вопросчик, обусловленный изображением, получает вознаграждение на основе неопределенности ($Uncertainty Reward$). Этот механизм стимулирует генерацию сложных вопросов, фокусируясь на областях, где модель рассуждений демонстрирует низкую уверенность в ответах. Вознаграждение рассчитывается на основе вероятности неправильного ответа, что побуждает вопросчик исследовать «слабые места» модели и предлагать вопросы, требующие более глубокого анализа и рассуждений. Данный подход позволяет динамически адаптировать процесс обучения, концентрируясь на наиболее проблемных областях и ускоряя сходимость модели.

Для предотвращения генерации повторяющихся вопросов используется техника регуляризации разнообразия (Diversity Regularization). Данный подход стимулирует Модуль Вопросов (Questioner) исследовать более широкий спектр путей рассуждений при формировании запросов. Это достигается путем добавления штрафа к функции потерь, пропорционального близости сгенерированных вопросов к уже заданным. Близость оценивается на основе семантического сходства, что позволяет избегать повторения вопросов, даже если они сформулированы разными словами. В результате, система поощряется к генерации более разнообразных и информативных запросов, способствующих более полному и эффективному обучению Модуля Рассуждений (Reasoner).

Многомодальный Рассуждающий (Reasoner) получает значительное преимущество от использования псевдо-меток (Pseudo-Labels), что позволяет ему обучаться даже при ограниченном объеме размеченных данных. Данный подход предполагает генерацию меток для неразмеченных данных с использованием текущей модели или другой эвристики. Обучение с псевдо-метками эффективно расширяет обучающую выборку, снижает зависимость от дорогостоящей ручной разметки и, как следствие, ускоряет процесс обучения модели. В частности, использование псевдо-меток позволяет Рассуждающему улучшать свою способность к мультимодальному анализу и принятию решений даже в условиях дефицита размеченных данных, повышая общую производительность и эффективность системы.

Широкая Применимость и Эффективность VisPlay

Исследования показали, что VisPlay демонстрирует значительные улучшения на общепринятых эталонах, включая MMMU, VisNumBench, MathVerse и HallusionBench, что свидетельствует о его широкой применимости и обобщающих способностях. Данная система успешно справляется с разнообразными задачами, охватывающими мультимодальное понимание, визуально-числовые рассуждения и решение математических задач. Улучшения, достигнутые на этих эталонах, подтверждают способность VisPlay эффективно адаптироваться к различным типам данных и задачам, что делает его перспективным инструментом для широкого спектра приложений, требующих комплексного анализа визуальной и текстовой информации. Подобная универсальность отличает VisPlay от многих специализированных моделей, делая его ценным активом в области искусственного интеллекта.

В ходе экспериментов с моделью Qwen2.5-VL-3B, разработанная система VisPlay демонстрирует значительное повышение точности распознавания и анализа визуальной информации. После нескольких итераций обучения, средняя точность модели достигает 44.16 — 47.27%, что представляет собой существенный прогресс по сравнению с исходным показателем в 30.61%. Такой прирост указывает на эффективность предложенного подхода к улучшению способности модели к визуально-языковому пониманию и решению задач, требующих интеграции визуальных данных и текстовой информации.

Исследования показали, что применение VisPlay значительно повышает точность визуальных моделей. В частности, на модели Qwen2.5-VL-7B, VisPlay увеличивает среднюю точность с 40.41 до 48.61. Не менее впечатляющие результаты достигнуты и на MiMo-VL-7B, где точность улучшается с 43.56 до 45.69. Эти показатели демонстрируют способность VisPlay эффективно повышать качество обработки визуальной информации и улучшать общую производительность моделей, работающих с мультимодальными данными.

Исследования показали, что применение VisPlay значительно снижает склонность моделей к галлюцинациям — то есть к генерации неверной или бессмысленной информации. В частности, после двух итераций обучения на модели Qwen2.5-VL-3B, показатель галлюцинаций снизился до 94.95, что является существенным улучшением по сравнению с исходным значением в 32.81. Данный результат демонстрирует эффективность предложенного подхода в повышении надежности и достоверности ответов, генерируемых визуально-языковыми моделями, и открывает перспективы для их применения в задачах, требующих высокой точности и предотвращения ложных утверждений.

Исследования показали, что разработанная платформа значительно улучшает способность моделей к рассуждениям, особенно в сложных задачах, требующих пространственного мышления, таких как те, что представлены в наборе данных RealWorldQA. Это демонстрирует не только теоретическую ценность подхода, но и его практический потенциал в решении реальных задач, где необходимо понимание и анализ визуальной информации в контексте пространственных взаимосвязей. Улучшение способности к рассуждениям выходит за рамки простого распознавания объектов, позволяя моделям делать более обоснованные выводы и предоставлять более точные ответы на вопросы, требующие комплексного анализа визуальной сцены.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем, способных к автономному совершенствованию. Визуально-языковые модели VisPlay, развиваясь посредством самообучения и генерации вопросов, воплощают идею о том, что истинная интеллектуальная система должна не просто «работать на тестах», а обладать внутренней логикой и способностью к самопроверке. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть ориентирован на людей, чтобы он мог приносить пользу человечеству». Эта фраза прекрасно иллюстрирует суть подхода VisPlay, ведь самообучение модели направлено на улучшение её способности к визуальному мышлению и, следовательно, на более эффективное взаимодействие с человеком посредством языка.

Куда Ведет Эта Игра?

Представленная работа, демонстрируя возможность саморазвития моделей «зрение-язык» посредством генерации и решения визуальных вопросов, ставит под сомнение само определение «обучения». Если модель способна самостоятельно создавать задачи для себя, то где заканчивается проектирование и начинается истинная автономия? Необходимо строгое доказательство, что этот процесс не сводится к цикличному усилению заранее заложенных предубеждений, а действительно приводит к расширению возможностей логического вывода. Просто «работать на тестах» недостаточно.

Очевидным ограничением является зависимость от неразмеченных данных. Хотя это и снимает необходимость ручной аннотации, возникает вопрос о контроле над качеством генерируемых вопросов. Модель может бесконечно совершенствоваться в решении тривиальных или искусственно усложненных задач, упуская из виду более сложные и важные аспекты визуального рассуждения. Необходимо разработать метрики, оценивающие не только точность ответов, но и сложность и значимость поставленных вопросов.

Будущие исследования должны быть направлены на формальное доказательство сходимости этого самообучающегося процесса. Необходимо установить, что модель действительно приближается к оптимальному решению, а не просто блуждает в пространстве возможных вопросов и ответов. Иначе, это лишь элегантная, но все же иллюзия интеллекта. Доказательство корректности всегда сильнее интуиции.


Оригинал статьи: https://arxiv.org/pdf/2511.15661.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-20 20:32