Моне: Визуальный разум за пределами изображений и слов

Автор: Денис Аветисян


Новая модель позволяет многомодальным системам рассуждать о визуальной информации, оперируя не самими изображениями, а их скрытыми представлениями.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Вместо лингвистического описания углов между объектами, модель непосредственно оперирует скрытыми представлениями для пространственного рассуждения, что позволяет ей выдавать окончательный ответ, минуя этап вербализации.
Вместо лингвистического описания углов между объектами, модель непосредственно оперирует скрытыми представлениями для пространственного рассуждения, что позволяет ей выдавать окончательный ответ, минуя этап вербализации.

Представлен фреймворк Monet, обеспечивающий визуальное рассуждение в скрытом пространстве с использованием обучения с подкреплением и цепочек рассуждений.

Несмотря на успехи в области визуального мышления с использованием больших мультимодальных моделей, существующие подходы часто ограничены зависимостью от внешних инструментов и не достигают гибкости человеческого абстрактного мышления. В данной работе, представленной под названием ‘Monet: Reasoning in Latent Visual Space Beyond Images and Language’, предложен фреймворк Monet, позволяющий мультимодальным большим языковым моделям (MLLM) рассуждать непосредственно в латентном визуальном пространстве, генерируя и используя непрерывные визуальные эмбеддинги в качестве промежуточных мысленных шагов. Разработанный подход, включающий трехэтапную процедуру обучения с подкреплением и новый набор данных Monet-SFT-125K, демонстрирует значительное улучшение производительности на различных задачах визуального восприятия и рассуждений. Какие перспективы открывает возможность обучения MLLM рассуждать непосредственно в латентном пространстве для решения еще более сложных задач визуального интеллекта?


За пределами пикселей: К поиску истинного визуального рассуждения

Традиционные мультимодальные модели часто сталкиваются с трудностями при решении сложных задач визуального рассуждения, поскольку они полагаются на непосредственную обработку пиксельных данных. Этот подход требует значительных вычислительных ресурсов и подвержен влиянию шума, что снижает надежность и эффективность анализа. Обработка каждого пикселя, особенно в изображениях высокого разрешения, становится узким местом, ограничивающим скорость и масштабируемость систем. Кроме того, малейшие искажения или помехи в пиксельной информации могут привести к ошибочным выводам, что делает такие модели уязвимыми в реальных условиях, где качество изображения часто не идеально. В связи с этим, поиск альтернативных подходов, позволяющих абстрагироваться от непосредственной обработки пикселей и сосредоточиться на более высокоуровневых представлениях, является ключевой задачей в области искусственного интеллекта.

Переход к рассуждениям в латентном пространстве представляет собой перспективный подход к повышению эффективности и надежности визуального понимания. Вместо обработки огромных объемов пиксельных данных, модели обучаются извлекать и анализировать сжатые, абстрактные представления изображений — латенты. Такой подход позволяет значительно снизить вычислительные затраты и повысить устойчивость к шумам и вариациям в изображениях. Вместо оперирования непосредственно с визуальными деталями, система концентрируется на существенных признаках и отношениях между ними, что открывает возможности для более глубокого и осмысленного анализа визуальной информации. Это особенно важно для решения сложных задач, требующих не просто распознавания объектов, но и понимания их взаимосвязей и контекста.

Существующие методы анализа изображений часто демонстрируют ограниченные возможности в глубоком понимании взаимосвязей между объектами на визуальных данных. Это обуславливает их недостаточную эффективность при решении сложных задач, требующих не просто распознавания отдельных элементов, но и понимания их контекста и взаимного влияния. Например, система может успешно идентифицировать на изображении стол и книгу, однако не способна определить, лежит ли книга на столе, что существенно ограничивает ее возможности в задачах, связанных с пониманием сцены или планированием действий. Неспособность к анализу отношений между объектами снижает устойчивость моделей к шумам и вариациям в изображениях, а также затрудняет обобщение полученных знаний на новые, ранее не встречавшиеся ситуации. Поэтому развитие методов, способных к более глубокому анализу визуальных взаимосвязей, является ключевым направлением в современной компьютерной зрительной обработке.

Модель Monet-7B демонстрирует иерархическое рассуждение, сначала выделяя релевантный фрагмент изображения, а затем точно определяя его содержание и выдавая правильный ответ.
Модель Monet-7B демонстрирует иерархическое рассуждение, сначала выделяя релевантный фрагмент изображения, а затем точно определяя его содержание и выдавая правильный ответ.

Monet: Архитектура для рассуждений в скрытом пространстве

Модель Monet представляет собой новую архитектуру, использующую возможности больших языковых моделей для визуального рассуждения в латентном пространстве. В отличие от традиционных подходов, работающих непосредственно с пиксельными данными, Monet обрабатывает изображения в сжатом, латентном представлении, что позволяет снизить вычислительные затраты и повысить эффективность анализа. Этот подход позволяет модели фокусироваться на семантически значимых признаках изображения, а не на деталях низкого уровня, что особенно полезно для решения сложных задач визуального рассуждения, требующих понимания контекста и взаимосвязей между объектами. Использование латентного пространства позволяет модели обобщать знания и применять их к новым, ранее не виденным изображениям.

Модель Monet построена на базе Qwen2.5-VL-7B, что позволяет ей эффективно обрабатывать и анализировать визуальные данные в сжатом представлении. Использование Qwen2.5-VL-7B в качестве основы обеспечивает высокую производительность и масштабируемость, позволяя модели работать с изображениями в латентном пространстве, минимизируя вычислительные затраты и требования к памяти. Такой подход позволяет осуществлять более быструю обработку и анализ визуальной информации по сравнению с обработкой изображений в исходном формате.

В основе работы Monet лежит применение контролируемого обучения (Supervised Fine-Tuning, SFT) для адаптации базовой модели Qwen2.5-VL-7B к задачам логического анализа визуальной информации в латентном пространстве. SFT предполагает обучение модели на размеченном наборе данных, содержащем визуальные стимулы и соответствующие им логические выводы. Этот процесс позволяет оптимизировать параметры модели для повышения точности и эффективности при решении сложных задач визуального рассуждения, в частности, в ситуациях, требующих анализа взаимосвязей между объектами и понимания контекста изображения. Использование SFT позволяет значительно улучшить производительность модели по сравнению с исходной, не обученной на специализированных данных.

Предложенная методика включает в себя трехэтапную процедуру обучения с подкреплением и тонкой настройкой, позволяющую модели автоматически инициировать скрытое рассуждение и последовательно улучшать качество получаемых скрытых представлений с помощью специально разработанного алгоритма VLPO.
Предложенная методика включает в себя трехэтапную процедуру обучения с подкреплением и тонкой настройкой, позволяющую модели автоматически инициировать скрытое рассуждение и последовательно улучшать качество получаемых скрытых представлений с помощью специально разработанного алгоритма VLPO.

Создание набора данных Monet-SFT-125K: Курирование знаний для обучения

Набор данных Monet-SFT-125K является ключевым компонентом фреймворка и представляет собой набор данных, состоящий из последовательностей «изображение-текст», организованных в виде цепочек рассуждений (Chain of Thought, CoT). Эти CoT используются для обучения с учителем (supervised fine-tuning) модели, что позволяет ей улучшить способность к логическому мышлению и генерации последовательных ответов, основанных на визуальной информации и текстовых подсказках. Каждая последовательность включает в себя изображение, сопровождаемое текстовым описанием, и последующие шаги рассуждений, ведущие к конечному ответу или решению.

Для построения набора данных Monet-SFT-125K используются продвинутые большие языковые модели (LLM), такие как DeepSeek-V3.1 и Gemini-2.5-Pro, в качестве оценочных судей. Эти LLM применяются для оценки качества и релевантности генерируемых данных, что включает в себя проверку логической связности и соответствия цепочек рассуждений (CoT) поставленным задачам. Автоматизированная оценка с помощью LLM позволяет значительно повысить эффективность отбора данных и гарантировать, что в набор данных попадают только высококачественные примеры, необходимые для обучения модели целевому поведению.

Тщательный процесс курирования данных имеет решающее значение для согласования модели с желаемым поведением при рассуждениях и максимизации ее производительности. Это достигается за счет применения многоступенчатой системы оценки, где продвинутые языковые модели, такие как DeepSeek-V3.1 и Gemini-2.5-Pro, выступают в роли судей, оценивающих качество и релевантность данных. Выявление и отбраковка некачественных или нерелевантных примеров позволяет обучать модель на данных, которые точно отражают требуемые навыки рассуждений, что напрямую влияет на ее способность решать сложные задачи и генерировать логически обоснованные ответы. В результате, модель демонстрирует улучшенную производительность в задачах, требующих последовательного и аргументированного мышления.

Процесс обучения Monet-SFT-125K состоит из последовательной фильтрации сложных примеров, отбора данных, требующих использования вспомогательных изображений для получения правильных ответов, и выделения ключевых визуальных признаков с помощью LLM-судей для обучения надежным скрытым представлениям.
Процесс обучения Monet-SFT-125K состоит из последовательной фильтрации сложных примеров, отбора данных, требующих использования вспомогательных изображений для получения правильных ответов, и выделения ключевых визуальных признаков с помощью LLM-судей для обучения надежным скрытым представлениям.

Двойной контроль и управляемый поток внимания: Настройка модели для эффективного рассуждения

В процессе контролируемой дообувки, модель Monet использует подход “двойного контроля”, объединяющий выравнивание представлений с визуальной информацией, полученной из вспомогательных изображений. Это предполагает одновременную оптимизацию для соответствия эмбеддингов изображений и текста, а также использование дополнительной визуальной информации для улучшения качества представлений. Такой подход позволяет модели более эффективно извлекать и использовать визуальные признаки, улучшая ее способность к визуальному рассуждению и пониманию.

Механизм контролируемого потока внимания в Monet ограничивает доступ текстовых токенов к вспомогательным изображениям, позволяя латентным эмбеддингам (векторным представлениям) исключительно взаимодействовать с визуальной информацией из этих источников. Это обеспечивает фокусировку анализа исключительно на визуальных данных, предотвращая влияние текстового контекста на процесс обработки изображений. Данная архитектура позволяет модели эффективно извлекать и анализировать визуальные признаки, необходимые для выполнения задач, связанных с пониманием изображений, без отвлечения на текстовые подсказки или описания.

Метод обучения с предсказанием следующего токена (Next-Token Prediction, NTP) используется для улучшения способности модели к точному и эффективному анализу визуальной информации. NTP предполагает, что модель обучается предсказывать следующий токен в последовательности, основываясь на визуальных данных и предыдущих предсказаниях. Этот процесс способствует формированию более глубокого понимания визуальных характеристик и их взаимосвязей, что позволяет модели более эффективно рассуждать о содержании изображений и решать связанные с ними задачи. В результате, NTP повышает как точность, так и скорость обработки визуальной информации.

Обучение на чередующихся изображениях и тексте позволяет модели использовать промежуточные визуальные подсказки для повышения точности прогнозирования.
Обучение на чередующихся изображениях и тексте позволяет модели использовать промежуточные визуальные подсказки для повышения точности прогнозирования.

Подтверждение эффективности Monet на разнообразных бенчмарках: Результаты и перспективы

Модель Monet демонстрирует впечатляющую способность к мультимодальному рассуждению, что подтверждается результатами тестов на различных бенчмарках. В частности, модель успешно решает задачи, представленные в V*, HRBench, MME-RealWorld и VisualPuzzles, демонстрируя понимание и обработку информации, поступающей из разных источников — текста и изображений. Данные бенчмарки охватывают широкий спектр задач, требующих не только распознавания объектов на изображениях, но и логического вывода, анализа контекста и способности к решению проблем, что свидетельствует о высокой степени адаптивности и интеллектуальных возможностях модели Monet.

Модель Monet демонстрирует значительные успехи в решении задач мультимодального рассуждения, превосходя базовую модель Qwen2.5-VL-7B по ключевым показателям. В частности, на бенчмарке V* достигнута точность в 9.75%, что свидетельствует о высокой эффективности в сложных визуальных задачах. Кроме того, на бенчмарке HRBench4k, предназначенном для оценки способности к рассуждениям, зафиксировано улучшение на 4.25%, что подтверждает способность модели к более глубокому пониманию и анализу информации. Эти результаты подчеркивают потенциал Monet для решения широкого спектра интеллектуальных задач, требующих интеграции визуальных и текстовых данных.

Модель Monet демонстрирует превосходство над существующими подходами в решении задач визуального мышления, особенно ярко это проявляется на бенчмарке VisualPuzzles, где она достигает наилучших результатов. Новаторским является и то, что Monet проявляет высокую способность к обобщению — она успешно справляется с задачами, существенно отличающимися от тех, на которых обучалась. Это указывает на то, что модель не просто запоминает шаблоны, а действительно понимает взаимосвязи между визуальной информацией и логическими рассуждениями, что делает её особенно ценной для применения в реальных условиях, где данные часто отличаются от тренировочных выборок. Такая способность к адаптации открывает перспективы для создания более надежных и универсальных систем искусственного интеллекта.

Модель Monet-SFT-125K способна генерировать новые визуальные состояния.
Модель Monet-SFT-125K способна генерировать новые визуальные состояния.

Наблюдатель отмечает, что стремление к элегантным решениям в области мультимодальных моделей, как демонстрирует Monet, неизбежно натыкается на суровую реальность продакшена. Разумные вычисления в скрытом визуальном пространстве, предложенные в работе, звучат многообещающе, но каждое новое представление, каждая абстракция, лишь добавляет слоев потенциальных поломок. Как справедливо заметил Эндрю Ын: «Самый большой враг хорошего — лучшее». Стремление к совершенству в обработке изображений и текста, как и в любой сложной системе, рано или поздно приведёт к необходимости разбираться в очередном хаосе зависимостей и неожиданных взаимодействий. Документация к этим слоям, конечно, останется мифом, созданным менеджерами.

Что дальше?

Представленный фреймворк, манипулирующий скрытыми визуальными представлениями, безусловно, элегантен. Однако, каждая новая абстракция неминуемо обречена на столкновение с жестокой реальностью продакшена. Улучшение производительности на задачах восприятия и рассуждения — это, конечно, хорошо, но стоит помнить: всё, что можно задеплоить — однажды упадёт. Вопрос не в том, если возникнут краевые случаи, когда латентное пространство покажет свою непредсказуемость, а в том, когда это произойдет.

Перспективы дальнейших исследований, вероятно, лежат в области повышения робастности этих латентных представлений. Устойчивость к шумам, вариациям освещения, и, что наиболее важно, к неожиданным комбинациям объектов — вот где кроется истинный вызов. Попытки «приручить» латентное пространство посредством обучения с подкреплением — это лишь один из возможных путей. Но даже идеально выверенная система рано или поздно встретит задачу, для которой её латентные представления окажутся недостаточными.

В конечном счёте, как и любая сложная система, и эта будет эволюционировать, сталкиваясь с новыми проблемами и ограничениями. И, возможно, в этом и заключается её красота: в способности красиво умирать, предоставляя материал для новых, более устойчивых решений. Каждая «революционная» технология завтра станет техдолгом, и это — неизбежный закон.


Оригинал статьи: https://arxiv.org/pdf/2511.21395.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-27 08:21