Автор: Денис Аветисян
Новая модель позволяет многомодальным системам рассуждать о визуальной информации, оперируя не самими изображениями, а их скрытыми представлениями.

Представлен фреймворк Monet, обеспечивающий визуальное рассуждение в скрытом пространстве с использованием обучения с подкреплением и цепочек рассуждений.
Несмотря на успехи в области визуального мышления с использованием больших мультимодальных моделей, существующие подходы часто ограничены зависимостью от внешних инструментов и не достигают гибкости человеческого абстрактного мышления. В данной работе, представленной под названием ‘Monet: Reasoning in Latent Visual Space Beyond Images and Language’, предложен фреймворк Monet, позволяющий мультимодальным большим языковым моделям (MLLM) рассуждать непосредственно в латентном визуальном пространстве, генерируя и используя непрерывные визуальные эмбеддинги в качестве промежуточных мысленных шагов. Разработанный подход, включающий трехэтапную процедуру обучения с подкреплением и новый набор данных Monet-SFT-125K, демонстрирует значительное улучшение производительности на различных задачах визуального восприятия и рассуждений. Какие перспективы открывает возможность обучения MLLM рассуждать непосредственно в латентном пространстве для решения еще более сложных задач визуального интеллекта?
За пределами пикселей: К поиску истинного визуального рассуждения
Традиционные мультимодальные модели часто сталкиваются с трудностями при решении сложных задач визуального рассуждения, поскольку они полагаются на непосредственную обработку пиксельных данных. Этот подход требует значительных вычислительных ресурсов и подвержен влиянию шума, что снижает надежность и эффективность анализа. Обработка каждого пикселя, особенно в изображениях высокого разрешения, становится узким местом, ограничивающим скорость и масштабируемость систем. Кроме того, малейшие искажения или помехи в пиксельной информации могут привести к ошибочным выводам, что делает такие модели уязвимыми в реальных условиях, где качество изображения часто не идеально. В связи с этим, поиск альтернативных подходов, позволяющих абстрагироваться от непосредственной обработки пикселей и сосредоточиться на более высокоуровневых представлениях, является ключевой задачей в области искусственного интеллекта.
Переход к рассуждениям в латентном пространстве представляет собой перспективный подход к повышению эффективности и надежности визуального понимания. Вместо обработки огромных объемов пиксельных данных, модели обучаются извлекать и анализировать сжатые, абстрактные представления изображений — латенты. Такой подход позволяет значительно снизить вычислительные затраты и повысить устойчивость к шумам и вариациям в изображениях. Вместо оперирования непосредственно с визуальными деталями, система концентрируется на существенных признаках и отношениях между ними, что открывает возможности для более глубокого и осмысленного анализа визуальной информации. Это особенно важно для решения сложных задач, требующих не просто распознавания объектов, но и понимания их взаимосвязей и контекста.
Существующие методы анализа изображений часто демонстрируют ограниченные возможности в глубоком понимании взаимосвязей между объектами на визуальных данных. Это обуславливает их недостаточную эффективность при решении сложных задач, требующих не просто распознавания отдельных элементов, но и понимания их контекста и взаимного влияния. Например, система может успешно идентифицировать на изображении стол и книгу, однако не способна определить, лежит ли книга на столе, что существенно ограничивает ее возможности в задачах, связанных с пониманием сцены или планированием действий. Неспособность к анализу отношений между объектами снижает устойчивость моделей к шумам и вариациям в изображениях, а также затрудняет обобщение полученных знаний на новые, ранее не встречавшиеся ситуации. Поэтому развитие методов, способных к более глубокому анализу визуальных взаимосвязей, является ключевым направлением в современной компьютерной зрительной обработке.

Monet: Архитектура для рассуждений в скрытом пространстве
Модель Monet представляет собой новую архитектуру, использующую возможности больших языковых моделей для визуального рассуждения в латентном пространстве. В отличие от традиционных подходов, работающих непосредственно с пиксельными данными, Monet обрабатывает изображения в сжатом, латентном представлении, что позволяет снизить вычислительные затраты и повысить эффективность анализа. Этот подход позволяет модели фокусироваться на семантически значимых признаках изображения, а не на деталях низкого уровня, что особенно полезно для решения сложных задач визуального рассуждения, требующих понимания контекста и взаимосвязей между объектами. Использование латентного пространства позволяет модели обобщать знания и применять их к новым, ранее не виденным изображениям.
Модель Monet построена на базе Qwen2.5-VL-7B, что позволяет ей эффективно обрабатывать и анализировать визуальные данные в сжатом представлении. Использование Qwen2.5-VL-7B в качестве основы обеспечивает высокую производительность и масштабируемость, позволяя модели работать с изображениями в латентном пространстве, минимизируя вычислительные затраты и требования к памяти. Такой подход позволяет осуществлять более быструю обработку и анализ визуальной информации по сравнению с обработкой изображений в исходном формате.
В основе работы Monet лежит применение контролируемого обучения (Supervised Fine-Tuning, SFT) для адаптации базовой модели Qwen2.5-VL-7B к задачам логического анализа визуальной информации в латентном пространстве. SFT предполагает обучение модели на размеченном наборе данных, содержащем визуальные стимулы и соответствующие им логические выводы. Этот процесс позволяет оптимизировать параметры модели для повышения точности и эффективности при решении сложных задач визуального рассуждения, в частности, в ситуациях, требующих анализа взаимосвязей между объектами и понимания контекста изображения. Использование SFT позволяет значительно улучшить производительность модели по сравнению с исходной, не обученной на специализированных данных.

Создание набора данных Monet-SFT-125K: Курирование знаний для обучения
Набор данных Monet-SFT-125K является ключевым компонентом фреймворка и представляет собой набор данных, состоящий из последовательностей «изображение-текст», организованных в виде цепочек рассуждений (Chain of Thought, CoT). Эти CoT используются для обучения с учителем (supervised fine-tuning) модели, что позволяет ей улучшить способность к логическому мышлению и генерации последовательных ответов, основанных на визуальной информации и текстовых подсказках. Каждая последовательность включает в себя изображение, сопровождаемое текстовым описанием, и последующие шаги рассуждений, ведущие к конечному ответу или решению.
Для построения набора данных Monet-SFT-125K используются продвинутые большие языковые модели (LLM), такие как DeepSeek-V3.1 и Gemini-2.5-Pro, в качестве оценочных судей. Эти LLM применяются для оценки качества и релевантности генерируемых данных, что включает в себя проверку логической связности и соответствия цепочек рассуждений (CoT) поставленным задачам. Автоматизированная оценка с помощью LLM позволяет значительно повысить эффективность отбора данных и гарантировать, что в набор данных попадают только высококачественные примеры, необходимые для обучения модели целевому поведению.
Тщательный процесс курирования данных имеет решающее значение для согласования модели с желаемым поведением при рассуждениях и максимизации ее производительности. Это достигается за счет применения многоступенчатой системы оценки, где продвинутые языковые модели, такие как DeepSeek-V3.1 и Gemini-2.5-Pro, выступают в роли судей, оценивающих качество и релевантность данных. Выявление и отбраковка некачественных или нерелевантных примеров позволяет обучать модель на данных, которые точно отражают требуемые навыки рассуждений, что напрямую влияет на ее способность решать сложные задачи и генерировать логически обоснованные ответы. В результате, модель демонстрирует улучшенную производительность в задачах, требующих последовательного и аргументированного мышления.

Двойной контроль и управляемый поток внимания: Настройка модели для эффективного рассуждения
В процессе контролируемой дообувки, модель Monet использует подход “двойного контроля”, объединяющий выравнивание представлений с визуальной информацией, полученной из вспомогательных изображений. Это предполагает одновременную оптимизацию для соответствия эмбеддингов изображений и текста, а также использование дополнительной визуальной информации для улучшения качества представлений. Такой подход позволяет модели более эффективно извлекать и использовать визуальные признаки, улучшая ее способность к визуальному рассуждению и пониманию.
Механизм контролируемого потока внимания в Monet ограничивает доступ текстовых токенов к вспомогательным изображениям, позволяя латентным эмбеддингам (векторным представлениям) исключительно взаимодействовать с визуальной информацией из этих источников. Это обеспечивает фокусировку анализа исключительно на визуальных данных, предотвращая влияние текстового контекста на процесс обработки изображений. Данная архитектура позволяет модели эффективно извлекать и анализировать визуальные признаки, необходимые для выполнения задач, связанных с пониманием изображений, без отвлечения на текстовые подсказки или описания.
Метод обучения с предсказанием следующего токена (Next-Token Prediction, NTP) используется для улучшения способности модели к точному и эффективному анализу визуальной информации. NTP предполагает, что модель обучается предсказывать следующий токен в последовательности, основываясь на визуальных данных и предыдущих предсказаниях. Этот процесс способствует формированию более глубокого понимания визуальных характеристик и их взаимосвязей, что позволяет модели более эффективно рассуждать о содержании изображений и решать связанные с ними задачи. В результате, NTP повышает как точность, так и скорость обработки визуальной информации.

Подтверждение эффективности Monet на разнообразных бенчмарках: Результаты и перспективы
Модель Monet демонстрирует впечатляющую способность к мультимодальному рассуждению, что подтверждается результатами тестов на различных бенчмарках. В частности, модель успешно решает задачи, представленные в V*, HRBench, MME-RealWorld и VisualPuzzles, демонстрируя понимание и обработку информации, поступающей из разных источников — текста и изображений. Данные бенчмарки охватывают широкий спектр задач, требующих не только распознавания объектов на изображениях, но и логического вывода, анализа контекста и способности к решению проблем, что свидетельствует о высокой степени адаптивности и интеллектуальных возможностях модели Monet.
Модель Monet демонстрирует значительные успехи в решении задач мультимодального рассуждения, превосходя базовую модель Qwen2.5-VL-7B по ключевым показателям. В частности, на бенчмарке V* достигнута точность в 9.75%, что свидетельствует о высокой эффективности в сложных визуальных задачах. Кроме того, на бенчмарке HRBench4k, предназначенном для оценки способности к рассуждениям, зафиксировано улучшение на 4.25%, что подтверждает способность модели к более глубокому пониманию и анализу информации. Эти результаты подчеркивают потенциал Monet для решения широкого спектра интеллектуальных задач, требующих интеграции визуальных и текстовых данных.
Модель Monet демонстрирует превосходство над существующими подходами в решении задач визуального мышления, особенно ярко это проявляется на бенчмарке VisualPuzzles, где она достигает наилучших результатов. Новаторским является и то, что Monet проявляет высокую способность к обобщению — она успешно справляется с задачами, существенно отличающимися от тех, на которых обучалась. Это указывает на то, что модель не просто запоминает шаблоны, а действительно понимает взаимосвязи между визуальной информацией и логическими рассуждениями, что делает её особенно ценной для применения в реальных условиях, где данные часто отличаются от тренировочных выборок. Такая способность к адаптации открывает перспективы для создания более надежных и универсальных систем искусственного интеллекта.

Наблюдатель отмечает, что стремление к элегантным решениям в области мультимодальных моделей, как демонстрирует Monet, неизбежно натыкается на суровую реальность продакшена. Разумные вычисления в скрытом визуальном пространстве, предложенные в работе, звучат многообещающе, но каждое новое представление, каждая абстракция, лишь добавляет слоев потенциальных поломок. Как справедливо заметил Эндрю Ын: «Самый большой враг хорошего — лучшее». Стремление к совершенству в обработке изображений и текста, как и в любой сложной системе, рано или поздно приведёт к необходимости разбираться в очередном хаосе зависимостей и неожиданных взаимодействий. Документация к этим слоям, конечно, останется мифом, созданным менеджерами.
Что дальше?
Представленный фреймворк, манипулирующий скрытыми визуальными представлениями, безусловно, элегантен. Однако, каждая новая абстракция неминуемо обречена на столкновение с жестокой реальностью продакшена. Улучшение производительности на задачах восприятия и рассуждения — это, конечно, хорошо, но стоит помнить: всё, что можно задеплоить — однажды упадёт. Вопрос не в том, если возникнут краевые случаи, когда латентное пространство покажет свою непредсказуемость, а в том, когда это произойдет.
Перспективы дальнейших исследований, вероятно, лежат в области повышения робастности этих латентных представлений. Устойчивость к шумам, вариациям освещения, и, что наиболее важно, к неожиданным комбинациям объектов — вот где кроется истинный вызов. Попытки «приручить» латентное пространство посредством обучения с подкреплением — это лишь один из возможных путей. Но даже идеально выверенная система рано или поздно встретит задачу, для которой её латентные представления окажутся недостаточными.
В конечном счёте, как и любая сложная система, и эта будет эволюционировать, сталкиваясь с новыми проблемами и ограничениями. И, возможно, в этом и заключается её красота: в способности красиво умирать, предоставляя материал для новых, более устойчивых решений. Каждая «революционная» технология завтра станет техдолгом, и это — неизбежный закон.
Оригинал статьи: https://arxiv.org/pdf/2511.21395.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- LLM: математика — предел возможностей.
- Кандинский 5.0: Искусство генерации изображений и видео
- Волны под контролем: Ускорение моделирования материалов с дефектами
- Квантовые симуляторы: Преодолевая ограничения памяти
- Квантовое обучение: новый взгляд на фазовые переходы
- Маленький шаг в скрытом пространстве — огромный скачок для изображения
- Квантовая схема: адаптация к шуму для многочиповых систем
- Квантовая симуляция без издержек: новый подход к динамике открытых систем
- Квантовое моделирование затухающих волн: новый подход к точности и эффективности
2025-11-27 08:21