Видение и Действие: Новые Модели для Понимания Изображений и Управления Роботами

Автор: Денис Аветисян


Исследователи представили семейства моделей Dream-VL и Dream-VLA, способных не только понимать визуальный контент, но и планировать действия робота на его основе.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Семейство моделей Dream, основанное на диффузионной языковой модели Dream-7B, представляет собой передовое решение в области мультимодального понимания и планирования, демонстрирующее возможности долгосрочного прогнозирования и служащее основой для создания первой предварительно обученной диффузионной модели визуально-языкового агента (dVLA), предназначенной для решения широкого спектра задач.
Семейство моделей Dream, основанное на диффузионной языковой модели Dream-7B, представляет собой передовое решение в области мультимодального понимания и планирования, демонстрирующее возможности долгосрочного прогнозирования и служащее основой для создания первой предварительно обученной диффузионной модели визуально-языкового агента (dVLA), предназначенной для решения широкого спектра задач.

Представленные модели используют диффузионные языковые модели для достижения конкурентоспособной производительности в задачах визуального понимания и планирования действий, превосходя традиционные авторегрессивные подходы.

Авторегрессионные большие модели «зрение-язык» демонстрируют впечатляющие результаты, но их последовательная генерация ограничивает эффективность в сложных задачах визуального планирования и управлении роботами. В данной работе, представленной в статье ‘Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone’, предлагается альтернативный подход, основанный на диффузионных языковых моделях. Разработанные модели Dream-VL и Dream-VLA демонстрируют конкурентоспособные показатели в задачах визуального понимания и планирования действий, превосходя традиционные авторегрессионные модели за счет улучшения возможностей планирования и эффективной генерации действий. Смогут ли диффузионные модели стать основой для нового поколения систем визуального интеллекта и робототехники?


За пределами токенов: Ограничения авторегрессионных визуально-языковых моделей

Традиционные авторегрессионные большие языковые модели, несмотря на свою вычислительную мощь, испытывают трудности при решении задач, требующих сложного визуального рассуждения и планирования. Основная проблема заключается в их последовательной природе обработки информации — модели генерируют выходные данные по одному элементу за раз, что затрудняет понимание взаимосвязей между различными частями изображения или сцены. В отличие от человеческого зрения, способного охватить всю картину целиком, авторегрессионные модели вынуждены последовательно анализировать визуальные данные, что может приводить к потере контекста и неточностям в рассуждениях, особенно в ситуациях, требующих комплексного планирования действий на основе визуальной информации. Такой подход ограничивает их способность к эффективному решению задач, требующих понимания пространственных отношений, причинно-следственных связей и прогнозирования будущих событий на основе визуального контекста.

Авторегрессионные модели, работающие с визуальной и текстовой информацией, часто демонстрируют ограниченные возможности при решении задач, требующих целостного понимания контекста. Это связано с тем, что они, как правило, обрабатывают визуальные и текстовые данные последовательно, что затрудняет установление сложных взаимосвязей между ними. Например, при анализе изображения и сопровождающего его текста, модель может упустить важные детали, требующие одновременного рассмотрения обоих источников информации. В результате, способность модели к комплексному рассуждению и пониманию общей картины значительно снижается, что приводит к ошибкам в задачах, требующих интеграции различных модальностей данных и учета контекста в целом.

Увеличение масштаба авторегрессионных визуально-языковых моделей, несмотря на значительные вычислительные затраты, не решает фундаментальную проблему — ограниченность способности к рассуждениям. Несмотря на то, что наращивание параметров позволяет моделям запоминать больше информации и лучше обобщать данные, это не приводит к качественному улучшению способности к логическому анализу и планированию сложных действий. Простое увеличение вычислительных ресурсов не способно преодолеть внутренние ограничения архитектуры, препятствующие эффективной интеграции визуальных и текстовых данных для задач, требующих глубокого понимания контекста и способности к дедуктивным умозаключениям. Таким образом, дальнейшее масштабирование без принципиальных изменений в архитектуре представляется неэффективным путем к созданию действительно разумных систем.

Для выполнения задач с долгосрочным планированием и высокой точностью требуется как символическое высокоуровневое планирование, оперирующее абстрактными командами, так и низкоуровневое, обеспечивающее точное управление роботом и требующее дополнительного обучения для интеграции с моделями обработки естественного языка и зрения.
Для выполнения задач с долгосрочным планированием и высокой точностью требуется как символическое высокоуровневое планирование, оперирующее абстрактными командами, так и низкоуровневое, обеспечивающее точное управление роботом и требующее дополнительного обучения для интеграции с моделями обработки естественного языка и зрения.

Диффузионные LLM: Новый подход к визуальному пониманию

Диффузионные модели представляют собой перспективную альтернативу авторегрессионным подходам в задачах визуального понимания. В отличие от авторегрессии, где выход генерируется последовательно, диффузионные модели работают путем итеративного уточнения, начиная с шума и постепенно формируя изображение или другой визуальный вывод. Этот процесс позволяет добиться более устойчивых и гибких результатов, поскольку модель не зависит от последовательности предыдущих шагов. Вместо предсказания следующего токена, как в авторегрессионных сетях, диффузионные модели предсказывают шум, добавленный на каждом шаге, что позволяет восстановить сигнал и создать более детализированное и правдоподобное изображение. Такой подход особенно полезен в задачах, где требуется генерировать сложные и разнообразные визуальные представления.

Представление задач, связанных с обработкой изображений и языка, как процесса диффузии позволяет использовать сильные стороны больших языковых моделей (LLM) для управления генерацией связных и контекстуально релевантных выходных данных. В традиционных подходах LLM оперируют дискретными токенами, что ограничивает их способность к детализированному моделированию визуальной информации. В рамках диффузионного подхода, LLM направляют процесс постепенного уточнения изображения из случайного шума, определяя вероятностное распределение, соответствующее желаемому результату. Это позволяет LLM эффективно кодировать семантическую информацию и использовать её для формирования визуального контента, что приводит к более реалистичным и логичным результатам по сравнению с методами, основанными на прямой генерации токенов.

Интеграция диффузионных моделей с большими языковыми моделями (LLM) позволяет выйти за рамки простого предсказания токенов, открывая новые возможности в области визуального планирования и рассуждений. В традиционных подходах LLM генерируют текст последовательно, предсказывая следующий токен на основе предыдущих. В отличие от этого, объединение с диффузионными моделями позволяет LLM управлять процессом генерации изображений, начиная с шума и постепенно уточняя его для создания визуального представления желаемого результата. Это дает возможность LLM не просто описывать сцену, но и планировать действия и рассуждать о возможных последствиях, визуализируя различные сценарии и выбирая оптимальный путь к цели. Такой подход особенно важен для задач, требующих сложного визуального мышления, например, для робототехники или автономного вождения.

Предварительное обучение робота с использованием функции потерь flow matching значительно повышает его производительность в различных задачах.
Предварительное обучение робота с использованием функции потерь flow matching значительно повышает его производительность в различных задачах.

Dream-VLA: Воплощенный интеллект через диффузию

Dream-VLA использует диффузионный процесс, управляемый большой языковой моделью, для генерации сложных последовательностей действий, необходимых для задач манипулирования роботами. Этот подход позволяет системе создавать реалистичные и скоординированные движения, необходимые для выполнения различных задач, таких как захват и перемещение объектов. Диффузия, в данном контексте, представляет собой итеративный процесс, начинающийся со случайного шума и постепенно преобразующийся в целевую последовательность действий под руководством языковой модели, которая обеспечивает понимание контекста и цели манипуляции. Языковая модель выступает в роли «планировщика», определяя общую стратегию, а диффузионный процесс — в качестве механизма детализации и реализации этой стратегии в конкретные команды для робота.

Предварительное обучение Dream-VLA на наборе данных Open-X Embodiment обеспечивает модель обширным опытом в области робототехнических взаимодействий. Этот датасет содержит разнообразные сцены и действия, включающие как визуальные данные, так и информацию о выполнении задач роботами. В результате предварительного обучения Dream-VLA формирует глубокое понимание физики объектов, закономерностей движения и типичных последовательностей действий, что позволяет ей эффективно обобщать знания на новые, ранее не встречавшиеся сценарии манипулирования и повышает устойчивость к изменениям в окружающей среде. Использование большого объема размеченных данных в процессе предварительного обучения значительно улучшает способность модели к планированию и выполнению сложных задач.

Для повышения точности и эффективности планирования действий в Dream-VLA используются методы сопоставления потоков (flow matching) и дискретной диффузии. Сопоставление потоков позволяет моделировать непрерывные траектории движения робота, упрощая процесс обучения и генерации плавных действий. Дискретная диффузия, в свою очередь, преобразует задачу планирования в последовательность дискретных шагов, что облегчает поиск оптимальных решений и снижает вычислительную сложность. Комбинация этих техник позволяет Dream-VLA генерировать более реалистичные и эффективные последовательности действий для задач манипулирования.

Кривые потерь Dream-VLA и OpenVLA-OFT демонстрируют зависимость от выбранной цели тонкой настройки.
Кривые потерь Dream-VLA и OpenVLA-OFT демонстрируют зависимость от выбранной цели тонкой настройки.

Превосходные результаты и широкая применимость

Исследования показали, что Dream-VLA демонстрирует превосходящие результаты в задачах роботизированной манипуляции как в симулированных средах (SimplerEnv, LIBERO), так и в реальном мире, значительно превосходя авторегрессионные модели, такие как Qwen2.5-VL и OpenVLA-OFT. В ходе тестирования на бенчмарке LIBERO Dream-VLA достигла средней общей успешности в 97.2%, что незначительно превышает показатель OpenVLA-OFT в 97.1%. Более того, при использовании робота WidowX, Dream-VLA показала среднюю общую успешность в 71.4%, существенно опережая предыдущий лучший результат в 54.2%. Эти результаты подтверждают способность Dream-VLA эффективно решать сложные задачи манипулирования, адаптируясь к различным условиям и демонстрируя повышенную надежность в сравнении с существующими подходами.

В ходе тестирования на бенчмарке LIBERO, модель Dream-VLA продемонстрировала выдающиеся результаты, достигнув общей средней успешности в 97.2%. Этот показатель незначительно, но уверенно превосходит результат OpenVLA-OFT, составивший 97.1%. Такое превосходство, хотя и кажется небольшим, подчеркивает повышенную надежность и точность Dream-VLA при решении сложных задач манипулирования в реальных условиях. Высокая успешность на LIBERO свидетельствует о способности модели эффективно планировать и выполнять последовательности действий, необходимые для достижения поставленных целей в разнообразных сценариях.

В ходе экспериментов с роботом WidowX, модель Dream-VLA продемонстрировала впечатляющий общий процент успешного выполнения задач — 71.4%. Этот результат значительно превосходит показатели предыдущего лидера в данной области, составлявшие 54.2%. Подобный скачок в эффективности указывает на способность Dream-VLA более точно и надежно планировать и осуществлять сложные манипуляции с объектами в реальных условиях, открывая новые возможности для автоматизации процессов в различных отраслях, включая производство и логистику.

Способность Dream-VLA успешно справляться со сложными последовательностями действий и адаптироваться к различным условиям открывает широкие перспективы для его применения в различных отраслях. В частности, в производственном секторе система может оптимизировать процессы сборки и контроля качества, выполняя тонкие манипуляции с объектами. В сфере логистики Dream-VLA способен автоматизировать задачи сортировки, упаковки и перемещения грузов, повышая эффективность работы складов и транспортных узлов. Кроме того, потенциал системы простирается и на здравоохранение, где она может быть использована для помощи в хирургических операциях, реабилитации пациентов и автоматизации задач ухода за больными, обеспечивая более точное и надежное выполнение рутинных процедур.

Исследования показали, что возможности Dream-VLA не ограничиваются исключительно робототехническими манипуляциями. Оценка производительности на визуальных бенчмарках планирования, таких как ViPlan, и в задачах мультимодального понимания, представленных MMMU, демонстрирует способность модели эффективно решать широкий спектр задач, выходящих за рамки управления роботами. Это указывает на универсальность архитектуры Dream-VLA и ее потенциал для применения в различных областях, где требуется понимание визуальной информации и выполнение сложных последовательностей действий, например, в автоматизированном анализе изображений, интеллектуальных системах помощи и других приложениях, требующих интеграции визуальных и языковых данных.

Результаты тестирования языковых моделей с визуальным вводом (VLMs) на бенчмарке ViPlan (merler2025viplan) демонстрируют их производительность в задачах планирования.
Результаты тестирования языковых моделей с визуальным вводом (VLMs) на бенчмарке ViPlan (merler2025viplan) демонстрируют их производительность в задачах планирования.

Будущее воплощенного ИИ: Диффузия и за ее пределами

Успех модели Dream-VLA наглядно демонстрирует потенциал, который несут диффузионные большие языковые модели (LLM) для развития интеллекта в воплощенном искусственном интеллекте. Этот подход позволяет создавать системы, способные не просто понимать инструкции, но и эффективно действовать в реальном мире. В отличие от традиционных методов, диффузионные LLM способны генерировать разнообразные и правдоподобные траектории действий, учитывая сложные и непредсказуемые условия окружающей среды. Достигнутая модель успешно справляется с задачами, требующими планирования и адаптации, что открывает новые перспективы для создания роботов, способных к автономной работе и взаимодействию с человеком в различных сферах, от бытовых задач до сложных промышленных процессов. Внедрение данной технологии является значительным шагом на пути к созданию действительно интеллектуальных машин, способных к обучению и решению проблем, аналогичных человеческим.

Исследования показали, что модель Dream-VLA достигла значительного успеха в решении задач SimplerEnv, демонстрируя 60.5%-ный уровень успешности. Этот результат позволяет ей находиться на одном уровне с моделью π0+FAST и превосходить показатели OpenVLA-OFT (54.3%) и GR00T-N1 (48.4%). Достигнутая эффективность свидетельствует о перспективности подхода, основанного на диффузионных языковых моделях, для управления робототехническими системами и решения сложных задач в интерактивной среде.

Исследования показали, что модель Dream-VLA демонстрирует значительное ускорение процесса предсказания действий — в 27 раз по сравнению с существующими подходами, используя всего один шаг диффузии. Это достигается благодаря новой архитектуре, позволяющей эффективно моделировать сложные зависимости между визуальными данными и планируемыми действиями робота. Такое увеличение скорости не только снижает вычислительные затраты, но и открывает возможности для применения модели в реальном времени, где требуется быстрое реагирование на изменяющиеся условия окружающей среды. Ускорение предсказания действий является ключевым фактором для создания более адаптивных и эффективных робототехнических систем, способных действовать в динамичных и непредсказуемых ситуациях.

Дальнейшие исследования в области воплощенного искусственного интеллекта сосредоточены на повышении эффективности и масштабируемости диффузионных моделей. Ученые стремятся оптимизировать алгоритмы, чтобы снизить вычислительные затраты и обеспечить работу моделей на более доступном оборудовании. Особое внимание уделяется разработке методов интеграции априорных знаний — информации, полученной из других источников или предыдущего опыта — в процесс обучения. Это позволит моделям быстрее адаптироваться к новым ситуациям и принимать более обоснованные решения. Кроме того, ведутся работы по созданию техник, позволяющих эффективно обучаться на ограниченном объеме данных, что особенно важно для реальных сценариев, где сбор больших датасетов может быть затруднителен или невозможен. Успешная реализация этих направлений откроет путь к созданию более надежных, адаптивных и экономичных роботов, способных решать широкий спектр задач в различных сферах жизни.

Происходящий сдвиг парадигмы в области искусственного интеллекта обещает кардинально изменить будущее робототехники. Новые модели, такие как Dream-VLA, демонстрируют способность к беспрецедентному взаимодействию с окружающим миром, открывая перспективы для создания роботов, способных не просто выполнять запрограммированные действия, но и адаптироваться к сложным и непредсказуемым ситуациям. Это позволит создавать роботов-помощников, способных оказывать поддержку человеку в широком спектре задач — от бытовых дел до сложных промышленных операций и работы в опасных условиях. Улучшение способности к пониманию и реагированию на окружающую среду позволит роботам более эффективно сотрудничать с людьми, делая взаимодействие более интуитивным и безопасным, и в конечном итоге, интегрируя роботов в повседневную жизнь.

Сравнение архитектур различных VLA-моделей демонстрирует различия в их структуре и принципах работы.
Сравнение архитектур различных VLA-моделей демонстрирует различия в их структуре и принципах работы.

Исследование, представленное в данной работе, демонстрирует, что визуальное понимание — это не просто распознавание объектов, а сложный процесс интерпретации закономерностей, лежащих в основе визуальных данных. Модели Dream-VL и Dream-VLA, основанные на диффузионных моделях, показывают впечатляющие результаты в планировании действий и понимании визуальной информации. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен помогать людям, а не заменять их». Эта мысль особенно актуальна в контексте разработки систем, способных к эффективному визуальному планированию и взаимодействию с миром, ведь конечная цель — усилить возможности человека, а не создать автономного агента, действующего без участия человека. Способность моделей к генерации последовательностей действий подчеркивает их потенциал в области робототехники и автоматизации.

Что Дальше?

Представленные модели Dream-VL и Dream-VLA, безусловно, демонстрируют многообещающий сдвиг в парадигме визуально-языкового моделирования, используя возможности диффузионных моделей. Однако, за кажущейся элегантностью архитектуры скрывается ряд нерешенных вопросов. Способность к планированию действий, хотя и улучшена, все еще далека от интуитивной гибкости, свойственной живым существам. Очевидно, что эффективность алгоритмов, генерирующих последовательности действий, остается узким местом, требующим дальнейшей оптимизации и, возможно, принципиально новых подходов к представлению и обработке временных зависимостей.

Более того, устойчивость моделей к неполным или неоднозначным визуальным данным, а также их способность к экстраполяции за пределы обучающего набора, остаются предметом пристального внимания. Ирония заключается в том, что чем более “умными” становятся алгоритмы, тем более очевидными становятся границы их понимания. Поиск методов, позволяющих моделям осознавать собственную неопределенность и запрашивать дополнительную информацию, представляется критически важным направлением исследований.

В конечном счете, истинный прогресс заключается не в создании все более сложных моделей, а в углублении понимания фундаментальных принципов, лежащих в основе визуального восприятия и планирования. Задача состоит не в том, чтобы “научить” машину видеть и действовать, а в том, чтобы раскрыть закономерности, управляющие этими процессами, и воплотить их в алгоритмах. И этот путь, несомненно, будет полон неожиданных открытий и разочарований.


Оригинал статьи: https://arxiv.org/pdf/2512.22615.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-30 17:37