Зрение и язык: новый шаг к автономному вождению

Автор: Денис Аветисян


Исследователи разработали систему, объединяющую данные лидаров и языковых моделей для более точного восприятия окружающего мира и принятия решений автомобилем-автопилотом.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В отличие от типичных визуально-языковых моделей, использующих исключительно изображения для обучения через ответы на вопросы, представленный подход использует как изображения, так и данные лидара, применяя специально разработанные вопросы, учитывающие пространственное расположение объектов, для эффективной интеграции лидара и углубленного понимания пространственной информации.
В отличие от типичных визуально-языковых моделей, использующих исключительно изображения для обучения через ответы на вопросы, представленный подход использует как изображения, так и данные лидара, применяя специально разработанные вопросы, учитывающие пространственное расположение объектов, для эффективной интеграции лидара и углубленного понимания пространственной информации.

Представлена LVLDrive — платформа, эффективно интегрирующая LiDAR данные с большими языковыми моделями для улучшения 3D-восприятия и принятия решений в автономном вождении.

Несмотря на многообещающие результаты моделей «зрение-язык» в автономном вождении, их зависимость от двумерных изображений ограничивает понимание сложных пространственных отношений и надежность принятия решений. В данной работе, посвященной разработке ‘Spatial-aware Vision Language Model for Autonomous Driving’, предложен фреймворк LVLDrive, эффективно интегрирующий данные лидара с большими языковыми моделями для улучшения трехмерного пространственного восприятия. Ключевым достижением стало повышение точности понимания сцен и надежности принятия решений благодаря инновационному механизму постепенного объединения данных и специализированному набору данных для обучения пространственному мышлению. Не станет ли расширение моделей за счет явного учета трехмерной информации определяющим фактором в создании действительно надежных систем автономного вождения?


Трудности Пространственного Восприятия в Автономном Вождении

Традиционные системы автономного вождения сталкиваются с трудностями в построении точной трехмерной модели окружающего пространства, в значительной степени полагаясь на данные, получаемые от различных сенсоров. Однако эти данные зачастую содержат шум и погрешности, обусловленные несовершенством самих сенсоров, а также внешними факторами, такими как погодные условия и освещенность. Это приводит к неточностям в определении расстояний до объектов, их размеров и взаимного расположения, что критически влияет на принятие решений в реальном времени. Неспособность системы адекватно интерпретировать искаженные данные может привести к ошибочным маневрам, столкновениям и, как следствие, к серьезным последствиям для безопасности движения. Поэтому разработка методов фильтрации шумов и повышения надежности сенсорных данных является одной из ключевых задач в области автономного вождения.

Эффективное пространственное мышление и точное определение местоположения объектов являются основополагающими для безопасной навигации автономных транспортных средств, однако современные Визуально-Языковые Модели (VLM) сталкиваются с существенными трудностями в этой области. Несмотря на значительный прогресс в обработке изображений и естественного языка, VLM зачастую испытывают сложности в интерпретации трехмерной структуры окружающего мира и корректном определении координат объектов в реальном времени. Это связано с тем, что модели склонны к ошибкам при обработке неполных или зашумленных данных, а также испытывают трудности в интеграции визуальной информации с лингвистическими описаниями, что может приводить к неверным решениям в критических ситуациях на дороге. Достижение высокой точности в пространственном понимании и локализации объектов остается ключевой задачей для обеспечения надежной и безопасной работы автономных систем.

Современные системы автономного вождения часто сталкиваются с трудностями при эффективной интеграции различных источников данных — изображений с камер, показаний лидаров и радаров, а также информации из карт высокой четкости. Эта неспособность к полноценному мультисенсорному синтезу приводит к неопределенности в восприятии окружающей среды, особенно в сложных дорожных ситуациях. В результате, система может ошибочно интерпретировать положение объектов, их скорость и траекторию движения, что критически влияет на процесс принятия решений и может привести к аварийным ситуациям. Несмотря на значительный прогресс в области машинного обучения, создание надежных систем, способных уверенно работать в условиях неполной или противоречивой информации, остается одной из ключевых задач в разработке полностью автономных транспортных средств.

LVLDrive обрабатывает мультимодальные данные (текст, изображения и облака точек) с помощью предварительно обученных энкодеров, языковой модели и модуля Gradual Fusion Q-Former, объединяющего визуальные и лингвистические представления для генерации целевых ответов, при этом обучаемые компоненты обозначены символом пламени.
LVLDrive обрабатывает мультимодальные данные (текст, изображения и облака точек) с помощью предварительно обученных энкодеров, языковой модели и модуля Gradual Fusion Q-Former, объединяющего визуальные и лингвистические представления для генерации целевых ответов, при этом обучаемые компоненты обозначены символом пламени.

LVLDrive: Лидар, Визуальные Данные и Язык для Улучшенного Восприятия

LVLDrive представляет собой новую структуру, объединяющую данные лидара и визуальную информацию для достижения точной трехмерной реконструкции сцены и локализации объектов. Интеграция осуществляется посредством последовательной обработки данных лидара и изображений, что позволяет системе формировать детальное представление окружающего пространства. Использование данных лидара, предоставляющих точную информацию о глубине, в сочетании с семантическим пониманием, обеспечиваемым визуальным входом, значительно повышает надежность и точность определения местоположения объектов, особенно в сложных условиях освещения или при наличии препятствий. Данный подход обеспечивает более полное и детальное восприятие окружающей среды по сравнению с системами, использующими только один тип сенсора.

Ключевым компонентом LVLDrive является Gradual Fusion Q-Former, архитектура, предназначенная для выборочного внедрения LiDAR-вложений в визуально-языковую модель (VLM). В отличие от прямого объединения данных, Q-Former последовательно обрабатывает и интегрирует LiDAR-информацию, фокусируясь на релевантных пространственных признаках. Этот процесс осуществляется посредством механизма запросов (queries), которые динамически определяют наиболее значимые области в облаке точек LiDAR для последующего объединения с визуальными данными. Приоритезация пространственной информации позволяет снизить влияние шума и повысить точность определения местоположения объектов и реконструкции 3D-сцены, обеспечивая более эффективное взаимодействие между LiDAR и VLM.

В системе LVLDrive для динамического управления потоком информации от LiDAR к VLM используется механизм gated attention. Этот механизм позволяет выборочно пропускать и подавлять сигналы LiDAR, основываясь на их релевантности и качестве. Фактически, он функционирует как управляемый фильтр, который уменьшает влияние шума и нерелевантных данных, поступающих от LiDAR. Это достигается путем использования вентилей (gates), которые взвешивают вклад каждого LiDAR-эмбеддинга перед его интеграцией в VLM, тем самым повышая точность и стабильность восприятия сцены.

Модуль постепенного слияния Q-Former обрабатывает данные с помощью двух слоев многоголового внимания, где первый слой использует обучаемые векторы-переносчики и экземпляры в качестве запросов, ключей и значений, дополненных памятью и 3D позиционными вложениями, а второй слой интегрирует признаки изображения и точек с аналогичным позиционным кодированием и дополнительным управлением точечными признаками посредством нулевого затвора, после чего выходные запросы оптимизируются как с помощью 3D-восприятия, так и градиентов языковой модели.
Модуль постепенного слияния Q-Former обрабатывает данные с помощью двух слоев многоголового внимания, где первый слой использует обучаемые векторы-переносчики и экземпляры в качестве запросов, ключей и значений, дополненных памятью и 3D позиционными вложениями, а второй слой интегрирует признаки изображения и точек с аналогичным позиционным кодированием и дополнительным управлением точечными признаками посредством нулевого затвора, после чего выходные запросы оптимизируются как с помощью 3D-восприятия, так и градиентов языковой модели.

Валидация и Производительность на Наборе Данных nuScenes

LVLDrive обучается и оценивается на масштабном наборе данных nuScenes, который является общепринятым стандартом для оценки систем восприятия в задачах автономного вождения. nuScenes содержит более 1000 сцен, собранных в реальных условиях городской среды, включающих данные с камер, лидаров и радаров, а также аннотации объектов, дорожной разметки и событий. Этот набор данных обеспечивает комплексную оценку производительности системы в различных сценариях, включая сложные перекрестки, пешеходов и меняющиеся погодные условия, что делает его критически важным инструментом для разработки и валидации алгоритмов автономного вождения.

В ходе оценки системы LVLDrive на наборе данных nuScenes было зафиксировано значительное улучшение результатов в задачах визуального вопросно-ответного анализа, учитывающего пространственную информацию. Система достигла показателя CIDEr (Consensus-based Image Description Evaluation) равного 21.65, что демонстрирует превосходство над базовыми моделями, используемыми для сравнения. Данный показатель отражает способность системы генерировать описания сцен, наиболее соответствующие консенсусу экспертов, и свидетельствует о более точном понимании визуального контекста и пространственных отношений между объектами.

Система продемонстрировала высокую эффективность в задачах, требующих точной локализации объектов, определения проходимой области и оценки риска столкновений. В ходе экспериментов зафиксирован минимальный уровень столкновений — всего 0,27%, что является лучшим показателем среди протестированных систем. Кроме того, достигнут показатель пересечения (intersection rate) в 2,83%, что свидетельствует о точности определения границ проходимой области и корректной локализации объектов на сцене.

Расширение Возможностей: Наборы Данных и Будущие Направления

Для обучения пространственному мышлению системы критически важен специально разработанный набор данных SA-QA. Он создан на основе широко известного набора nuScenes и значительно расширен за счет включения меток из OpenLane Dataset, что позволяет более детально учитывать разметку дорожной обстановки. Такое обогащение данных позволяет модели не только распознавать объекты, но и понимать их взаимное расположение, а также прогнозировать поведение участников дорожного движения. В результате, система получает возможность более эффективно оценивать риски столкновений и планировать безопасные траектории, что является ключевым для автономного вождения.

Система использует представление данных в формате «вид сверху» (Bird’s-Eye View), что позволяет ей эффективно оценивать потенциальные риски столкновений и планировать безопасные траектории движения. Такой подход позволяет модели воспринимать окружающую обстановку как двухмерную карту, где объекты представлены в плане, что значительно упрощает анализ расстояний и углов между ними. Это, в свою очередь, позволяет системе более точно прогнозировать поведение других участников дорожного движения и избегать опасных ситуаций, обеспечивая повышенный уровень безопасности и надежности при автономном вождении. Благодаря такому визуальному представлению, алгоритмы планирования траектории могут оперативно выстраивать оптимальные маршруты, учитывая все потенциальные угрозы и ограничения.

Система LVLDrive продемонстрировала наивысшую эффективность в экспериментах, достигнув среднего значения Intersection over Union (mIoU) в 0.22 при решении задач 3D-локализации. Этот показатель свидетельствует о значительно улучшенной способности системы точно определять положение объектов в трехмерном пространстве. Дальнейшая оптимизация посредством Instruction Tuning позволила усовершенствовать способность модели понимать и выполнять сложные команды управления транспортным средством, а также предоставлять логически обоснованные объяснения своим действиям, что является важным шагом к созданию надежных и прозрачных систем автономного вождения.

В SA-QA система выделяет замаскированные области и указывает направление связи между ними с помощью красных стрелок для обеспечения визуального понимания вопросов и ответов.
В SA-QA система выделяет замаскированные области и указывает направление связи между ними с помощью красных стрелок для обеспечения визуального понимания вопросов и ответов.

Наблюдатель отмечает, что представленная работа, LVLDrive, стремится объединить данные LiDAR с возможностями больших языковых моделей. Звучит как очередная попытка заставить теорию не конфликтовать с реальностью дорог. Как заметил Ян Лекун: «Машинное обучение — это просто сложная форма интерполяции». И в данном случае, интерполяция происходит между лидарами, камерами и, что самое смелое, языком. Попытка улучшить 3D-восприятие и пространственное мышление для автономного вождения — благородное дело, но всегда нужно помнить: продакшен найдет способ сломать даже самую элегантную архитектуру, особенно когда дело касается непредсказуемости дорожной обстановки и пешеходов.

Что дальше?

Представленная работа, безусловно, добавляет ещё один слой сложности в и без того непростой танец между восприятием и принятием решений в автономном вождении. Интеграция LiDAR и больших языковых моделей — шаг логичный, хотя и неизбежно ведущий к увеличению поверхности атаки для любых, даже самых экзотических, краевых случаев. Всё, что обещает «самовосстановление» в системах, просто ещё не сломалось достаточно креативно.

Очевидно, что настоящая проблема не в улучшении 3D-восприятия как такового, а в создании системы, способной достойно обрабатывать непредсказуемость реального мира. Обучение на «пространственно-осведомлённых» наборах данных — это хорошо, но документация к этим наборам данных — это форма коллективного самообмана. Пока система стабильно воспроизводит баг — это признак стабильности, а не ошибки.

Следующим этапом, вероятно, станет попытка встроить в эти системы некое подобие здравого смысла, или, что ещё вероятнее, создать ещё более сложный слой абстракций, который рано или поздно рухнет под тяжестью нерешённых проблем. Каждая «революционная» технология завтра станет техдолгом. Продакшен всегда найдёт способ сломать элегантную теорию.


Оригинал статьи: https://arxiv.org/pdf/2512.24331.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-04 05:12