Путь разума: как нейросети осваивают навигацию в реальном мире

Автор: Денис Аветисян

Новый бенчмарк NaviTrace позволяет оценить способность моделей, сочетающих зрение и язык, к планированию маршрутов и пониманию окружающего пространства.

Несмотря на корректное логическое рассуждение, модель o3 не способна вывести соответствующую траекторию, демонстрируя разрыв между способностью к умозаключениям и фактическим прогнозированием.

Исследование представляет NaviTrace – инструмент для оценки навигационных способностей моделей «зрение-язык», выявляющий значительный разрыв между их возможностями и человеческим восприятием.

Несмотря на впечатляющие успехи моделей «зрение-язык», оценка их способности к навигации в реальном мире остается сложной задачей. В данной работе представлена платформа ‘NaviTrace: Evaluating Embodied Navigation of Vision-Language Models’ – новый бенчмарк, предназначенный для систематической оценки предсказания траекторий навигации для различных типов воплощений (гуманоид, четвероногое или колесное робототехническое устройство). Анализ восьми современных моделей показал существенный разрыв между их результатами и человеческим уровнем, обусловленный проблемами пространственной привязки и локализации цели. Позволит ли NaviTrace ускорить разработку более надежных и эффективных систем навигации для роботов нового поколения?

Пределы Визуально-Языковой Навигации

Современные эталоны Vision-Language Navigation (VLN) часто демонстрируют недостаток реализма, ограничивая оценку навигационных способностей в сложных условиях. Существующие модели испытывают трудности в понимании поведения воплощенных агентов и социальных контекстов. Необходим более всесторонний эталон, включающий разнообразные среды, сложные инструкции и взаимодействие с другими агентами, превосходящий существующие наборы данных по объему и сложности.

Ранжирование визуальных языковых моделей (VLM), базового алгоритма Straight Forward и экспертной оценки человека по каждой форме реализации показывает, что более высокие баллы соответствуют лучшей производительности, что позволяет сравнить эффективность различных моделей в различных контекстах.

Совершенная навигационная модель должна проявлять безупречную логику во взаимодействии с миром, подобно чистому коду.

NaviTrace: Эталон Надежной Навигации

NaviTrace использует двумерные траектории как основное представление, обеспечивая универсальную основу для оценки производительности навигации. Эталон состоит из 1000 разнообразных сценариев реального мира, включающих более 3000 траекторий и 4 типа воплощений агентов, обеспечивая всестороннюю оценку в различных контекстах.

Сравнение масок штрафов, полученных с помощью Mask2Former и ручной сегментации, демонстрирует, что обе методики эффективно наказывают траектории, пересекающие небезопасные или нерелевантные области, при этом корреляция между оценками модели и парным ранжированием, созданным человеком, подтверждает соответствие функции оценки человеческим предпочтениям.

Для оценки точности используются комбинации метрик, включая Dynamic Time Warping и ошибку конечной точки. Эти метрики позволяют количественно оценить качество навигации и выявить слабые места в различных алгоритмах.

Семантическое Понимание и Реалистичные Штрафы

NaviTrace использует семантическую сегментацию для идентификации проходимых участков и препятствий, применяя реалистичные штрафы за отклонение от безопасных траекторий. Модель обучается на Mapillary Vistas, обеспечивая надежность и обобщающую способность. Полученная функция оценки демонстрирует высокую корреляцию с предпочтениями человека, подтверждая соответствие алгоритма интуитивным ожиданиям пользователей.

Оценка Базовых Моделей с Помощью NaviTrace

NaviTrace представляет собой мощный инструмент для оценки навигационных способностей больших языковых моделей, включая Gemini 2.5 Pro, GPT-5 и o3. Исследования выявили, что Gemini 2.5 Pro демонстрирует наилучшие результаты, однако разрыв с экспертами-людьми сохраняется. Это указывает на необходимость дальнейших исследований и разработок.

Примеры прогнозов, предоставленных моделями Gemini 2.5 Pro, GPT-5, Qwen 3 VL и o3, демонстрируют разнообразие подходов к решению задач визуального понимания и генерации ответов.

Красота алгоритма проявляется не в трюках, а в непротиворечивости его границ и предсказуемости.

К Интеллектуальной и Воплощенной Навигации

Платформа NaviTrace создана для исследований в области социальной навигации, используя эталонный набор данных SocialNav-Sub для оценки способности моделей понимать взаимодействие человека с окружающей средой. Возможности эталонного набора данных могут быть расширены за счет более сложных сред и задач долгосрочного планирования. Развитие NaviTrace способствует продвижению исследований в области VLN и открывает путь к созданию более интеллектуальных и воплощенных агентов.

Исследование, представленное в статье, демонстрирует существенный разрыв между способностями современных языковых моделей к навигации и человеческим возможностями. Это подчеркивает необходимость разработки более надежных и предсказуемых алгоритмов. Тим Бернерс-Ли однажды сказал: «Интернет — это для всех людей, и он должен быть доступен для всех». Аналогично, разработанный бенчмарк NaviTrace стремится предоставить универсальную платформу для оценки навигационных способностей моделей, позволяя выявлять слабые места и стимулировать прогресс в области воплощенного искусственного интеллекта. Оценка предсказуемости траекторий, как ключевой аспект NaviTrace, напрямую связана с принципом математической чистоты, поскольку некорректная траектория является ошибкой, лишенной элегантности.

Что дальше?

Представленная работа, в своей строгости, лишь обнажает пропасть между текущим состоянием моделей «зрение-язык» и истинным пониманием навигации. Попытки «обучить» алгоритм следовать инструкциям, не имея фундаментальной модели мира, подобны тщетным усилиям заставить геометрическую фигуру ощутить красоту симметрии. NaviTrace, как лакмусовая бумажка, выявила не просто недостатки в предсказании траекторий, но и фундаментальное отсутствие понимания контекста и намерений.

Необходимо переосмыслить метрики оценки. Простое следование маршруту, зафиксированному в данных, – это не интеллект, а лишь статистическая корреляция. Будущие исследования должны сосредоточиться на разработке методов, позволяющих оценить способность модели к обобщению – к адаптации к новым средам, новым целям и, что самое важное, к неожиданным обстоятельствам. Задача не в том, чтобы научить алгоритм «видеть» и «говорить», а в том, чтобы он мог рассуждать.

Очевидно, что необходим переход от эмпирических подходов к более формальным, основанным на принципах математической логики и теории представлений. Только тогда можно будет говорить о создании действительно интеллектуальных систем, способных к автономной навигации и решению сложных задач в реальном мире. Иначе, все эти «прорывы» останутся лишь красивыми иллюзиями, не имеющими под собой прочного основания.

Оригинал статьи: https://arxiv.org/pdf/2510.26909.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-04 23:20

🚀 Квантовые новости