Автор: Денис Аветисян
Новый бенчмарк NaviTrace позволяет оценить способность моделей, сочетающих зрение и язык, к планированию маршрутов и пониманию окружающего пространства.

Исследование представляет NaviTrace – инструмент для оценки навигационных способностей моделей «зрение-язык», выявляющий значительный разрыв между их возможностями и человеческим восприятием.
Несмотря на впечатляющие успехи моделей «зрение-язык», оценка их способности к навигации в реальном мире остается сложной задачей. В данной работе представлена платформа ‘NaviTrace: Evaluating Embodied Navigation of Vision-Language Models’ – новый бенчмарк, предназначенный для систематической оценки предсказания траекторий навигации для различных типов воплощений (гуманоид, четвероногое или колесное робототехническое устройство). Анализ восьми современных моделей показал существенный разрыв между их результатами и человеческим уровнем, обусловленный проблемами пространственной привязки и локализации цели. Позволит ли NaviTrace ускорить разработку более надежных и эффективных систем навигации для роботов нового поколения?
Пределы Визуально-Языковой Навигации
Современные эталоны Vision-Language Navigation (VLN) часто демонстрируют недостаток реализма, ограничивая оценку навигационных способностей в сложных условиях. Существующие модели испытывают трудности в понимании поведения воплощенных агентов и социальных контекстов. Необходим более всесторонний эталон, включающий разнообразные среды, сложные инструкции и взаимодействие с другими агентами, превосходящий существующие наборы данных по объему и сложности.

Совершенная навигационная модель должна проявлять безупречную логику во взаимодействии с миром, подобно чистому коду.
NaviTrace: Эталон Надежной Навигации
NaviTrace использует двумерные траектории как основное представление, обеспечивая универсальную основу для оценки производительности навигации. Эталон состоит из 1000 разнообразных сценариев реального мира, включающих более 3000 траекторий и 4 типа воплощений агентов, обеспечивая всестороннюю оценку в различных контекстах.

Для оценки точности используются комбинации метрик, включая Dynamic Time Warping и ошибку конечной точки. Эти метрики позволяют количественно оценить качество навигации и выявить слабые места в различных алгоритмах.
Семантическое Понимание и Реалистичные Штрафы
NaviTrace использует семантическую сегментацию для идентификации проходимых участков и препятствий, применяя реалистичные штрафы за отклонение от безопасных траекторий. Модель обучается на Mapillary Vistas, обеспечивая надежность и обобщающую способность. Полученная функция оценки демонстрирует высокую корреляцию с предпочтениями человека, подтверждая соответствие алгоритма интуитивным ожиданиям пользователей.
Оценка Базовых Моделей с Помощью NaviTrace
NaviTrace представляет собой мощный инструмент для оценки навигационных способностей больших языковых моделей, включая Gemini 2.5 Pro, GPT-5 и o3. Исследования выявили, что Gemini 2.5 Pro демонстрирует наилучшие результаты, однако разрыв с экспертами-людьми сохраняется. Это указывает на необходимость дальнейших исследований и разработок.

Красота алгоритма проявляется не в трюках, а в непротиворечивости его границ и предсказуемости.
К Интеллектуальной и Воплощенной Навигации
Платформа NaviTrace создана для исследований в области социальной навигации, используя эталонный набор данных SocialNav-Sub для оценки способности моделей понимать взаимодействие человека с окружающей средой. Возможности эталонного набора данных могут быть расширены за счет более сложных сред и задач долгосрочного планирования. Развитие NaviTrace способствует продвижению исследований в области VLN и открывает путь к созданию более интеллектуальных и воплощенных агентов.
Исследование, представленное в статье, демонстрирует существенный разрыв между способностями современных языковых моделей к навигации и человеческим возможностями. Это подчеркивает необходимость разработки более надежных и предсказуемых алгоритмов. Тим Бернерс-Ли однажды сказал: «Интернет — это для всех людей, и он должен быть доступен для всех». Аналогично, разработанный бенчмарк NaviTrace стремится предоставить универсальную платформу для оценки навигационных способностей моделей, позволяя выявлять слабые места и стимулировать прогресс в области воплощенного искусственного интеллекта. Оценка предсказуемости траекторий, как ключевой аспект NaviTrace, напрямую связана с принципом математической чистоты, поскольку некорректная траектория является ошибкой, лишенной элегантности.
Что дальше?
Представленная работа, в своей строгости, лишь обнажает пропасть между текущим состоянием моделей «зрение-язык» и истинным пониманием навигации. Попытки «обучить» алгоритм следовать инструкциям, не имея фундаментальной модели мира, подобны тщетным усилиям заставить геометрическую фигуру ощутить красоту симметрии. NaviTrace, как лакмусовая бумажка, выявила не просто недостатки в предсказании траекторий, но и фундаментальное отсутствие понимания контекста и намерений.
Необходимо переосмыслить метрики оценки. Простое следование маршруту, зафиксированному в данных, – это не интеллект, а лишь статистическая корреляция. Будущие исследования должны сосредоточиться на разработке методов, позволяющих оценить способность модели к обобщению – к адаптации к новым средам, новым целям и, что самое важное, к неожиданным обстоятельствам. Задача не в том, чтобы научить алгоритм «видеть» и «говорить», а в том, чтобы он мог рассуждать.
Очевидно, что необходим переход от эмпирических подходов к более формальным, основанным на принципах математической логики и теории представлений. Только тогда можно будет говорить о создании действительно интеллектуальных систем, способных к автономной навигации и решению сложных задач в реальном мире. Иначе, все эти «прорывы» останутся лишь красивыми иллюзиями, не имеющими под собой прочного основания.
Оригинал статьи: https://arxiv.org/pdf/2510.26909.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- Симметрия в квантовом машинном обучении: поиск оптимального баланса
- Квантовый прыжок: сможем ли мы наконец разгадать тайну сворачивания белков?
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- LLM: математика — предел возможностей.
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Память как основа разума: новый подход к генерации ответов
2025-11-04 23:20