Куда смотрит рука: понимание жестов в видео от первого лица

Автор: Денис Аветисян

Новое исследование предлагает способ улучшить понимание видеозаписей от первого лица, обучая модели интерпретировать жесты и отвечать на вопросы о происходящем.

Разработан конвейер автоматической генерации вопросов с вариантами ответов для видео, снятых от первого лица, использующий как симулированные, так и реальные данные, при этом вопросы сформулированы таким образом, чтобы модель должна была визуально интерпретировать указательные жесты для определения ответа.

Представлен датасет EgoPointVQA и метод Hand Intent Tokens для улучшения работы больших языковых моделей в задачах, связанных с интерпретацией жестов в видео от первого лица.

Несмотря на значительный прогресс в области мультимодальных больших языковых моделей, понимание и интерпретация жестов, особенно указаний в видео от первого лица, остается сложной задачей. В работе, озаглавленной ‘Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering’, представлена новая методика и датасет EgoPointVQA, направленные на повышение способности моделей отвечать на вопросы, требующие понимания указаний в видео от первого лица. Предложенные авторами токены Hand Intent (HINT), кодирующие информацию о ключевых точках 3D-позиций руки, позволяют эффективно передавать пространственно-временной контекст, улучшая точность моделей на 6.6% по сравнению с современными аналогами. Способны ли подобные подходы значительно расширить возможности ИИ-ассистентов в понимании и взаимодействии с окружающим миром посредством естественных жестов?

Вызов жестов в визуальном искусственном интеллекте

Современные мультимодальные большие языковые модели (MLLM) сталкиваются со значительными трудностями при интерпретации визуальной информации, особенно когда речь идет о тонких нюансах человеческой жестикуляции. Несмотря на прогресс в области компьютерного зрения и обработки естественного языка, модели зачастую не способны корректно связать визуальные сигналы, такие как положение рук, мимика и направление взгляда, с соответствующим контекстом и намерением человека. Это проявляется в неспособности точно определить, на что именно обращено внимание пользователя, что критически важно для задач, требующих понимания визуальных инструкций или интерпретации действий, зафиксированных на видео. В результате, даже простые действия, которые человек легко распознает, могут вызывать ошибки в работе MLLM, ограничивая их возможности в приложениях, требующих взаимодействия с реальным миром и понимания человеческого поведения.

Особую сложность для современных систем искусственного интеллекта представляют так называемые деиктические выражения — слова, такие как «это» и «то», смысл которых неразрывно связан с жестами и указаниями. В отличие от слов, обозначающих конкретные объекты, эти указательные местоимения требуют понимания контекста и направления взгляда или движения, чтобы правильно интерпретировать, на что именно ссылается говорящий. Именно поэтому, без учета сопутствующих жестов, системы могут ошибочно определять объекты, на которые указывает пользователь, что существенно снижает эффективность работы в задачах, требующих понимания визуального контекста и взаимодействия с пользователем, например, при обработке видео от первого лица.

Ограничения в интерпретации жестов существенно влияют на эффективность систем ответа на вопросы по видео от первого лица (Egocentric Video Question Answering, EVQA). В подобных системах важно понимать, на что конкретно смотрит и указывает пользователь в кадре, поскольку ответы на вопросы напрямую зависят от понимания его фокуса внимания. Например, вопрос «Что он держит?» требует не только распознавания объекта, но и понимания, на какой именно объект в данный момент направлен взгляд или жест пользователя. Неспособность корректно интерпретировать деиктические выражения в сочетании с жестами приводит к неверным ответам и снижает полезность этих систем в таких областях, как помощь людям с ограниченными возможностями или автоматизация задач, требующих понимания действий пользователя.

Набор EgoPointVQA включает шесть типов вопросов, касающихся свойств объектов, на которые указывают в видео, требующих визуального определения указаний для решения задач идентификации, подсчета, определения местоположения, последовательности действий, атрибутов и функциональности объектов.

EgoPointVQA: Набор данных для обоснованного понимания

Представляем EgoPointVQA — новый набор данных, разработанный специально для оценки и проверки возможностей мультимодальных больших языковых моделей (MLLM) в задачах визуального вопросно-ответного анализа (VQA), основанного на жестах. EgoPointVQA ориентирован на оценку способности моделей понимать и интерпретировать вопросы, связанные с указаниями и жестами, в визуальном контексте. Набор данных предназначен для выявления ограничений существующих MLLM в понимании и обработке информации, представленной как в визуальной, так и в текстовой форме, с акцентом на связь между жестами и объектами в сцене.

Набор данных EgoPointVQA включает в себя как синтетические видеоролики, сгенерированные с использованием платформы AI2-THOR, так и записи реальных сцен, что обеспечивает разнообразие представленных ситуаций. Использование AI2-THOR позволяет контролировать параметры окружения и действий, создавая предсказуемые сценарии для оценки моделей. Одновременно, включение видеозаписей из реального мира гарантирует, что модели будут обучены распознавать и понимать жесты в условиях, приближенных к реальным, с учетом различных освещений, ракурсов и визуальных помех. Комбинация этих двух типов данных обеспечивает более полное и надежное тестирование возможностей мультимодальных моделей в задаче EVQA, ориентированной на понимание жестов.

Для создания набора данных EgoPointVQA использовалась модель GPT-4o, что позволило обеспечить высокое качество пар «вопрос-ответ». Акцент был сделан на вопросы, требующие понимания жестов, в частности указаний, и соответствующих ответов. GPT-4o применялась для генерации вопросов и ответов, обеспечивая их ясность, релевантность и точность в контексте визуальных сцен и жестов, что позволило получить надежный эталон для оценки моделей мультимодального понимания.

Синтетические видеоданные EgoPointVQA охватывают широкий спектр реалистичных интерьерных сцен с различной освещенностью, обеспечивая надежную основу для обучения и тестирования.

HINT: Кодирование намерения руки с помощью чередования токенов

Метод Hand Intent Tokens (HINT), предлагаемый нами, использует оценки трехмерной позы руки, полученные с помощью WiLoR, для определения намерений, выражаемых жестами. WiLoR предоставляет координаты ключевых точек руки в трехмерном пространстве, которые затем служат основой для кодирования информации о жестах. Этот подход позволяет системе не только распознавать положение руки, но и интерпретировать намерение, стоящее за конкретным жестом, что повышает точность и эффективность взаимодействия человека с машиной. Использование трехмерных оценок обеспечивает более надежное распознавание жестов, чем методы, основанные на двумерных изображениях, особенно в сложных условиях освещения или при частичной видимости руки.

Трехмерные ключевые точки руки, полученные из данных WiLoR, обрабатываются адаптером ключевых точек (Keypoint Adapter) с целью преобразования в последовательность “токенов намерения руки” (hand intent tokens). Адаптер ключевых точек выполняет преобразование координат ключевых точек в векторное представление, которое затем квантуется и отображается на дискретный набор токенов. Этот процесс позволяет представить информацию о положении и ориентации руки в компактной и пригодной для обработки виде, что необходимо для интеграции с языковой моделью InternVL3.

Токены, представляющие намерения рук, полученные в результате обработки 3D-данных о позе рук, внедряются непосредственно в последовательность входных данных для Vision-Language Model (InternVL3). Этот процесс, называемый interleaving, заключается в чередовании токенов, кодирующих жесты, с токенами, представляющими визуальную и текстовую информацию. В результате модель получает явные сигналы о жестах рук, что позволяет ей более эффективно интерпретировать действия и намерения, выраженные через язык тела, и улучшает качество генерации ответов, учитывающих невербальную коммуникацию.

Архитектура HINT использует дополнительный адаптер для непосредственного моделирования 3D-позиции и движения руки, используя визуальные токены <span class="katex-eq" data-katex-display="false">V_t</span>, признаки ключевых точек <span class="katex-eq" data-katex-display="false">K_t</span> и токены намерения руки <span class="katex-eq" data-katex-display="false">H_t</span>, извлеченные для каждого кадра <span class="katex-eq" data-katex-display="false">I_t</span>. — Архитектура HINT использует дополнительный адаптер для непосредственного моделирования 3D-позиции и движения руки, используя визуальные токены $V_t$ , признаки ключевых точек $K_t$ и токены намерения руки $H_t$ , извлеченные для каждого кадра $I_t$ .

Эффективная тонкая настройка и прирост производительности

Для адаптации модели InternVL3 и повышения её эффективности в задачах визуального понимания использовалась методика LoRA — параметрически-эффективная тонкая настройка. Этот подход позволяет существенно снизить вычислительные затраты, поскольку изменяется лишь небольшая часть параметров модели, в то время как остальные остаются фиксированными. В сочетании с методом HINT, LoRA позволила добиться значительного улучшения производительности без необходимости в масштабных вычислительных ресурсах, что особенно важно для развертывания моделей в реальных условиях и на устройствах с ограниченными возможностями.

Исследования, проведенные на наборе данных EgoPointVQA, продемонстрировали существенное повышение эффективности модели благодаря методу HINT при ответах на вопросы, связанные с жестами. В ходе экспериментов зафиксировано увеличение точности до 10.7% по сравнению с базовыми многомодальными моделями (MLLM). Это указывает на то, что явное кодирование информации о жестах рук играет важную роль в достижении надежного и точного визуального понимания в контексте воплощенного искусственного интеллекта, позволяя моделям более эффективно интерпретировать действия и намерения человека в реальном времени.

В ходе экспериментов было установлено, что применение метода HINT совместно с моделью InternVL3-14B позволило достичь точности Reference Accuracy в 73.8%, что на 7.7% превосходит показатели базовой модели. Дополнительно, использование InternVL3-8B с HINT продемонстрировало общую точность (Overall Accuracy) в 75.0%, подтверждая стабильное улучшение производительности. Полученные результаты свидетельствуют о высокой эффективности предложенного подхода и его способности значительно повышать качество визуального понимания в задачах, связанных с взаимодействием человека и окружающей среды.

Результаты экспериментов демонстрируют, что разработанный метод HINT обеспечивает в среднем увеличение точности на 6.6% при использовании с различными базовыми моделями. Данный прирост свидетельствует о высокой эффективности HINT в улучшении способности моделей к визуальному пониманию, независимо от их архитектуры и размера. Такой стабильный результат подтверждает универсальность подхода и его потенциал для широкого применения в задачах, требующих точного анализа визуальной информации, включая системы искусственного интеллекта, взаимодействующие с окружающей средой и нуждающиеся в интерпретации жестов и действий.

Исследование подчеркивает критическую важность явного кодирования жестов рук для достижения надежного и точного визуального понимания в воплощенном искусственном интеллекте. В отличие от моделей, полагающихся на общее понимание визуальной информации, учет специфических движений рук значительно повышает способность системы интерпретировать действия и намерения человека в реальном времени. Полученные результаты демонстрируют, что системы, способные явно распознавать и обрабатывать жесты, демонстрируют существенное улучшение в задачах, связанных с взаимодействием человека и машины, особенно в сценариях, где неверная интерпретация жеста может привести к ошибкам или неэффективности. Таким образом, явное кодирование жестов рук представляется необходимым шагом к созданию более интуитивных и эффективных систем воплощенного ИИ, способных к полноценному взаимодействию с человеком и окружающей средой.

Анализ неудачных сценариев работы EgoPointVQA показал, что базовые MLLM модели часто допускают ошибки из-за акцента на визуально заметных объектах и путаницы во временной последовательности, в то время как оставшиеся ошибки HINT связаны с ненадёжными ключевыми точками рук и быстрым изменением угла обзора.

Исследование, представленное в данной работе, демонстрирует стремление к элегантности в понимании взаимодействия человека и машины. Создание датасета EgoPointVQA и метода Hand Intent Tokens — это не просто техническое усовершенствование, но и шаг к более интуитивному и естественному диалогу с системами искусственного интеллекта. Как однажды заметил Ян Лекун: «Машинное обучение — это искусство делать машины умными, а не просто большими». В данном контексте, способность модели корректно интерпретировать жесты и деиктические указания в эгоцентричных видео, особенно в сочетании с пространственно-временным рассуждением, является свидетельством глубокого понимания принципов взаимодействия и гармонии между формой и функцией. Улучшение multimodal large language models в этой области позволяет создавать системы, которые действительно «шепчут», а не «кричат».

Куда Ведет Указательный Палец?

Представленная работа, безусловно, вносит ясность в вопрос понимания деиктических жестов в видеоряду от первого лица. Однако, гармония не достигнута. Создание набора данных EgoPointVQA — это лишь первый аккорд. Истинное испытание для мультимодальных моделей — не распознавание самого жеста, а интерпретация намерения, стоящего за ним. Подобно тому, как опытный музыкант улавливает нюансы в исполнении, модель должна научиться «слышать» невысказанное, понимать контекст и предвидеть дальнейшие действия. Простое сопоставление «указательный палец — объект» — это примитивный звук, а не симфония.

Очевидным ограничением остается зависимость от визуальной информации. Что произойдет, если объект, на который указывает жест, выходит за пределы кадра? Или если жест сопровождается нечеткой или двусмысленной речью? Истинное понимание требует интеграции не только визуальных и текстовых данных, но и здравого смысла, знаний о физическом мире и способности к абстрактному мышлению. Любая деталь важна, даже если её не замечают — от мельчайшего движения кисти до интонации голоса.

Будущие исследования должны сосредоточиться на разработке моделей, способных к более глубокому семантическому анализу и контекстуализации. Необходимо отойти от простого распознавания шаблонов и стремиться к созданию систем, способных к самостоятельному обучению и адаптации. Иначе, все усилия по созданию “умных” машин превратятся в бесконечную погоню за эхом, а не в создание настоящего интеллекта. Интерфейс поёт, когда элементы гармонируют, а пока мы слышим лишь какофонию.

Оригинал статьи: https://arxiv.org/pdf/2603.12533.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-16 18:24

🚀 Квантовые новости