Танцы по тексту: как научить ИИ понимать движения человека

Автор: Денис Аветисян

Новый подход позволяет моделям искусственного интеллекта анализировать и воспроизводить человеческие движения, используя только текстовые описания, без необходимости обучения на огромных базах данных видео.

В отличие от предыдущих подходов, требующих сложного обучения энкодера движения и многоэтапной подгонки к конкретной языковой модели, представленный метод преобразует движение в структурированные описания посредством детерминированных правил, что позволяет любой языковой модели обрабатывать его напрямую с использованием лишь тонкой настройки LoRA в качестве единственного этапа обучения.

Исследователи предлагают метод Structured Motion Description для преобразования данных о движении в текст, позволяя большим языковым моделям достигать передовых результатов в понимании движений без использования специализированных энкодеров.

Несмотря на стремительное развитие больших языковых моделей (LLM) и их способности к рассуждениям, современные подходы к пониманию человеческих движений, включая ответы на вопросы и создание описаний, недостаточно используют этот потенциал. В работе ‘Encoder-Free Human Motion Understanding via Structured Motion Descriptions’ предложен метод структурированного описания движений (SMD), преобразующий последовательности координат суставов в структурированные текстовые описания углов, перемещений частей тела и траектории. Такой подход позволяет LLM напрямую применять свои знания о теле, пространстве и движениях к анализу движений, обходя необходимость в обученных энкодерах и модулях выравнивания. Достигнуты передовые результаты в задачах понимания движений и создания описаний, а также продемонстрирована адаптивность метода к различным LLM, что открывает новые возможности для интерпретируемого анализа и применения в робототехнике и анимации.

От кинематики к смыслу: задача репрезентации движения

Понимание человеческих движений представляет собой сложную задачу, требующую объединения трехмерных кинематических данных и возможностей обработки естественного языка. Для этого необходимо преодолеть разрыв между сухими числовыми показателями, описывающими положение и скорость суставов, и осмысленным повествованием, которое позволяет понять намерения и контекст движения. Исследования в этой области направлены на создание систем, способных не просто фиксировать траекторию конечностей, но и интерпретировать её, описывая действия человека в понятной для людей форме. Это включает в себя распознавание не только что делается, но и как это делается, учитывая нюансы, такие как скорость, плавность и стиль движения, что позволяет создавать более точные и информативные описания.

Традиционные методы анализа движения человека, основанные на обработке трехмерных кинематических данных, часто оказываются неспособными уловить тонкости и нюансы, присущие естественным движениям. Ограничения существующих алгоритмов проявляются в неспособности адекватно отразить контекст, намерения и эмоциональную окраску, заключенные в последовательности движений. В результате, автоматическое преобразование кинематических данных в связные и понятные текстовые описания сталкивается с существенными трудностями, приводя к описаниям, лишенным детализации и контекстуальной значимости. Это затрудняет не только интерпретацию движений, но и их эффективное использование в таких областях, как робототехника, анимация и анализ поведения.

Несмотря на способность модели частично интерпретировать движения без обучения, для генерации лаконичных описаний и распознавания действий требуется дообучение с использованием LoRA, о чем свидетельствуют примеры с ходьбой на месте и вальсом, где модель корректно определяет отдельные компоненты движения, но не распознает высокоуровневое действие.

Структурированное движение: мост к языковым моделям

Представлен метод “Структурированного описания движения” — система, основанная на правилах, преобразующая данные о движении в структурированный текстовый формат. Данный подход позволяет последовательно кодировать кинематическую информацию, используя заранее определенные правила для описания отдельных элементов движения и их взаимосвязей. В результате формируется текстовое представление, пригодное для машинной обработки и анализа, обеспечивающее компактное и информативное описание последовательности движений. Такой формат способствует стандартизации представления данных о движении и упрощает их интеграцию в системы искусственного интеллекта, в частности, в языковые модели.

Для создания компактного и информативного представления движения используется расчет углов суставов и описание траектории. Расчет углов суставов позволяет количественно определить положение каждой части тела в пространстве, предоставляя точные данные о позе. Описание траектории фиксирует изменение этих углов во времени, формируя последовательность координат, отражающую динамику движения. Комбинирование этих двух компонентов обеспечивает полное описание кинематики, пригодное для последующего анализа и воспроизведения. Полученные данные структурируются в текстовый формат, что облегчает их обработку и интеграцию с моделями машинного обучения.

Для оценки кинематики человека используется модель SMPL (Skinned Multi-Person Linear model), обеспечивающая стандартизированный и эффективный подход к захвату и представлению позы. SMPL представляет человеческое тело как параметрическую модель, определяемую небольшим набором параметров, включая положение корня, глобальную ориентацию и параметры формы и позы. Использование SMPL позволяет получать компактное и информативное представление о человеческом движении, что существенно упрощает последующий анализ и обработку данных. Стандартизация, обеспечиваемая SMPL, позволяет сравнивать и обобщать данные, полученные из различных источников и при различных условиях съемки, а также эффективно использовать существующие алгоритмы и инструменты для анализа человеческого движения.

Предложенный подход состоит из двух этапов: сначала детерминированный конвейер обрабатывает последовательность движений, генерируя структурированное описание движения (SS) на основе траектории таза и углов суставов, а затем SS форматируется в текстовый запрос и передается в LLM, настроенную с помощью LoRA, без использования энкодера движения или модуля выравнивания.

Использование LLM для понимания движения

Использование структурированного описания движения в качестве входных данных для больших языковых моделей (LLM) позволило достичь передовых результатов в задачах создания текстовых описаний движений (Motion Captioning) и ответов на вопросы о движениях (Motion Question Answering). Данный подход обеспечивает LLM необходимым контекстом для интерпретации и генерации релевантных ответов, что существенно улучшает производительность по сравнению с другими методами. Структурированное описание движения предоставляет LLM точную и лаконичную информацию о последовательности действий, что позволяет модели эффективно обрабатывать и понимать сложные кинетические сценарии.

Для снижения вычислительных затрат при адаптации больших языковых моделей (LLM) к задачам анализа движения, использовался метод LoRA (Low-Rank Adaptation). LoRA позволяет обучать лишь небольшое количество дополнительных параметров, оставляя основную часть LLM замороженной. Это существенно сокращает требования к объему видеопамяти и времени обучения, сохраняя при этом высокую точность модели. В ходе экспериментов было показано, что применение LoRA не приводит к заметной потере производительности по сравнению с полной адаптацией LLM, обеспечивая эффективное и экономичное обучение для задач понимания движения.

При оценке на бенчмарке HumanML3D, предложенный подход продемонстрировал высокую точность, достигнув 66.7% на BABEL-QA и 90.1% на HuMMan-QA. Эти результаты превосходят показатели модели IMoRe на 6.6 и 14.9 процентных пункта соответственно, что подтверждает эффективность предложенного метода для задач понимания движений и ответов на вопросы о них.

Структура запроса для задач оценки движений и автоматической генерации подписей к видео включает в себя визуальный ввод и текстовый запрос, определяющий требуемое действие или описание <span class="katex-eq" data-katex-display="false">
ightarrow </span> <span class="katex-eq" data-katex-display="false"> ext{visual input} + ext{text query} </span>. — Структура запроса для задач оценки движений и автоматической генерации подписей к видео включает в себя визуальный ввод и текстовый запрос, определяющий требуемое действие или описание $ightarrow$ $ext{visual input} + ext{text query}$ .

Строгая оценка и семантическая согласованность

Для всесторонней оценки качества генерируемых подписей к видео используется комплекс метрик, включающий ‘BLEU’, ‘ROUGE’, ‘BERTScore’, ‘R-Precision’ и ‘MM-Distance’. ‘BLEU’ и ‘ROUGE’ оценивают точность и полноту совпадения слов между сгенерированным текстом и эталонными подписями, в то время как ‘BERTScore’ использует контекстные представления слов, предоставляемые моделью BERT, для более глубокого анализа семантической близости. Метрика ‘R-Precision’ измеряет долю релевантных подписей, найденных в начале списка сгенерированных вариантов, а ‘MM-Distance’ оценивает расстояние между эмбеддингами сгенерированного текста и эталонных подписей в многомерном пространстве. Применение сразу нескольких метрик позволяет получить наиболее полную и объективную картину качества генерируемых подписей, учитывая различные аспекты их точности, релевантности и семантической близости к исходным данным.

Для более глубокой оценки качества генерируемых подписей к видеоряду, был разработан ‘T2M Evaluator’ — инструмент, оценивающий семантическое соответствие между сгенерированным текстом и исходными данными о движении. В отличие от традиционных метрик, фокусирующихся на лексическом сходстве, ‘T2M Evaluator’ анализирует, насколько точно текст отражает суть происходящего движения, учитывая его динамику и контекст. Этот подход позволяет выявить случаи, когда текст грамматически верен, но не передает смысл действия, что особенно важно для описания сложных движений и взаимодействий. Таким образом, ‘T2M Evaluator’ обеспечивает более надежную и полную оценку качества сгенерированных подписей, выходящую за рамки простого сопоставления слов.

Представленный метод продемонстрировал выдающиеся результаты в задаче создания текстовых описаний для данных о движении. Достигнутый показатель CIDEr составил 53.16, что значительно превосходит результаты, показанные ранее существующими передовыми методами. Кроме того, значение R-Precision@1 достигло 0.584, что является наивысшим результатом в данной области. Показатель BLEU@4 составил 22.67, что соответствует увеличению на 17% по сравнению с предыдущими подходами, подтверждая эффективность и превосходство предложенного метода в генерации точных и релевантных описаний движений.

Анализ карт внимания показывает, что модель при генерации описаний фокусируется на ключевых сегментах движения: для описания «ходьба на месте» — на траектории и циклических изменениях углов сгибания, а для «махания правой рукой» — на отведении плеча и сгибании локтя, игнорируя статичную траекторию и корректно определяя активные части тела.

Исследование демонстрирует, что элегантность подхода к пониманию человеческих движений кроется не в сложности кодировщиков, а в четкости и структурированности описания самих движений. Авторы предлагают метод Structured Motion Description (SMD), который, подобно математической аксиоматизации, позволяет преобразовывать движения в текст, понятный для больших языковых моделей. Это позволяет избежать необходимости в сложных, обучаемых кодировщиках, что соответствует принципу математической чистоты и доказуемости алгоритма. Как однажды заметил Джеффри Хинтон: «Я бы сказал, что лучший способ улучшить нейронную сеть — это лучше понять данные». В данном случае, лучшее понимание данных о движениях привело к созданию более эффективного и прозрачного метода их обработки.

Куда же дальше?

Представленный подход, отказывающийся от привычных энкодеров движения, демонстрирует элегантность, свойственную решениям, основанным на формальной логике. Однако, не стоит обманываться кажущейся простотой. Преобразование движения в структурированное текстовое описание — это лишь первый шаг. Настоящая проблема заключается в том, чтобы обеспечить полноту и однозначность этого описания. Каждое упущение, каждая неточность в представлении кинематической информации неизбежно приведет к ошибкам в понимании и генерации движения.

Будущие исследования должны сосредоточиться на разработке более строгих и формализованных правил для построения этих описаний. Необходимо стремиться к созданию языка, который был бы не просто понятен языковой модели, но и допускал бы автоматическую верификацию корректности. Например, возможность формального доказательства соответствия между текстовым описанием и исходным движением представляется более ценной, чем просто достижение высоких показателей на тестовых данных.

В конечном счете, задача понимания движения сводится к задаче формализации кинематических принципов. До тех пор, пока это не будет достигнуто, любые решения останутся лишь приближениями, пусть и впечатляющими. Истина, как всегда, лежит в математической чистоте и логической непротиворечивости.

Оригинал статьи: https://arxiv.org/pdf/2604.21668.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-24 18:04

🚀 Квантовые новости