Танцы по частям: Создание реалистичной анимации движений человека

Автор: Денис Аветисян


Новая модель позволяет создавать правдоподобные движения человека, управляя каждой частью тела и последовательностью действий на основе текстовых инструкций.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Модель, основанная на трансформере и диффузионном подходе, способна генерировать сложные движения, обусловленные текстовыми подсказками различного уровня детализации - от последовательности действий до отдельных частей тела, что позволяет ей усваивать ключевые элементы движения и комбинировать их на основе парных данных.
Модель, основанная на трансформере и диффузионном подходе, способна генерировать сложные движения, обусловленные текстовыми подсказками различного уровня детализации — от последовательности действий до отдельных частей тела, что позволяет ей усваивать ключевые элементы движения и комбинировать их на основе парных данных.

Представлена FrankenMotion — модель генерации движений человека, использующая размеченные LLM данные для детального управления на уровне последовательности, действия и частей тела.

Несмотря на значительный прогресс в генерации человеческих движений по текстовым запросам, существующие методы, как правило, ограничены контролем на уровне последовательности или действия. В данной работе, представленной под названием ‘FrankenMotion: Part-level Human Motion Generation and Composition’, мы предлагаем новый подход, основанный на высококачественном наборе данных с детализированными, временными аннотациями движений отдельных частей тела, полученными с использованием возможностей больших языковых моделей. Это позволило разработать фреймворк FrankenMotion, позволяющий генерировать движения с беспрецедентным уровнем контроля как в пространстве (по частям тела), так и во времени (по элементарным действиям). Не откроет ли это путь к созданию более реалистичных и управляемых виртуальных персонажей и роботов?


Человеческая Моторика: Между Идеалом и Реальностью

Создание правдоподобной человеческой моторики представляет собой ключевую, но сложную задачу для широкого спектра современных технологий, включая дополненную и виртуальную реальность, компьютерные игры и искусственный интеллект. Несмотря на значительный прогресс в области компьютерной графики и анимации, воссоздание естественных и реалистичных движений человека остается серьезным вызовом. Причина заключается в сложности человеческой биомеханики и необходимости учитывать множество факторов, таких как вес тела, инерция, баланс и взаимодействие с окружающей средой. Недостаточно правдоподобные движения могут существенно снизить эффект погружения в виртуальную среду или вызвать ощущение неестественности в игровом процессе, что негативно сказывается на пользовательском опыте. Успешное решение данной проблемы требует разработки новых алгоритмов и методов, способных точно моделировать и воспроизводить все нюансы человеческой моторики.

Существующие методы генерации человеческих движений зачастую сталкиваются с трудностями при создании сложных, последовательных и осмысленных анимаций. Проблема заключается в том, что алгоритмы нередко производят движения, лишенные естественной плавности и внутренней логики, что приводит к неестественному и даже отталкивающему визуальному результату. Особенно сложно добиться реалистичности в динамичных сценах или при моделировании взаимодействий с окружающей средой, где требуется точное соблюдение физических законов и правдоподобное отражение намерений персонажа. В результате, даже небольшие несоответствия в последовательности движений или их семантической наполненности могут существенно снизить степень погружения пользователя в виртуальную реальность или разрушить иллюзию реалистичности в игровых приложениях.

Современные методы генерации движений человека зачастую сталкиваются с трудностями в достижении детального контроля над отдельными частями тела и их взаимодействием. Существующие алгоритмы, как правило, оперируют глобальными параметрами движения, не позволяя точно задавать положение пальцев, изгиб спины или направление взгляда. Это ограничивает возможность создания реалистичных и нюансированных движений, необходимых для убедительной анимации в виртуальной реальности, игровых приложениях и при разработке искусственного интеллекта. Отсутствие гранулярного управления приводит к неестественным позам, рывкам и общей неправдоподобности, что снижает эффект погружения и реалистичности. Разработка методов, позволяющих композировать сложные движения из отдельных действий и управлять каждой частью тела независимо, остается ключевой задачей в данной области.

В отличие от существующих методов, которые не способны реалистично компоновать движения, генерируют повторяющиеся шаблоны или игнорируют сложные детали, наша методика обеспечивает точное выполнение сложных команд и реалистичную анимацию, учитывая как высокоуровневую семантику, так и детальные указания по движению отдельных частей тела.
В отличие от существующих методов, которые не способны реалистично компоновать движения, генерируют повторяющиеся шаблоны или игнорируют сложные детали, наша методика обеспечивает точное выполнение сложных команд и реалистичную анимацию, учитывая как высокоуровневую семантику, так и детальные указания по движению отдельных частей тела.

Иерархическое Обусловливание: Управление Движением По Уровням

Предлагаемый подход к генерации движения по текстовому описанию основан на иерархическом обусловливании, использующем текстовые данные трех уровней: последовательности, действий и частей тела. Модель обрабатывает входной текст, разделяя его на эти уровни, что позволяет ей структурировать иерархию действий. Обуславливание на уровне последовательности задает общую временную структуру движения, уровень действий определяет конкретные выполняемые действия, а уровень частей тела обеспечивает контроль над отдельными сегментами тела. Такое иерархическое представление позволяет модели более эффективно интерпретировать текстовое описание и генерировать соответствующие движения, учитывая как глобальный контекст, так и детализацию отдельных действий и поз.

Предлагаемая архитектура обеспечивает декомпозицию сложных движений на управляемые сегменты, что позволяет осуществлять точный контроль над отдельными частями тела и действиями. Модель разбивает исходную последовательность движения на последовательность атомарных действий, что упрощает процесс генерации и позволяет независимо управлять каждым сегментом. Это достигается за счет использования иерархического подхода, где модель последовательно уточняет движение от общего плана к детальному контролю над отдельными частями тела, обеспечивая возможность точной настройки и управления каждым аспектом генерируемого движения.

Многоуровневое обуславливание модели позволяет ей получить более полное представление о желаемом движении, что приводит к генерации более выразительных и нюансированных анимаций. Использование последовательной, уровневой информации — от общей последовательности действий до конкретных движений отдельных частей тела — дает модели возможность детализированно интерпретировать текстовое описание. Это обеспечивает более точное соответствие генерируемого движения заданным параметрам и позволяет создавать сложные, реалистичные анимации, учитывающие как глобальную структуру, так и мелкие детали.

В основе предложенного подхода лежит использование “Атомарных Действий” (Atomic Actions) — базовых, неделимых единиц движения, которые служат строительными блоками для создания более сложных последовательностей. Каждое атомарное действие представляет собой конкретное движение или позу, что обеспечивает модульность системы. Благодаря этому, модель способна комбинировать различные атомарные действия для генерации разнообразных и сложных движений, а также осуществлять точный контроль над отдельными элементами движения и их последовательностью. Использование атомарных действий упрощает процесс обучения модели и позволяет ей эффективно обобщать знания, полученные на небольшом наборе примеров.

Используя LLM для детализированной разметки движений, можно декомпозировать высокоуровневые действия на уровне частей тела и синхронизировать их с соответствующими временными окнами, что позволяет получить ключевые текстовые описания частей тела и соответствующие движения для обучения основным элементам движения.
Используя LLM для детализированной разметки движений, можно декомпозировать высокоуровневые действия на уровне частей тела и синхронизировать их с соответствующими временными окнами, что позволяет получить ключевые текстовые описания частей тела и соответствующие движения для обучения основным элементам движения.

FrankenStein: Датасет для Декомпозированного Управления Движением

Набор данных FrankenStein был создан с использованием LLM-агента (FrankenAgent) для обеспечения структурированных и синхронизированных во времени аннотаций частей тела. FrankenAgent автоматически генерирует метки, указывающие положение и ориентацию ключевых суставов и конечностей в каждом кадре видео. Этот процесс позволяет получить детальную информацию о движении каждой части тела, что необходимо для обучения моделей управления движением и анализа человеческой моторики. Набор данных содержит аннотации для широкого спектра действий, что обеспечивает разнообразие и обобщающую способность обученных моделей.

Набор данных FrankenStein позволяет моделям устанавливать взаимосвязи между текстовыми описаниями действий, движениями отдельных частей тела и полной последовательностью действий. Это достигается благодаря структурированным аннотациям, которые связывают каждое текстовое описание с конкретными траекториями движения соответствующих частей тела, а также с общей временной структурой выполняемого действия. Такая связь позволяет модели не только понимать, что совершается, но и как это происходит с точки зрения кинематики, что критически важно для задач управления движением и генерации реалистичных анимаций.

Детальные аннотации в наборе данных FrankenStein обеспечивают возможность разделенного управления движением, позволяя осуществлять точную манипуляцию отдельными частями тела. Каждая часть тела в видеофрагментах аннотирована с высокой точностью во времени, что позволяет модели устанавливать прямые связи между текстовым описанием действия и конкретным положением и движением каждой части тела. Это позволяет осуществлять контроль над движениями, например, изолированно перемещать руку или ногу, не затрагивая остальные части тела, что является ключевым требованием для сложных задач управления и анимации.

Набор данных FrankenStein демонстрирует высокую точность аннотаций, подтвержденную оценкой экспертов-людей, которая составила 93.08%. Эта оценка была получена в результате ручной проверки аннотаций, выполненных агентом FrankenAgent, и свидетельствует о надежности и качестве данных. Высокая точность аннотаций критически важна для обучения моделей, требующих детального понимания взаимосвязи между текстом, движениями отдельных частей тела и общими последовательностями действий, обеспечивая возможность точного и контролируемого управления движениями.

FrankenMotion: Новый Эталон в Генерации Движений

Модель FrankenMotion, основанная на диффузионной модели, демонстрирует впечатляющую способность к созданию сложных движений. В ее основе лежит иерархический подход к обусловливанию, позволяющий учитывать информацию на трех уровнях: отдельные части тела, выполняемые действия и последовательность этих действий, задаваемые в текстовой форме. Благодаря этому, модель способна генерировать движения, которые не только реалистичны, но и соответствуют заданным семантическим требованиям, эффективно компонуя сложные последовательности из простых элементов. Такой подход позволяет FrankenMotion превосходить существующие методы в генерации правдоподобных и осмысленных движений, обеспечивая высокий уровень контроля над процессом создания анимации.

Разработанная модель, получившая название FrankenMotion, демонстрирует значительное превосходство над существующими решениями, такими как UniMotion и DART, в области генерации реалистичных и семантически корректных движений. В ходе исследований было установлено, что FrankenMotion способна создавать более правдоподобные и логичные последовательности движений, что подтверждается как количественными оценками, так и качественным анализом полученных результатов. Данное достижение стало возможным благодаря инновационному подходу к иерархическому обучению модели, позволяющему ей учитывать контекст и детализацию каждого движения, что приводит к значительному улучшению общей реалистичности и согласованности генерируемых анимаций.

Количественная оценка продемонстрировала превосходство модели FrankenMotion в генерации реалистичных движений. Особо важным показателем, подтверждающим надежность создаваемых движений, является высокий уровень согласованности между независимыми оценщиками — 0.91 по метрике Gwet’s AC1. Этот показатель свидетельствует о том, что различные наблюдатели практически единодушно оценивают сгенерированные движения как правдоподобные и соответствующие заданным условиям, что делает FrankenMotion выдающимся решением в области создания искусственных анимаций и роботизированных систем.

Модель FrankenMotion открывает новые горизонты в генерации реалистичных движений благодаря уникальному сочетанию контроля на уровне отдельных частей тела и временной шкалы. В отличие от существующих подходов, FrankenMotion позволяет не только задавать общее действие, но и детально управлять положением и траекторией каждой части тела в каждый момент времени. Такой подход обеспечивает беспрецедентный уровень выразительности и детализации, позволяя создавать движения, которые выглядят не просто правдоподобно, но и тонко передают намерения и эмоции. Это достигается за счет иерархического управления, где текстовые подсказки на различных уровнях детализации — от общих действий до конкретных движений частей тела — направляют процесс генерации, обеспечивая согласованность и естественность получаемых результатов.

Изучение FrankenMotion неизбежно наталкивает на мысль о хрупкости любой системы, стремящейся к идеалу. Модель, как и любой сложный механизм, собирается из отдельных, порой несовершенных элементов. Подобно тому, как исследователи собрали датасет FrankenStein из размеченных LLM фрагментов, так и любая «революционная» технология — это компромисс между амбициями и реальностью. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект — это не создание машин, которые мыслят как люди, а создание машин, которые помогают людям мыслить лучше». И FrankenMotion, позволяя добиться детального контроля над человеческими движениями на разных уровнях — от последовательности до отдельных частей тела — является ярким примером этого принципа. Здесь не стремятся создать полную имитацию, а предлагают инструменты для расширения возможностей человека.

Что дальше?

Представленная работа, безусловно, добавляет ещё один слой сложности в и без того запутанную область генерации человеческих движений. Идея использования LLM для аннотации данных и последующего иерархического контроля, несомненно, интересна, однако не стоит забывать о фундаментальной проблеме: любой «революционный» подход рано или поздно превратится в технический долг. Продакшен всегда найдёт способ сломать даже самую элегантную архитектуру, а «атомарные» элементы движения, в конечном итоге, потребуют ручной доработки, когда речь пойдёт о реалистичной симуляции взаимодействия с миром.

Следующим шагом, вероятно, станет попытка обойти ограничения существующих датасетов и перейти к обучению на «сырых» видеоданных. Но и здесь стоит помнить, что простого увеличения объёма данных недостаточно. Пока кто-то пытается научить алгоритм «понимать» контекст, кто-то другой будет копаться в деталях, исправляя артефакты и пытаясь заставить виртуальную фигуру не проваливаться сквозь пол. Если код выглядит идеально — значит, его никто не деплоил.

В конечном счете, задача генерации человеческих движений остаётся сложной инженерной проблемой, а не философским поиском. И стоит признать, что пока что все эти «LLM-powered» решения — это, по большей части, дорогие способы всё усложнить. Настоящий прорыв произойдет, когда кто-нибудь сможет создать систему, которая будет генерировать реалистичные движения, не требуя огромных вычислительных ресурсов и бесконечной ручной настройки.


Оригинал статьи: https://arxiv.org/pdf/2601.10909.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-19 09:02