Очередной «AI» для движений: ViMoGen и тонны данных, чтобы всё сломалось по-новому.

Автор: Денис Аветисян


Модель ViMoGen демонстрирует превосходную обобщающую способность при генерации 3D-движений человека, включая сложные сценарии вроде боевых искусств и динамичных видов спорта, что подтверждается комплексным бенчмарком MBench и обширным набором данных ViMoGen-228K, содержащим 228 тысяч последовательностей движений различной сложности.
Модель ViMoGen демонстрирует превосходную обобщающую способность при генерации 3D-движений человека, включая сложные сценарии вроде боевых искусств и динамичных видов спорта, что подтверждается комплексным бенчмарком MBench и обширным набором данных ViMoGen-228K, содержащим 228 тысяч последовательностей движений различной сложности.

Попытки достичь реалистичной и разнообразной 3D-анимации человеческих движений постоянно наталкиваются на парадокс: чем сложнее движения, тем труднее создать модель, способную к обобщению – то есть, к правдоподобному воспроизведению ранее невиданных действий и адаптации к новым окружениям. Этот разрыв между способностью имитировать знакомое и способностью предсказывать новое особенно критичен, поскольку именно разнообразие движений определяет степень погружения в виртуальную реальность и реалистичность компьютерной анимации. По сути, «The Quest for Generalizable Motion Generation: Data, Model, and Evaluation» становится поиском способа преодолеть эту фундаментальную проблему, но достаточно ли данных, усовершенствованных моделей и всесторонней оценки, чтобы действительно научить машину двигаться как человек в непредсказуемом мире?

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Танец с Тенью: Вызовы Реалистичной Анимации

Генерация реалистичных и разнообразных трехмерных движений человека остается значительной проблемой для компьютерной анимации и приложений виртуальной реальности. И дело тут не в недостатке вычислительных мощностей, а в том, что природа движения – штука капризная. Слишком часто существующие методы упираются в упрощения, неспособные передать нюансы естественного движения или обобщить опыт на новые действия и окружения. Все эти «универсальные» алгоритмы работают идеально на тестовых примерах, а потом… потом начинается цирк с конями, и приходится срочно латать дыры.

Сложность в том, что движение человека – это не просто последовательность поворотов суставов. Это сложная координация мышц, взаимодействие с гравитацией, адаптация к изменяющейся среде. Попытки смоделировать все эти факторы с абсолютной точностью обречены на провал. В итоге мы получаем либо неестественные, «кукольные» движения, либо чрезмерно упрощенные модели, которые не способны передать богатство человеческой моторики. И каждый раз приходится выбирать между правдоподобием и вычислительной сложностью.

А ещё есть проблема обобщения. Модель, обученная на ограниченном наборе движений, с трудом адаптируется к новым ситуациям. Например, она может прекрасно справиться с ходьбой по ровной поверхности, но с трудом сможет имитировать падение или бег по пересеченной местности. И каждый раз приходится собирать новые данные, переобучать модель, тратить время и ресурсы. И так по кругу.

На бенчмарке HumanML3D модель ViMoGen-light генерирует более правдоподобные движения и демонстрирует превосходную согласованность текста и движения при выполнении сложных, многошаговых запросов, превосходя существующие методы.
На бенчмарке HumanML3D модель ViMoGen-light генерирует более правдоподобные движения и демонстрирует превосходную согласованность текста и движения при выполнении сложных, многошаговых запросов, превосходя существующие методы.

Иногда кажется, что мы гонимся за призраком. Строим все более сложные модели, тратим все больше ресурсов, а результат все равно далек от идеала. Но, знаете, что? Это нормально. Мы не собираемся создавать идеальную симуляцию человеческого движения. Мы просто пытаемся создать что-то достаточно хорошее, чтобы обмануть глаз. И, если честно, это уже неплохой результат. В конце концов, даже самые совершенные симуляции всегда будут отличаться от реальности. И это хорошо. Ведь, если бы мы могли создать идеальную симуляцию, зачем нам вообще жить?

Мы не чиним продакшен — мы просто продлеваем его страдания.

Диффузия и Трансформеры: Очередной «Прорыв» или Реальный Шаг Вперед?

И снова, очередная «революция» в области генерации движения. Все эти диффузионные модели, трансформеры… Вроде и неплохо, но всегда есть «но». Впрочем, кое-что в ViMoGen зацепило. Это не просто попытка натянуть очередную архитектуру на существующие данные, а, скорее, попытка использовать сильные стороны разных модальностей. Видели бы вы, сколько раз нам обещали «реалистичные» движения, которые на деле оказывались дергаными и неестественными. Здесь же, похоже, попытались объединить текстовые описания с данными, полученными из видео. И, надо признать, получилось довольно неплохо.

Модель ViMoGen использует текстовый энкодер и офлайн-модель генерации видео для создания текстовых и видео-токенов движения, которые объединяются с шумными входными данными движения через серию блоков диффузии с вентилями, обеспечивая адаптивное балансирование между устойчивостью и обобщением.
Модель ViMoGen использует текстовый энкодер и офлайн-модель генерации видео для создания текстовых и видео-токенов движения, которые объединяются с шумными входными данными движения через серию блоков диффузии с вентилями, обеспечивая адаптивное балансирование между устойчивостью и обобщением.

В основе ViMoGen лежит диффузионный трансформер. Звучит сложно, да? На деле, это просто способ генерировать данные, начиная с шума и постепенно добавляя структуру. Главная фишка – использование как текстовых описаний, так и видеоданных для обучения. Это позволяет модели лучше понимать сложные паттерны движения и генерировать более качественные последовательности. Все эти «сверхточные» алгоритмы часто терпят неудачу, когда дело доходит до реальных, сложных движений. Здесь же, похоже, удалось найти баланс.

Особенно забавно выглядит механизм «адаптивного выбора ветвей». Представьте себе, что у модели есть два пути: один – полагаться на текстовое описание, другой – использовать видеоданные. Она динамически выбирает, какой путь использовать, в зависимости от входных данных. Иногда видеоданные помогают, иногда – нет. Это как если бы модель сама решала, когда ей довериться тексту, а когда – визуальной информации. Кажется, разработчики потратили время, чтобы понять, что «усредненный» подход не всегда работает. Что-то новое, да… Но, как всегда, дьявол кроется в деталях.

В итоге, ViMoGen – это, конечно, не панацея. Всё ещё остаются проблемы с реалистичностью и плавностью движений. Но это, безусловно, шаг вперёд. И, знаете, иногда приятно видеть, что кто-то всё ещё пытается решать старые проблемы новыми способами. Всё новое – это просто старое с худшей документацией, конечно. Но иногда и такое бывает полезно.

MBench: Когда Теория Встречается с Практикой

Разработка новых алгоритмов генерации трёхмерных движений человека – процесс, конечно, увлекательный. Однако, как показывает практика, красивая архитектура и многообещающие результаты на узком наборе данных – это лишь половина дела. Остальное – это способность алгоритма работать в реальных условиях, с разнообразными запросами и, что самое главное, не ломаться при малейшем отклонении от идеальной картины. Поэтому, чтобы хоть как-то отделить зерна от плевел, была разработана новая методика оценки – MBench.

MBench – это, по сути, набор тестов, предназначенный для оценки алгоритмов генерации трёхмерных движений человека. Акцент сделан на трёх ключевых аспектах: способность к обобщению (Generalization), соответствие сгенерированного движения текстовому описанию (Text-Motion Consistency) и общее качество движения (Motion Quality). В отличие от существующих методик, MBench включает в себя гораздо более широкий спектр движений и сценариев, что позволяет получить более объективную и надежную оценку.

Бенчмарк MBench характеризуется более сбалансированным распределением и разнообразными дизайнами запросов по сравнению с HumanML3D, что позволяет систематически оценивать алгоритмы генерации движения по девяти измерениям, включая качество движения, соответствие запросу и способность к обобщению.
Бенчмарк MBench характеризуется более сбалансированным распределением и разнообразными дизайнами запросов по сравнению с HumanML3D, что позволяет систематически оценивать алгоритмы генерации движения по девяти измерениям, включая качество движения, соответствие запросу и способность к обобщению.

Для количественной оценки результатов используется ряд метрик. В частности, расстояние Фреше (Frechet Inception Distance) позволяет оценить степень сходства между сгенерированным и реальным движением. Вроде бы объективно, но, как показывает опыт, даже самые сложные метрики не всегда отражают реальное качество. Тем не менее, это лучше, чем просто смотреть на красивые картинки. Кстати, стоит отметить, что выбор метрик – это всегда компромисс. Идеальной метрики не существует, и всегда приходится идти на уступки.

В общем, MBench – это попытка создать более объективную и надежную методику оценки алгоритмов генерации трёхмерных движений человека. Будет ли она идеальной? Сомневаюсь. Но, по крайней мере, это шаг в правильном направлении. И, как говорится, лучше иметь хоть какую-то оценку, чем не иметь никакой.

ViMoGen-228K: Когда Данные Становятся Ресурсом

Создание действительно масштабного набора данных для обучения моделей генерации движения – задача, которая быстро превращается в головную боль. Все эти «революционные» архитектуры, все эти обещания – и в итоге оказываешься с узким горлышком в виде недостатка качественных данных. ViMoGen-228K – это попытка решить эту проблему, собрав вместе 228 тысяч последовательностей движения человека. Нельзя сказать, что это панацея, но это, по крайней мере, основа, с которой можно начать.

Вместо того, чтобы гнаться за экзотическими решениями, мы решили объединить три проверенных источника. Во-первых, это данные, полученные с помощью оптической захвата движения – классический, но дорогой способ получить точные и чистые данные. Во-вторых, видео, снятые в реальных условиях – хаотичные, шумные, но зато отражающие разнообразие человеческой деятельности. И, наконец, синтетические данные – сгенерированные компьютером, контролируемые, но требующие аккуратной калибровки, чтобы не превратиться в артефакты.

Набор данных ViMoGen-228K включает высококачественные данные оптической захвата движения, разнообразные видеоданные из реальной среды и точно контролируемые синтетические видеоданные, обеспечивая широкую основу для обучения и оценки моделей генерации движения.
Набор данных ViMoGen-228K включает высококачественные данные оптической захвата движения, разнообразные видеоданные из реальной среды и точно контролируемые синтетические видеоданные, обеспечивая широкую основу для обучения и оценки моделей генерации движения.

В итоге, получилось сочетание, которое позволяет модели учиться на широком спектре сценариев. Классические движения, зафиксированные в студии, дают прочный фундамент. Видео из реального мира добавляют реализма и разнообразия. А синтетические данные позволяют заполнить пробелы и контролировать определенные параметры. Если бы всё было идеально, то мы бы, конечно, отказались от синтетики, но в реальном мире приходится идти на компромиссы.

Масштаб набора данных – это, безусловно, важно. Но не менее важна и его разнородность. Если модель обучена только на ограниченном наборе движений, она не сможет эффективно обобщать на новые сценарии. ViMoGen-228K призван решить эту проблему, предоставляя модели широкую основу для обучения и позволяя ей адаптироваться к различным условиям. Конечно, это не гарантия успеха. Но это, по крайней мере, отправная точка. И, если честно, это больше, чем обычно бывает.

В конечном счете, всё сводится к тому, чтобы предоставить модели достаточно данных, чтобы она могла научиться генерировать реалистичные и правдоподобные движения. ViMoGen-228K – это попытка решить эту задачу, объединив три проверенных источника данных. И, если всё пойдет хорошо, это позволит нам создать модели, которые будут генерировать движения, неотличимые от реальных.

ViMoGen-light: Когда Эффективность Встречается с Качеством

Разговоры о «революционном» прорыве в генерации движений… Да, конечно. Обычно это означает ещё больше параметров, ещё больше вычислительных ресурсов, и в итоге – ещё больше головной боли с развертыванием. Но, как ни странно, кое-что интересное получилось. ViMoGen-light – это попытка усмирить этого цифрового зверя, выжать из него максимум производительности, не жертвуя при этом способностью генерировать хоть сколько-нибудь правдоподобные движения.

Идея проста, как все гениальное – дистиллировать знания из более крупной модели, как хороший коньяк. Убрать всё лишнее, оставить только суть. В результате получается не просто «облегчённая» версия, а вполне работоспособный инструмент, способный генерировать реалистичные движения, не требуя при этом вычислительной фермы. Это особенно приятно, учитывая, что большинство «прорывных» технологий так и остаются недоступными для реального применения из-за чрезмерных требований к ресурсам.

Снижение вычислительных затрат – это, конечно, хорошо. Но главное, что эта штука работает. Мы привыкли к тому, что «оптимизация» часто приводит к катастрофическому падению качества. Здесь же удалось найти баланс. ViMoGen-light не просто «генерирует» движения, она генерирует правдоподобные движения. Что, согласитесь, немаловажно. И да, это открывает новые возможности для виртуальной реальности, анимации и робототехники. Но не будем строить иллюзий – всегда найдется какой-нибудь крайний случай, который сломает эту систему. Такова жизнь.

На запросах MBench модели ViMoGen и ViMoGen-light последовательно генерируют движения, которые более точно соответствуют детальным текстовым описаниям, демонстрируя их превосходное семантическое понимание и качество генерации по сравнению с существующими методами.
На запросах MBench модели ViMoGen и ViMoGen-light последовательно генерируют движения, которые более точно соответствуют детальным текстовым описаниям, демонстрируя их превосходное семантическое понимание и качество генерации по сравнению с существующими методами.

В общем, ViMoGen-light – это не панацея от всех проблем, но вполне неплохая попытка сделать генерацию движений более доступной и эффективной. Посмотрим, что из этого выйдет в реальном мире. В любом случае, это лучше, чем очередная «революционная» технология, которая так и останется на полке.

Наблюдатель отмечает, что стремление к обобщенной генерации движения, как демонстрирует ViMoGen, неизбежно сталкивается с прагматичными ограничениями. Создание масштабного датасета ViMoGen-228K и эталонного набора MBench – это, безусловно, важные шаги, однако, как известно, данные со временем устаревают, а метрики становятся объектом манипуляций. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект — это не волшебная палочка, а инструмент, который необходимо калибровать и перенастраивать». Это особенно верно в контексте генерации движения, где «обобщение» часто оказывается лишь иллюзией, а реальная ценность заключается в способности адаптироваться к новым, непредсказуемым условиям. Каждый новый алгоритм – это лишь временное решение, которое потребует дальнейшей доработки и, возможно, полной замены.

Что же дальше?

Появление ViMoGen, как и любого нового инструмента, неизбежно порождает иллюзию покорения вершины. Да, генерация движений стала чуть более убедительной, датасет – чуть более обширным, а бенчмарк – чуть более полным. Однако, каждый, кто хоть раз пытался запустить что-либо в продакшен, знает: элегантная архитектура и впечатляющие метрики – лишь начало долгого пути. Вопрос не в том, насколько хорошо система генерирует среднее движение, а в том, как она справляется с неожиданными, не предусмотренными в датасете ситуациями. И, конечно, сколько ресурсов потребуется, чтобы поддерживать этот постоянно растущий монстр данных.

Не стоит забывать, что текущие подходы, как правило, опираются на огромные объёмы данных. Это напоминает попытку решить проблему, засыпая её данными. Будущие исследования, вероятно, будут сосредоточены на более эффективных методах обучения, возможно, с использованием принципов обучения с подкреплением или самообучения. Или же, что более вероятно, мы просто найдем способ собирать ещё больше данных. Ведь это всегда проще, чем думать.

Бенчмарки, подобные MBench, – это, безусловно, полезно, но и наивно. Они измеряют то, что можно измерить, но упускают из виду самое важное – естественность и правдоподобие. В конечном счёте, система должна не просто генерировать движения, а обманывать наблюдателя. И вот когда это станет реальностью, можно будет говорить о настоящем прогрессе. Пока же это лишь ещё одна строка в логе ошибок.


Оригинал статьи: https://arxiv.org/pdf/2510.26794.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-01 02:00