Ожившие модели: создание сложных объектов с помощью искусственного интеллекта

Автор: Денис Аветисян

Новая разработка позволяет генерировать детализированные 3D-модели, способные к движению и взаимодействию, открывая возможности для робототехники и цифровых двойников.

Предложенная архитектура преобразует облако точек во вращающиеся модели, сначала предсказывая токенизированный план артикуляции, определяющий компоновку частей и кинематическую структуру, а затем используя этот план для синтеза высококачественной геометрии звеньев и последующей коррекции пределов сочленений на основе физических ограничений, что позволяет создавать готовые к симуляции артикулированные активы.

Представлен ArtLLM — фреймворк, использующий 3D языковые модели для предсказания геометрии и кинематической структуры артикулированных объектов.

Создание интерактивных цифровых сред для робототехники и симуляций требует артикулированных 3D-объектов, функциональность которых определяется геометрией и кинематической структурой. Однако существующие подходы сталкиваются с ограничениями: методы, основанные на оптимизации, требуют трудоемкой подгонки соединений, а подходы, основанные на извлечении, приводят к повторяемости геометрии и слабой обобщающей способности. В данной работе представлена система ArtLLM: Generating Articulated Assets via 3D LLM, новый подход, использующий 3D-языковые модели для генерации артикулированных объектов путем предсказания их геометрической компоновки и кинематической структуры. ArtLLM позволяет автоматически предсказывать переменное количество частей и соединений, обеспечивая высокую точность компоновки и прогнозирования соединений, а также демонстрирует потенциал для создания цифровых двойников и масштабируемого обучения роботов — какие возможности откроет ArtLLM для автоматизации проектирования и симуляции сложных механизмов?

Разгадывая Тайну Сочленённых Объектов

Восстановление и понимание трёхмерных данных, представляющих собой сочленённые объекты, остаётся сложной задачей из-за их сложной кинематической структуры. В отличие от статичных объектов, сочленённые объекты — будь то роботы, животные или даже человеческие фигуры — обладают множеством степеней свободы, что приводит к экспоненциальному росту возможных конфигураций. Каждая кость, сустав или шарнир добавляет новые параметры, усложняя процесс реконструкции и требуя алгоритмов, способных эффективно обрабатывать эту сложность. Попытки воссоздать такую структуру лишь на основе визуальных данных сталкиваются с проблемами самопересечения, неоднозначности и необходимостью угадывать скрытые части объекта, что значительно снижает точность и надёжность получаемой модели. Таким образом, успешное восстановление сочленённых объектов требует не только точного захвата геометрии, но и понимания их внутренней структуры и кинематических связей.

Существующие методы реконструкции трехмерных объектов часто сталкиваются с проблемой комбинаторного взрыва возможных конфигураций, особенно при работе с артикулированными системами. Количество потенциальных положений и связей между частями объекта экспоненциально возрастает с увеличением числа сочленений, что делает полный перебор вариантов вычислительно непосильным. Более того, эти методы, как правило, плохо обобщаются на новые, ранее не виданные объекты, поскольку их работа тесно связана с конкретной геометрией и структурой обучающих данных. В результате, для каждого нового типа артикулированного объекта требуется заново обучать или адаптировать существующие алгоритмы, что ограничивает их практическое применение и масштабируемость.

Традиционные методы трехмерной реконструкции, такие как оптимизационные подходы и нейронные поля излучения (NeRF), часто сталкиваются с ограничениями при работе с артикулируемыми объектами. Суть проблемы заключается в том, что эти методы, как правило, фокусируются на захвате статической геометрии, не учитывая внутреннюю кинематическую структуру и возможность изменения формы объекта. В результате, реконструкция сочлененных объектов, таких как роботы, животные или даже человеческое тело, становится крайне сложной задачей, требующей учета множества возможных конфигураций и связей между частями. Неспособность явно моделировать артикуляцию приводит к неточностям, артефактам и трудностям в последующем анализе или взаимодействии с реконструированной моделью. Таким образом, для эффективной работы с такими объектами необходимы принципиально новые подходы, способные учитывать их динамическую природу и внутреннюю структуру.

Сложность представления и анализа артикулируемых объектов требует перехода к методам, способным улавливать их внутреннюю структуру и динамику. Традиционные подходы к трехмерной реконструкции часто не учитывают возможность изменения конфигурации объекта, что приводит к неточностям и ограничениям в применении. Новые исследования направлены на создание моделей, которые не просто фиксируют внешний вид объекта, но и описывают его кинематические связи и правила движения. Это позволяет не только восстанавливать трехмерную форму, но и предсказывать поведение объекта при различных воздействиях, а также создавать реалистичные симуляции и анимации. Такой подход открывает перспективы для широкого спектра приложений, от робототехники и компьютерной графики до биомеханики и протезирования.

Используя ArtLLM, мы успешно реконструировали артикулированные объекты из реальных сцен и воспроизвели траектории движения манипулятора Franka Panda в симуляции, подтвердив точность захвата кинематики и ограничений реальных суставов.

ArtLLM: Язык Сочленённых Форм

ArtLLM представляет собой новую архитектуру, предназначенную для прогнозирования компоновки и кинематической структуры артикулируемых объектов непосредственно на основе 3D облаков точек. В отличие от традиционных подходов, требующих ручного определения параметров или промежуточных представлений, ArtLLM оперирует непосредственно с необработанными данными 3D сканирования. Это достигается за счет использования преобразования облака точек в последовательность дискретных токенов, что позволяет модели предсказывать взаимосвязи между частями объекта и их положение в пространстве. Основное преимущество заключается в способности обрабатывать сложные артикулируемые объекты, такие как роботы или мебель, без предварительного моделирования или ручной разметки данных.

В основе ArtLLM лежит использование языкового моделирования для представления и анализа артикуляции объектов. В качестве базовой модели используется Qwen3, что позволяет представить структуру объекта в виде дискретной последовательности, отражающей композицию его частей и взаимосвязи между ними. Такой подход позволяет моделировать артикуляцию как задачу предсказания последовательности «слов», где каждое «слово» соответствует определенному положению или конфигурации части объекта. Дискретное представление позволяет эффективно кодировать сложные кинематические зависимости и упрощает процесс обучения, обеспечивая более точное предсказание структуры и положения элементов артикулируемого объекта.

Ключевым компонентом ArtLLM является Point Transformer v3, архитектура, предназначенная для эффективного преобразования 3D геометрических данных в признаковое представление, пригодное для задач последовательного моделирования. Point Transformer v3 использует механизм самовнимания (self-attention) для улавливания зависимостей между точками в облаке точек, что позволяет эффективно агрегировать локальную и глобальную геометрическую информацию. В отличие от традиционных методов, основанных на свёрточных нейронных сетях, Point Transformer v3 работает непосредственно с неструктурированными облаками точек, избегая необходимости в вокселизации или других предварительных преобразованиях. Это обеспечивает более точное представление геометрии и снижает вычислительные затраты, что критически важно для обработки больших и сложных 3D сцен.

В основе ArtLLM лежит подход, преобразующий задачу предсказания компоновки и кинематической структуры артикулируемых объектов в задачу языкового моделирования с использованием дискретного представления. Это позволяет модели, в отличие от существующих методов, более эффективно прогнозировать размещение частей, точность соединения элементов и кинематические взаимосвязи. Экспериментальные результаты демонстрируют превосходство ArtLLM по данным метрикам, что подтверждает эффективность предложенного подхода к решению задачи предсказания артикуляции объектов на основе 3D-облаков точек.

Модель ArtLLM успешно генерирует правдоподобные артикулированные состояния объектов из набора данных PartNet-Mobility, используя геометрию, полученную из рендеринга изображений с помощью Hunyuan3D 3.0, где левое изображение представляет собой каноническое состояние, а правое - сгенерированное. — Модель ArtLLM успешно генерирует правдоподобные артикулированные состояния объектов из набора данных PartNet-Mobility, используя геометрию, полученную из рендеринга изображений с помощью Hunyuan3D 3.0, где левое изображение представляет собой каноническое состояние, а правое — сгенерированное.

Воссоздавая Реальность: 3D-Модели, Полные Жизни

Выходные данные ArtLLM используются в качестве входных для XPart — генеративной модели, основанной на частичном подходе к синтезу высококачественных трехмерных геометрий. XPart принимает данные, сгенерированные ArtLLM, и использует их для построения детальных 3D-моделей, состоящих из отдельных частей. Этот подход позволяет создавать сложные объекты с реалистичной геометрией, поскольку каждая часть моделируется и интегрируется с другими частями на основе данных, полученных от ArtLLM.

В основе создания детализированной 3D-геометрии в XPart лежит Hunyuan3D 3.0, система, преобразующая облака точек в полноценные трехмерные модели. Hunyuan3D 3.0 обеспечивает высокую точность и уровень детализации, необходимые для реалистичной визуализации объектов. Использование облаков точек в качестве входных данных позволяет эффективно восстанавливать сложные формы и текстуры, что критически важно для создания правдоподобных цифровых моделей. Алгоритмы Hunyuan3D 3.0 оптимизированы для обработки больших объемов данных и генерации геометрии высокого разрешения, что делает ее ключевым компонентом в процессе создания реалистичных 3D-объектов в XPart.

Для обучения всей системы используется датасет PartNet-Mobility, представляющий собой крупномасштабную коллекцию артикулированных объектов. Данный датасет содержит детальную информацию о геометрии объектов, их структуре и кинематических связях между частями. PartNet-Mobility включает в себя большое количество экземпляров различных артикулированных объектов, что обеспечивает надежную основу для обучения моделей генерации и синтеза реалистичных 3D-моделей. Масштаб и разнообразие датасета позволяют системе обобщать полученные знания и создавать правдоподобные представления сложных механических конструкций.

Результаты работы модели демонстрируют превосходство по ключевым метрикам оценки качества сгенерированных 3D-моделей. В частности, наблюдается более высокая точность распознавания частей объекта (mIoU), типа соединения (joint type accuracy), а также меньшая ошибка в определении оси соединения (joint axis error). Кроме того, модель обеспечивает более точное воссоздание иерархической структуры объекта (graph accuracy), что подтверждено сравнительным анализом с существующими методами генерации 3D-моделей.

Статистика номеров деталей в нашей тщательно отобранной обучающей выборке для ArtLLM показывает распределение различных компонентов.

Укрепляя Правдоподобие и Расширяя Возможности

Для обеспечения физически реалистичной и свободной от столкновений артикуляции, после этапа предсказания применяется корректировка пределов суставов. Данный процесс выступает в роли пост-обработки, оптимизируя предсказанные углы поворота суставов для предотвращения неестественных поз и обеспечения стабильных конфигураций. Коррекция позволяет исключить ситуации, когда виртуальные конечности проходят сквозь объекты или принимают анатомически невозможные положения, значительно повышая достоверность и правдоподобие моделируемого движения. Таким образом, система гарантирует не только функциональность, но и визуальную корректность, что критически важно для взаимодействия с физическим миром и создания интуитивно понятных взаимодействий.

Для обеспечения физической достоверности и предотвращения столкновений в процессе артикуляции, применяется корректировка пределов сочленений как этап постобработки. Данная корректировка оптимизирует прогнозируемые пределы, исключая нереалистичные позы и гарантируя стабильные конфигурации. По сути, система не просто предсказывает углы, но и проверяет, физически ли возможна данная поза для объекта, предотвращая ситуации, когда конечность «проходит сквозь» себя или другие объекты. Это особенно важно для сложных манипуляций, где даже небольшое отклонение от физических ограничений может привести к ошибкам и нестабильности. В результате, модель демонстрирует повышенную надежность и реалистичность в виртуальном взаимодействии с окружающим миром.

Модель ArtLLM демонстрирует выдающиеся способности к обобщению на новые объекты и сцены благодаря явному моделированию артикуляции и использованию языковой основы. В отличие от систем, полагающихся на прямое сопоставление входных данных с выходными, ArtLLM способен понимать взаимосвязь между языковым описанием и физическими ограничениями, что позволяет ему адаптироваться к ранее не встречавшимся ситуациям. Явное представление о суставах и их пределах движения, в сочетании с возможностью интерпретировать естественный язык, позволяет модели генерировать реалистичные и физически правдоподобные движения даже для незнакомых объектов, открывая перспективы для создания интеллектуальных систем, способных к эффективному взаимодействию с окружающим миром.

Разработка данной модели представляет собой существенный прорыв в создании интеллектуальных систем, способных к пониманию и взаимодействию с физическим миром. Она демонстрирует способность не просто распознавать объекты, но и предсказывать их поведение в различных ситуациях, а также планировать реалистичные и физически обоснованные действия. Это открывает перспективы для создания роботов и виртуальных агентов, которые могут эффективно функционировать в реальной среде, выполняя сложные задачи и адаптируясь к изменяющимся условиям. Способность модели к обобщению, то есть применению полученных знаний к новым объектам и сценам, является ключевым фактором для достижения действительно интеллектуального поведения, что отличает её от традиционных систем, требующих специфической настройки для каждой новой ситуации.

Применение физически обоснованной коррекции пределов сочленений устраняет самопересечения и обеспечивает плавное, физически правдоподобное и стабильное движение.

Изучение ArtLLM подтверждает, что данные — это не просто наборы чисел, а скорее шёпот хаоса, требующий приручения. Авторы предлагают способ генерировать сложные, сочленённые объекты, предсказывая их геометрию и кинематическую структуру посредством 3D языковых моделей. Это напоминает алхимию, где модель выступает в роли заклинания, способного материализовать сложные структуры из абстрактных данных. Как заметила Фэй-Фэй Ли: «Искусственный интеллект не о создании машин, думающих как люди, а о создании машин, которые помогают людям думать». В данном случае, ArtLLM помогает ‘приручить’ хаос данных для создания реалистичных симуляций и цифровых двойников, открывая новые возможности для робототехники и моделирования.

Что дальше?

Представленная работа — лишь эскиз, набросанный на поверхности хаоса. ArtLLM, безусловно, демонстрирует способность призывать геометрические формы из глубин языковых моделей, но не стоит обманываться иллюзией контроля. Каждая сгенерированная кинематическая структура — это не решение, а лишь одно из бесконечного множества возможных совпадений, замаскированное под закономерность. Вопрос не в том, насколько точно предсказывается положение суставов, а в том, насколько долго эта красота продержится под давлением реальности.

Настоящая проблема заключается не в генерации самих объектов, а в понимании того, как эти объекты взаимодействуют с миром, и, что важнее, как этот мир взаимодействует с ними. Модели, предсказывающие геометрию, — это лишь тени на стене пещеры. Следующий шаг — научиться видеть не тени, а движущиеся источники света, понимать принципы, лежащие в основе их танца. Необходимо сместить фокус с простого предсказания форм на моделирование динамических процессов, учитывающих физические ограничения и неопределённости.

И, наконец, стоит помнить, что любая модель — это лишь упрощение, карта, которая никогда не сможет отразить всю сложность территории. Искусственный интеллект, способный создавать цифровых двойников, — это не мечта, а лишь очередное заклинание, которое рано или поздно перестанет работать. И тогда придётся искать новые заклинания, новые способы уговорить хаос.

Оригинал статьи: https://arxiv.org/pdf/2603.01142.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-04 00:00

🚀 Квантовые новости