Создание 3D-моделей: новый подход к масштабируемости

Автор: Денис Аветисян


Исследователи представили LATTICE — фреймворк, позволяющий генерировать высококачественные 3D-ассеты в больших масштабах.

Система LATTICE представляет собой инновационный подход к трехмерному моделированию, использующий представление VoxSet для обеспечения масштабируемости от 0.6 до 4.5 миллиардов вокселей.
Система LATTICE представляет собой инновационный подход к трехмерному моделированию, использующий представление VoxSet для обеспечения масштабируемости от 0.6 до 4.5 миллиардов вокселей.

LATTICE использует полуструктурированное представление VoxSet и локализуемые коды для повышения производительности и эффективности генерации 3D-геометрии.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Несмотря на значительный прогресс в генеративных моделях, создание высококачественных 3D-активов по-прежнему существенно отстает от возможностей, доступных в 2D-синтезе. В данной работе, ‘LATTICE: Democratize High-Fidelity 3D Generation at Scale’, представлена новая платформа, преодолевающая этот разрыв благодаря инновационному представлению VoxSet, кодирующему 3D-геометрию в компактный, структурированный формат. Предложенный подход позволяет добиться масштабируемого и эффективного создания детализированных 3D-моделей, используя локальные вложения для направленной генерации. Сможет ли LATTICE стать основой для демократизации создания высококачественного 3D-контента и открыть новые горизонты для компьютерной графики и дизайна?


Сложность 3D-моделирования: вызов современным технологиям

Создание высококачественных трехмерных моделей представляет собой серьезную вычислительную задачу, требующую значительных временных затрат и ресурсов. Этот фактор существенно замедляет прогресс в таких требовательных областях, как индустрия видеоигр и визуальных эффектов. Детальная проработка каждой формы, текстуры и материала, необходимая для реалистичного изображения, требует огромной вычислительной мощности и квалифицированной работы специалистов. Традиционные методы моделирования зачастую не позволяют достичь оптимального баланса между качеством изображения, эффективностью процесса и структурной целостностью, что приводит к компромиссам в конечном результате и увеличению сроков разработки. В связи с этим, поиск новых, более эффективных подходов к генерации 3D-активов является ключевой задачей для развития современных цифровых технологий.

Традиционные методы создания трехмерных моделей часто сталкиваются с трудностями в достижении оптимального баланса между уровнем детализации, вычислительной эффективностью и структурной целостностью. Стремление к высокой реалистичности и сложности геометрии неизбежно приводит к увеличению времени рендеринга и требований к ресурсам, что ограничивает возможности применения в интерактивных приложениях и крупных проектах. В попытках оптимизировать производительность, разработчики вынуждены упрощать модели, снижая детализацию и, как следствие, визуальное качество. Более того, поддержание структурной согласованности сложных сцен представляет собой серьезную проблему, часто приводящую к артефактам и неестественным формам. Компромиссы между этими факторами неизбежны, и поиск эффективных решений для достижения высокого уровня визуальной достоверности при сохранении приемлемой производительности остается актуальной задачей в области компьютерной графики.

Существующие генеративные модели, несмотря на свою мощь, часто демонстрируют ограниченные возможности в создании сложных и структурно целостных трехмерных сцен, а также не обеспечивают достаточного контроля над деталями. Разработанная LATTICE — это инновационная платформа, призванная преодолеть эти ограничения. Благодаря своей архитектуре и масштабу, достигающему 4,5 миллиардов параметров, LATTICE демонстрирует передовые результаты в генерации 3D-контента, обеспечивая беспрецедентный уровень детализации и структурной корректности. Эта система способна создавать сложные сцены с высокой степенью контроля, открывая новые горизонты для автоматизации создания контента в таких областях, как компьютерные игры и визуальные эффекты.

Сгенерированная геометрия превосходит несколько современных открытых методов.
Сгенерированная геометрия превосходит несколько современных открытых методов.

Эффективное представление 3D: VecSet и VoxSet

Эффективная генерация трехмерных моделей напрямую зависит от разработки компактных, но выразительных представлений, способных эффективно захватывать геометрию объектов. Традиционные методы, такие как полные воксельные сетки, требуют значительных вычислительных ресурсов и памяти. Альтернативные подходы фокусируются на сжатии информации об объекте, сохраняя при этом достаточно деталей для реалистичной реконструкции. Успешные решения используют различные методы кодирования, включая векторные и воксельные представления, оптимизированные для минимизации избыточности данных и повышения скорости обработки, что критически важно для масштабируемости и практического применения в задачах генерации 3D-контента.

Представление VecSet использует механизм кросс-внимания (cross-attention) для сжатия объектов в небольшой набор векторных признаков, что позволяет существенно снизить вычислительную нагрузку. Кросс-внимание позволяет модели фокусироваться на наиболее релевантных частях входных данных, эффективно кодируя геометрию объекта в компактном векторном пространстве. Вместо хранения детальной информации о каждом вокселе или полигоне, VecSet представляет объект через ограниченное число векторов, каждый из которых кодирует определенные признаки. Этот подход значительно уменьшает объем памяти, необходимый для хранения модели, и ускоряет процессы генерации и обработки 3D-геометрии.

Представление VoxSet объединяет эффективность с использованием структурного латентного пространства, что позволяет генерировать когерентные 3D-модели. В отличие от простого кодирования объема, VoxSet использует латентное пространство, организованное таким образом, чтобы отражать структурные компоненты объекта. Это позволяет модели учиться представлять сложные формы и отношения между частями объекта более компактно и эффективно. Структурное латентное пространство способствует генерации 3D-моделей с высокой степенью согласованности и реалистичности, поскольку модель может использовать знания о структуре объекта для предсказания недостающих деталей и обеспечения общей связности.

В отличие от традиционных воксельных сеток, использующих равномерное представление пространства, VecSet и VoxSet фокусируются на репрезентации только значимой геометрии объекта, что существенно снижает требования к объему памяти и времени обработки. В частности, модели VoxSet демонстрируют более выраженную масштабируемость по сравнению с VecSet, поскольку их производительность улучшается при увеличении количества токенов, используемых в процессе инференса, что подтверждается данными, представленными на рисунке 13.

В отличие от моделей VecSet, демонстрирующих раннюю насыщенность, модели VoxSet последовательно улучшают детализацию и производительность при увеличении количества токенов во время тестирования, что указывает на их более высокую масштабируемость.
В отличие от моделей VecSet, демонстрирующих раннюю насыщенность, модели VoxSet последовательно улучшают детализацию и производительность при увеличении количества токенов во время тестирования, что указывает на их более высокую масштабируемость.

LATTICE: генеративная платформа для 3D-активов

Фреймворк LATTICE использует представление VoxSet, которое кодирует 3D-актив как набор вокселей, в сочетании с двухэтапным конвейером генерации. Первый этап отвечает за генерацию грубой формы, а второй — за детализацию и повышение качества геометрии. Такой подход позволяет эффективно генерировать высококачественные 3D-модели, оптимизируя использование вычислительных ресурсов и обеспечивая более высокую скорость генерации по сравнению с одноэтапными методами. Представление VoxSet обеспечивает компактное хранение данных, а двухэтапный конвейер позволяет разделить сложные вычисления и эффективно использовать параллельные вычисления для ускорения процесса генерации.

В основе генерации детализированной геометрии в LATTICE лежат Rectified Flow Transformers и методы Flow Matching. Rectified Flow Transformers позволяют моделировать сложные деформации и обеспечивают более плавные переходы между различными частями 3D-модели. Flow Matching, в свою очередь, оптимизирует процесс генерации, направляя модель к созданию структурно когерентных объектов, что минимизирует артефакты и повышает реалистичность генерируемой геометрии. В результате, LATTICE обеспечивает формирование 3D-активов с высоким уровнем детализации и сохранением структурной целостности.

Для повышения производительности, фреймворк LATTICE использует FlashVDM для ускорения декодирования геометрии в вариационном автоэнкодере (VAE). FlashVDM оптимизирует процесс декодирования, что позволяет генерировать геометрию быстрее и эффективнее. Кроме того, для обучения моделей большого масштаба применяется ZeRO Optimization, метод, который разделяет параметры модели, градиенты и состояния оптимизатора между несколькими графическими процессорами, снижая требования к памяти и позволяя обучать более сложные модели. Это обеспечивает масштабируемость процесса обучения и позволяет LATTICE обрабатывать наборы данных большей сложности и размера.

В LATTICE для извлечения признаков используется DinoV2, а для оценки качества и соответствия сгенерированных 3D-моделей тексту применяются метрики ULIP и Uni3D. Результаты, представленные в таблицах 1 и 2, демонстрируют, что LATTICE достигает передовых показателей в задачах реконструкции (Chamfer Distance, умноженный на $10^4$) и оценки сходства изображения и 3D-модели (Uni3D Score) по сравнению с существующими методами.

Архитектура LATTICE использует двухэтапный принцип от грубого к детальному, а также новый VoxSet VAE и DiT для повышения точности.
Архитектура LATTICE использует двухэтапный принцип от грубого к детальному, а также новый VoxSet VAE и DiT для повышения точности.

Усиление контроля с помощью локализуемости и разреженных представлений

Принцип локализуемости обеспечивает надежное управление в процессе 3D-генерации, позволяя точно контролировать создаваемые объекты. Суть подхода заключается в том, что при создании трехмерной модели особое внимание уделяется локальным характеристикам и взаимосвязям между элементами. Это позволяет задавать конкретные параметры и ограничения для отдельных областей модели, направляя процесс генерации в нужное русло. Вместо того, чтобы создавать модель целиком, система фокусируется на локальных деталях, обеспечивая более детальное и точное воспроизведение желаемых форм и текстур. Такой подход значительно расширяет возможности управления процессом создания 3D-контента, позволяя пользователям более гибко и интуитивно формировать сложные и детализированные модели, соответствующие их конкретным потребностям и задачам.

Представление сцены в виде разреженных вокселей и применение разреженных свёрток позволяют значительно оптимизировать использование памяти и вычислительные затраты при генерации трёхмерных объектов. Вместо обработки всего объёма пространства, система фокусируется исключительно на активной геометрии — вокселях, содержащих информацию о поверхности объекта. Это позволяет игнорировать пустые области, снижая объём необходимых вычислений и объём используемой памяти. Это особенно важно при работе со сложными сценами и высокодетализированными моделями, где традиционные методы могут потребовать огромных ресурсов. Благодаря такому подходу, становится возможным создавать и редактировать сложные трёхмерные объекты с большей скоростью и эффективностью, что открывает новые возможности для интерактивного моделирования и визуализации.

В процессе генерации трехмерных объектов ключевую роль играют запросы к воксельной сетке. Эти запросы, привязанные к центрам активных вокселей, обеспечивают необходимую позиционную информацию для точного формирования геометрии. Используя информацию о расположении каждого активного вокселя, система способна последовательно и эффективно строить сложные формы, избегая излишних вычислений в пустых областях пространства. Такой подход позволяет не только ускорить процесс генерации, но и повысить детализацию создаваемых моделей, поскольку фокус направлен исключительно на области, требующие активного формирования. По сути, воксельные запросы служат своеобразным «навигатором», направляющим процесс генерации и обеспечивающим точность позиционирования каждого элемента модели.

Оптимизации, реализованные в данной системе, привели к значительному ускорению процесса итераций и снижению потребления ресурсов, что позволило создавать сложные сцены с повышенной детализацией. В результате, стало возможным интерактивное моделирование и быстрое внесение изменений в генерируемые объекты. Оценка, проведенная с участием пользователей, результаты которой представлены на рисунке 11, показала, что разработанный подход, LATTICE, демонстрирует существенное превосходство над другими методами с точки зрения предпочтений респондентов. Это подтверждает эффективность предложенных решений в области 3D-генерации и указывает на их потенциал для широкого спектра применений.

Исследование абляции показало, что предложенные запрос вокселей и VAE VoxSet вносят существенный вклад в общую производительность системы.
Исследование абляции показало, что предложенные запрос вокселей и VAE VoxSet вносят существенный вклад в общую производительность системы.

Исследование представляет собой стремление к упрощению сложного. Авторы предлагают LATTICE — систему, в которой геометрия генерируется посредством локализуемых кодов в полуструктурированном представлении VoxSet. Этот подход позволяет достичь масштабируемости и превосходных результатов. Как заметил Пол Эрдёш: «Математика — это искусство, которое нужно делать строго». В данном контексте, строгость проявляется в точности представления геометрии и эффективности генерации, что позволяет создавать сложные 3D-модели с минимальными затратами ресурсов. Главная концепция — масштабируемость — становится возможной благодаря чёткой структуре и локализуемым кодам.

Что дальше?

Представленная работа, безусловно, смещает акценты в сторону масштабируемого синтеза трёхмерных сцен. Однако, упрощение сложного мира до полуструктурированного представления, каким является VoxSet, неизбежно накладывает отпечаток на детализацию и, что важнее, на семантическое понимание генерируемых объектов. Попытки «локализовать» руководство — шаг в верном направлении, но вопрос о действительно осмысленном управлении процессом генерации остаётся открытым. Успех не в увеличении количества полигонов, а в их осознанном расположении.

Перспективы заключаются не столько в совершенствовании диффузионных моделей, сколько в исследовании альтернативных подходов к представлению геометрии. Более компактные, более выразительные, и, что самое главное, более интерпретируемые представления — вот где кроется истинный прогресс. Зачастую, наиболее элегантное решение — это отсутствие решения, позволяющее проблеме раствориться в простоте.

Истинно ценное направление — это переход от генерации изображений трёхмерных объектов к генерации знаний о них. Когда модель сможет не просто воссоздать форму, но и понять её функцию, назначение, взаимосвязь с другими объектами, тогда и можно будет говорить о настоящем искусственном интеллекте. Ясность — это минимальная форма любви, и это касается не только визуального представления, но и внутренней структуры знания.


Оригинал статьи: https://arxiv.org/pdf/2512.03052.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-07 17:23