Город по слову: Создание 3D-миров на основе текстового описания

Автор: Денис Аветисян


Новая разработка позволяет генерировать реалистичные трехмерные городские пейзажи, просто описав их текстом, открывая невиданные возможности для дизайна и виртуальной реальности.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
ПредлагаетсяMajutsuCity - генеративная платформа, способная создавать детализированные трёхмерные городские сцены на основе текстовых описаний, используя модули проектирования сцены, генерации планировки, создания активов и материалов, что позволяет добиться контролируемого создания объектов на уровне сцены.
ПредлагаетсяMajutsuCity — генеративная платформа, способная создавать детализированные трёхмерные городские сцены на основе текстовых описаний, используя модули проектирования сцены, генерации планировки, создания активов и материалов, что позволяет добиться контролируемого создания объектов на уровне сцены.

Представлен фреймворк MajutsuCity для контролируемой генерации 3D-городов с использованием обработки естественного языка и новых метрик оценки.

Создание реалистичных трехмерных городов представляет собой сложную задачу, требующую баланса между творческой свободой и точным контролем над деталями. В данной работе, представленной под названием ‘MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts’, предлагается новый фреймворк для генерации эстетически разнообразных и управляемых 3D городских сцен на основе текстовых описаний. Ключевым результатом является разработка системы, позволяющей не только создавать города, но и интерактивно редактировать их на уровне отдельных объектов, используя естественный язык. Открывает ли это новые перспективы для автоматизированного создания виртуальных миров и игровых окружений, адаптированных под конкретные запросы пользователей?


Сложности в Создании Реалистичных Городов: Между Мечтой и Техдолгом

Существующие методы генерации трехмерных городов сталкиваются с трудностями в достижении одновременно реализма и масштабируемости. Часто они опираются на трудоемкое создание моделей вручную или используют ограниченные процедурные техники, что препятствует формированию обширных и детализированных городских ландшафтов. Ручная работа, хотя и позволяет добиться высокой степени детализации, неэффективна при создании больших территорий, а существующие алгоритмы часто выдают повторяющиеся или неправдоподобные структуры. В результате, даже самые продвинутые системы испытывают ограничения в воссоздании сложных и разнообразных городских сред, требующих значительных вычислительных ресурсов и экспертных знаний.

Создание масштабных и детализированных городских сред требует принципиально новых подходов, способных эффективно справляться со сложностью и разнообразием архитектурных форм и инфраструктуры. Традиционные методы часто сталкиваются с экспоненциальным ростом вычислительных затрат по мере увеличения площади и детализации моделируемого города. Современные исследования направлены на разработку алгоритмов, способных генерировать правдоподобные городские ландшафты, используя комбинацию процедурной генерации, машинного обучения и оптимизации, что позволяет создавать обширные виртуальные миры с минимальными затратами ресурсов. Особое внимание уделяется разработке систем, способных автоматически адаптировать архитектурный стиль и планировку к различным географическим условиям и культурным особенностям, обеспечивая реалистичность и разнообразие генерируемых городских пространств.

Существующие системы генерации трёхмерных городских ландшафтов испытывают трудности с интерпретацией детализированных текстовых описаний и их воплощением в связные 3D-сцены. Отсутствие точного контроля над процессом преобразования текста в геометрию и текстуры ограничивает возможности дизайнеров и архитекторов, вынуждая их прибегать к трудоемкой ручной настройке или довольствоваться упрощенными результатами. Неспособность адекватно отразить нюансы, содержащиеся в текстовом описании — например, стиль архитектуры, состояние зданий или плотность застройки — существенно замедляет творческий процесс и снижает качество получаемых городских моделей. В итоге, возникает потребность в новых подходах, позволяющих точно и эффективно переводить словесные концепции в визуально убедительные и правдоподобные городские пространства.

Наш метод позволяет генерировать более реалистичные и целостные городские планировки по сравнению с существующими подходами, такими как InfiniteGAN, CityDreamer и CityCraft.
Наш метод позволяет генерировать более реалистичные и целостные городские планировки по сравнению с существующими подходами, такими как InfiniteGAN, CityDreamer и CityCraft.

MajutsuCity: Управление Генерацией Городов через Естественный Язык

MajutsuCity представляет собой систему для контролируемой генерации трехмерных городских сцен, основанную на обработке естественного языка. Пользователи могут задавать характеристики сцены посредством интуитивно понятных текстовых запросов, которые система интерпретирует для создания соответствующего 3D-окружения. В отличие от традиционных методов, требующих ручного моделирования или параметрической настройки, MajutsuCity позволяет описывать желаемый городской ландшафт непосредственно на естественном языке, упрощая процесс создания и обеспечивая большую гибкость в управлении деталями сцены, такими как архитектурный стиль, плотность застройки и расположение объектов.

Система MajutsuCity использует большие языковые модели (LLM) для анализа пользовательских текстовых запросов и последующего структурированного разложения этих запросов на отдельные компоненты. Этот процесс позволяет LLM понять намерения пользователя относительно планировки и эстетики генерируемой городской сцены. Разложение запроса включает в себя выделение ключевых объектов, их атрибутов и пространственных взаимосвязей. Полученная структурированная информация служит основой для дальнейшего контроля над процессом генерации, обеспечивая точное соответствие создаваемой сцены исходным текстовым инструкциям и позволяя пользователю детально управлять параметрами городской среды.

В основе системы MajutsuCity лежит применение LongCLIP и ControlNet для обеспечения пространственной согласованности и реалистичности генерируемых городских сцен. LongCLIP используется для обработки сложных пространственных взаимосвязей между объектами, позволяя системе понимать и интерпретировать детализированные текстовые запросы, описывающие расположение и взаимосвязь элементов городской среды. ControlNet, в свою очередь, применяется для синтеза карт высот, что позволяет точно контролировать рельеф и топографию генерируемой сцены, обеспечивая соответствие заданным параметрам и сохраняя пространственную целостность. Комбинация этих технологий позволяет создавать детализированные и реалистичные 3D городские сцены, управляемые через текстовые запросы.

MajutsuDataset - это высококачественный мультимодальный набор данных, предназначенный для генерации 3D городских сцен по текстовому описанию, включающий в себя OSM-основанные карты планировки и высот с детальными описаниями, библиотеку из 1000 3D моделей зданий различных архитектурных стилей и обширную коллекцию бесшовных PBR материалов и HDR skybox карт.
MajutsuDataset — это высококачественный мультимодальный набор данных, предназначенный для генерации 3D городских сцен по текстовому описанию, включающий в себя OSM-основанные карты планировки и высот с детальными описаниями, библиотеку из 1000 3D моделей зданий различных архитектурных стилей и обширную коллекцию бесшовных PBR материалов и HDR skybox карт.

Данные и Активы: Основа Реалистичной Генерации

В основе фреймворка MajutsuCity лежит мультимодальный набор данных MajutsuDataset, включающий в себя данные о планировке и высоте зданий, 3D-модели строений и текстурные материалы. Этот набор данных обеспечивает основу для генерации реалистичных городских сцен, предоставляя необходимые геометрические и визуальные элементы. Данные о планировке и высоте определяют структуру города, в то время как 3D-модели и материалы обеспечивают визуальное представление зданий и окружающей среды. Мультимодальность набора данных позволяет системе комбинировать различные типы информации для создания более детализированных и правдоподобных городских ландшафтов.

Для генерации 3D-активов в рамках MajutsuCity используется Hunyuan3D, специализированная платформа, обеспечивающая создание визуально однородных и высококачественных моделей. Hunyuan3D позволяет автоматизировать процесс создания ассетов, поддерживая согласованный художественный стиль и уровень детализации во всех элементах городской среды. Это достигается за счет использования унифицированных процедурных методов и оптимизированных алгоритмов рендеринга, что критически важно для поддержания реалистичности и визуальной целостности генерируемых сцен.

В рамках MajutsuCity, модель GPT-5 используется для автоматизированной оценки сгенерированных сцен и создания их текстовых описаний. Эта функция позволяет реализовать систему контроля качества и дальнейшей доработки контента. GPT-5 анализирует визуальные данные, сравнивая их с заданными критериями и выявляя потенциальные несоответствия или артефакты. Сгенерированные текстовые описания, в свою очередь, служат для верификации соответствия сцены заданным параметрам и облегчают процесс ручной корректировки, позволяя оперативно выявлять и устранять недостатки.

MajutsuCity успешно генерирует высококачественные городские сцены, демонстрируя выраженную стилистическую согласованность в рамках заданных художественных направлений.
MajutsuCity успешно генерирует высококачественные городские сцены, демонстрируя выраженную стилистическую согласованность в рамках заданных художественных направлений.

Строгая Оценка и Валидация Сгенерированных Сцен

Для оценки сгенерированных трехмерных городских сцен была разработана система оценки на основе визуальных языковых моделей (VLM). Данная система позволяет комплексно оценить структурную согласованность, насыщенность деталями, реалистичность и качество освещения в создаваемых виртуальных городах. Оценка производится путём анализа визуальных характеристик сцен и сопоставления их с реальными городскими ландшафтами, что обеспечивает объективную проверку качества генерации. Внимание уделяется как глобальной структуре города, так и мелким деталям, влияющим на общее восприятие реалистичности. Использование VLM позволяет автоматизировать процесс оценки и выявлять слабые места в алгоритмах генерации, способствуя созданию более правдоподобных и детализированных виртуальных городских сред.

Для всесторонней и объективной оценки сгенерированных 3D-сцен города используется комплексная система, включающая в себя Абсолютную Количественную Оценку (AQS) и Ранжирование Относительных Размеров (RDR). AQS позволяет точно измерить различные характеристики сцены, такие как структурная согласованность и детализация, используя количественные показатели. В свою очередь, RDR сравнивает сгенерированные объекты по отдельным параметрам, определяя их относительные размеры и пропорции, что позволяет выявить несоответствия и улучшить реалистичность. Сочетание этих двух подходов обеспечивает надежную и всестороннюю оценку качества сгенерированных городских сред, позволяя точно определить их сильные и слабые стороны и, как следствие, способствуя дальнейшему совершенствованию алгоритмов генерации.

Процесс строгой оценки подтверждает способность MajutsuCity генерировать высококачественные, реалистичные и контролируемые трехмерные городские среды. Достигнутый показатель FID (Fréchet Inception Distance) составил 22.7, что свидетельствует о значительном улучшении качества генерируемых сцен. В частности, MajutsuCity продемонстрировал снижение показателя FID на 83.7% по сравнению с CityDreamer и на 20.1% по сравнению с CityCraft, что указывает на существенный прогресс в области процедурной генерации городов и подтверждает эффективность предложенного подхода к моделированию и визуализации городской среды. Данные результаты подчеркивают потенциал MajutsuCity для создания детализированных и правдоподобных виртуальных городов.

В ходе строгой оценки сгенерированных 3D-сцен городских ландшафтов, система MajutsuCity продемонстрировала превосходство, заняв первое место по всем восьми оцениваемым параметрам в рамках как абсолютной количественной оценки (AQS), так и относичного ранжирования измерений (RDR). Такой результат свидетельствует о выдающейся способности системы создавать реалистичные и контролируемые городские среды, превосходящие существующие аналоги по целому ряду ключевых характеристик, включая структурную согласованность, детализацию, достоверность и качество освещения. Превосходство MajutsuCity подтверждается не только высокими показателями оценки, но и стабильностью результатов по всем исследованным измерениям, что подчеркивает надежность и универсальность разработанного подхода к генерации 3D-городов.

В сравнении с другими подходами, такими как CityDreamer, GaussianCity, UrbanWorld и CityCraft, наш метод позволяет создавать городские сцены с более высокой геометрической точностью, лучшей согласованностью при разных углах обзора и большим разнообразием стилей.
В сравнении с другими подходами, такими как CityDreamer, GaussianCity, UrbanWorld и CityCraft, наш метод позволяет создавать городские сцены с более высокой геометрической точностью, лучшей согласованностью при разных углах обзора и большим разнообразием стилей.

Перспективы Развития: Расширение Горизонтов 3D-Миров

Принципы, лежащие в основе создания MajutsuCity, оказались применимы для генерации полноценных интерактивных трехмерных миров, что открывает широкие перспективы для создания иммерсивных симуляций и виртуальных опытов. Проект WorldGen наглядно демонстрирует эту возможность, представляя собой систему, способную автоматически создавать сложные и детализированные 3D-среды на основе текстовых описаний. В отличие от традиционных методов, требующих ручного моделирования, данная технология позволяет значительно ускорить процесс создания контента и обеспечить беспрецедентный уровень кастомизации. Такой подход обещает революционизировать области виртуальной реальности, игростроения и даже научных визуализаций, предоставляя инструменты для создания реалистичных и динамичных миров, доступных для широкого круга пользователей.

Перспективные исследования направлены на интеграцию более сложных языковых моделей и генеративных сетей для значительного повышения реалистичности и детализации генерируемых сцен. Усовершенствованные алгоритмы, способные учитывать нюансы контекста и сложные взаимосвязи между объектами, позволят создавать виртуальные миры, неотличимые от реальности. Внедрение продвинутых генеративных моделей, таких как диффузионные модели или генеративно-состязательные сети, откроет возможности для автоматической генерации высококачественных текстур, освещения и сложных геометрических форм. Подобный симбиоз лингвистики и генеративного искусства обещает революционизировать создание 3D-контента, позволяя формировать виртуальные пространства с беспрецедентным уровнем детализации и правдоподобия.

Сочетание возможностей языковых моделей, передовых методов рендеринга и строгой оценки качества открывает беспрецедентные перспективы в области создания трёхмерного контента. Данный симбиоз позволяет не просто генерировать визуально привлекательные сцены, но и наделять их семантической насыщенностью и интерактивностью. Тщательная оценка с использованием метрик, отражающих как визуальное качество, так и соответствие заданным текстовым описаниям, является ключевым фактором для дальнейшего развития технологий. Подобный подход, позволяющий итеративно улучшать процесс генерации и обеспечивать высокую степень реалистичности, способен привести к созданию принципиально новых видов иммерсивных цифровых опытов и открыть эру, в которой трёхмерный контент станет доступнее и проще в производстве, чем когда-либо прежде.

Представленная работа, MajutsuCity, демонстрирует стремление к автоматизации создания сложных 3D-сцен на основе текстовых описаний. Однако, как показывает опыт, любая попытка создать универсальный генератор, способный учесть все нюансы эстетики и функциональности, обречена на компромиссы. Геффри Хинтон однажды заметил: «Признание того, что мы не понимаем, — это первый шаг к пониманию». В данном контексте, стремление к «контролируемой генерации» — это лишь попытка ограничить хаос, неизбежно возникающий при взаимодействии алгоритмов и творческих задач. Рано или поздно, даже самые изящные архитектуры генеративных моделей превратятся в набор костылей, поддерживающих иллюзию разумного дизайна.

Что дальше?

Представленный фреймворк, безусловно, добавляет ещё один слой сложности в и без того перегруженную область процедурной генерации. Управление параметрами через естественный язык — заманчиво, но не стоит забывать, что «естественный» язык полон двусмысленностей, а парсинг этих самых двусмысленностей неизбежно приведёт к новым, неожиданным багам. Все эти «адаптивные» города, вероятно, будут выглядеть одинаково уныло, как только кто-нибудь попытается сгенерировать что-то сложнее «уютной европейской улочки».

Новые метрики оценки, основанные на VLMs, — это, конечно, прогресс. Однако, VLM видит лишь картинку. А что насчёт логики городской планировки? Что если город функционально непригоден, но визуально приятен? Будет ли это учтено? Скорее всего, нет. В конечном итоге, всё сведётся к очередному соревнованию, кто лучше обманет нейросеть, заставив её поверить, что хаотичное нагромождение зданий — это «гармоничный городской пейзаж».

Вполне вероятно, что через несколько лет появятся инструменты, позволяющие генерировать города, неотличимые от реальных. Но не стоит обольщаться. Всё новое — это просто старое с худшей документацией. И когда-нибудь кто-нибудь обязательно придумает, как сломать и эту «революционную» систему. Ведь это неизбежно.


Оригинал статьи: https://arxiv.org/pdf/2511.20415.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-27 04:56