Бреп-Кодер: Искусственный интеллект, понимающий геометрию

Автор: Денис Аветисян


Новая модель искусственного интеллекта объединяет визуальную и текстовую информацию для решения сложных задач в области компьютерного проектирования.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Рассматривается сравнение подходов к обучению CAD-систем: традиционные архитектуры, адаптирующиеся к конкретным задачам, противопоставляются унифицированной платформе BrepCoder, использующей двухэтапную стратегию обучения для повышения эффективности и универсальности.
Рассматривается сравнение подходов к обучению CAD-систем: традиционные архитектуры, адаптирующиеся к конкретным задачам, противопоставляются унифицированной платформе BrepCoder, использующей двухэтапную стратегию обучения для повышения эффективности и универсальности.

Представлен BrepCoder, унифицированная мультимодальная большая языковая модель для многозадачного геометрического анализа и генерации кода.

Несмотря на значительные успехи в области глубокого обучения для автоматизированного проектирования (CAD), большинство существующих подходов требуют адаптации моделей для каждой новой задачи и ориентированы преимущественно на облака точек или изображения, игнорируя стандартный формат Boundary Representation (B-rep). В данной работе представлена система ‘BrepCoder: A Unified Multimodal Large Language Model for Multi-task B-rep Reasoning’, использующая унифицированную мультимодальную большую языковую модель (MLLM) для выполнения разнообразных CAD-задач непосредственно на основе B-rep данных. Преобразуя последовательности моделирования CAD в псевдокод и выравнивая их с B-rep, а также применяя двухэтапную стратегию обучения, включающую предварительное обучение на задачах обратной инженерии, BrepCoder демонстрирует превосходную обобщающую способность и эффективность. Сможет ли данный подход стать основой для создания универсального CAD-агента, способного решать широкий спектр задач автоматизированного проектирования?


Бессмысленная геометрия: Почему САПР не понимают, что они рисуют

Традиционные системы автоматизированного проектирования (САПР) исторически опираются на представление геометрии посредством облаков точек и поверхностных моделей. Однако, подобный подход страдает от фундаментального недостатка — отсутствия в самой структуре данных информации о смысле спроектированного объекта. Вместо того, чтобы понимать, что перед ними, например, отверстие, предназначенное для крепления, или поверхность, формирующая аэродинамический профиль, системы оперируют лишь набором координат и геометрических примитивов. Это существенно ограничивает возможности автоматизации процессов, затрудняет обратную разработку и внесение изменений в конструкцию, поскольку любое действие требует ручного анализа и интерпретации геометрии. Отсутствие семантического понимания вынуждает разработчиков полагаться на визуальное представление, а не на машиночитаемое описание, что снижает эффективность и повышает вероятность ошибок.

Ограниченность автоматизации и возникающие трудности при обратной разработке и модификации проектов напрямую связаны с тем, что существующие системы автоматизированного проектирования (САПР) оперируют преимущественно геометрическими данными, лишенными смысловой нагрузки. Отсутствие понимания конструктивных особенностей и функционального назначения элементов усложняет процессы анализа, внесения изменений и повторного использования компонентов. Например, попытка автоматической модификации детали, основанная лишь на форме, может привести к нарушению ее работоспособности, если не учитывать, какую роль она играет в общей конструкции. Это требует значительных ручных усилий и экспертных знаний, снижая эффективность инженерных процессов и увеличивая стоимость разработки.

Существующие методы представления данных CAD часто сталкиваются с трудностями при извлечении скрытого замысла проектировщика из сложных геометрических моделей. Вместо понимания функционального назначения деталей и связей между ними, системы оперируют лишь поверхностными характеристиками геометрии. Это приводит к тому, что модификация или реинжиниринг проекта становится трудоемким процессом, требующим значительного ручного вмешательства. Например, изменение одного параметра, влияющего на функциональность всей конструкции, может потребовать пересмотра всей модели, поскольку система не способна автоматически определить взаимосвязи и последствия такого изменения. Неспособность уловить намерения проектировщика ограничивает возможности автоматизации, усложняет процесс обратной разработки и препятствует созданию интеллектуальных систем CAD, способных к самообучению и оптимизации.

Глубокое представление CAD кодирует геометрию целочисленными токенами, в то время как альтернативный формат представляет собой CAD-код, подобный Python, который явно отражает логику проектирования.
Глубокое представление CAD кодирует геометрию целочисленными токенами, в то время как альтернативный формат представляет собой CAD-код, подобный Python, который явно отражает логику проектирования.

BrepCoder: Когда геометрия начинает говорить

BrepCoder использует представление граничных элементов (B-rep) в качестве основной модальности ввода, что обеспечивает более структурированное и семантически насыщенное представление CAD-моделей. В отличие от традиционных подходов, основанных на сетках или вокселях, B-rep описывает геометрию объекта через его границы — поверхности, ребра и вершины. Это позволяет моделировать объекты точнее и сохранять информацию о топологических связях между элементами, что критически важно для задач анализа, редактирования и генерации CAD-проектов. Использование B-rep обеспечивает более явное представление геометрических примитивов и их взаимосвязей, что способствует более эффективному пониманию CAD-модели алгоритмами машинного обучения.

В основе подхода BrepCoder лежит комбинирование данных о границе объекта (B-rep) с соответствующим кодом CAD-модели. Это позволяет использовать возможности больших языковых моделей (LLM) в области программирования для более глубокого понимания и манипулирования геометрическими данными. В отличие от традиционных подходов, работающих с растровыми изображениями или облаками точек, предоставление LLM структурированных данных B-rep в сочетании с логикой, заложенной в CAD-коде, значительно повышает точность и эффективность решения задач, требующих геометрического и логического вывода. Такой симбиоз позволяет модели не только распознавать формы, но и понимать их конструктивные особенности и взаимосвязи, что критически важно для сложных CAD-операций.

Обучение BrepCoder осуществляется в два этапа. На первом этапе модель тренируется на задачах обратной инженерии, что позволяет ей изучить связь между геометрией B-rep и соответствующим CAD-кодом. Затем, на втором этапе, полученные знания применяются к задачам, ориентированным на непосредственное использование CAD-моделей, таким как редактирование или анализ. Такой двухэтапный подход позволяет добиться более высокой устойчивости и обобщающей способности модели, поскольку предварительное изучение принципов построения CAD-моделей значительно упрощает решение прикладных задач.

BrepCoder использует двухэтапную стратегию обучения, где первый этап устанавливает соответствие между геометрическими признаками и кодом посредством обратной разработки, а второй этап дообучает модель для решения различных задач, объединяя замороженный B-rep энкодер с LLM через проектор.
BrepCoder использует двухэтапную стратегию обучения, где первый этап устанавливает соответствие между геометрическими признаками и кодом посредством обратной разработки, а второй этап дообучает модель для решения различных задач, объединяя замороженный B-rep энкодер с LLM через проектор.

Мультимодальные LLM: Как заставить машину думать как инженер

BrepCoder использует возможности мультимодальных больших языковых моделей (LLM) посредством интеграции с фреймворком CoCa. CoCa расширяет возможности контрастного обучения, изначально реализованные в CLIP, позволяя модели устанавливать соответствия между данными B-rep (Boundary Representation) и соответствующим CAD-кодом, а также семантическими описаниями. Это достигается за счет обучения модели совместному представлению различных модальностей данных, что повышает эффективность понимания и обработки геометрической информации и ее связи с программным кодом.

Интеграция с мультимодальными большими языковыми моделями позволяет эффективно сопоставлять данные B-Rep (Boundary Representation) с соответствующим CAD-кодом и семантическими описаниями. Это достигается за счет обучения модели устанавливать корреляции между геометрическими представлениями объектов, их программным кодом, описывающим процесс построения, и текстовыми описаниями, определяющими функциональное назначение и характеристики. Такое сопоставление необходимо для решения задач, требующих понимания не только геометрии, но и логики создания и назначения CAD-моделей, что открывает возможности для автоматизации процессов обратной разработки, анализа и модификации CAD-данных.

Обучение и оценка модели проводились на наборах данных DeepCAD и SGP-Bench, что позволило продемонстрировать ее возможности в решении задач CAD-QA и других сложных задачах. В частности, при выполнении задачи обратного проектирования модель достигла значения метрики Chamfer Distance, равного 0.499×10-3. Данный показатель свидетельствует о высокой точности восстановления геометрии на основе входных данных и подтверждает эффективность предложенного подхода к решению задач, связанных с CAD-моделированием и анализом.

BrepCoder демонстрирует успешное выполнение различных задач в области CAD, включая обратное проектирование, завершение моделей, исправление ошибок и проверку качества.
BrepCoder демонстрирует успешное выполнение различных задач в области CAD, включая обратное проектирование, завершение моделей, исправление ошибок и проверку качества.

Проверка на прочность: Как мы убедились, что машина действительно понимает

Для оценки геометрической точности и структурной целостности BrepCoder используются метрики, такие как расстояние Чамфера (Chamfer Distance) и доля недействительных элементов (Invalid Ratio). Расстояние Чамфера измеряет среднее расстояние между точками на сгенерированной модели и соответствующей целевой модели, обеспечивая количественную оценку геометрического соответствия. Доля недействительных элементов определяет процент неверно сформированных или недействительных элементов в сгенерированной Brep-модели, что указывает на ее структурную целостность и пригодность для дальнейшей обработки. Эти метрики позволяют объективно оценить качество генерируемых CAD-моделей и сравнить производительность BrepCoder с другими существующими подходами.

Для оценки геометрической точности генерируемых CAD-моделей используется метрика Chamfer Distance. В рамках данной работы, фреймворк BrepCoder достиг значения Chamfer Distance в 0.499 \times 10^{-3}. Этот результат демонстрирует улучшение на 48.7% по сравнению с показателем, достигнутым моделью CADCL, что свидетельствует о значительно более высокой точности воссоздания геометрии.

По результатам тестирования, BrepCoder демонстрирует высокую точность выполнения команд и параметров, достигая 92.69% и 87.94% соответственно, что превосходит показатели CAD-Llama. Точность ответов на вопросы по CAD-моделям (CAD-QA) составляет 79%, что позволяет оставаться на конкурентном уровне с PointLLM (81%). Данные результаты подтверждают способность модели к корректной интерпретации инструкций и точной генерации CAD-данных.

Разработанный фреймворк не ограничивается выполнением базовых задач, демонстрируя возможности в области коррекции ошибок и завершения неполных CAD-проектов. Это позволяет автоматизировать исправление дефектов в геометрии и структуре моделей, а также восстанавливать утраченные или отсутствующие элементы дизайна. Данная функциональность значительно расширяет применимость фреймворка, позволяя использовать его для автоматизации процессов, связанных с обработкой и восстановлением некачественных или неполных CAD-данных, что особенно актуально в задачах реинжиниринга и модернизации существующих проектов.

Сравнение методов обратной инженерии на наборе данных DeepCAD демонстрирует, что предложенный подход обеспечивает наилучшие результаты по метрике расстояния Чемфера <span class="katex-eq" data-katex-display="false">10^{-3}</span>, превосходя существующие аналоги.
Сравнение методов обратной инженерии на наборе данных DeepCAD демонстрирует, что предложенный подход обеспечивает наилучшие результаты по метрике расстояния Чемфера 10^{-3}, превосходя существующие аналоги.

Будущее за интеллектуальными САПР: Когда машина возьмет на себя рутину

Система BrepCoder закладывает основу для создания интеллектуальных CAD-систем, способных к автономному пониманию, модификации и генерации сложных конструкторских моделей. В отличие от традиционных инструментов, требующих детального ручного вмешательства, данная разработка стремится к автоматизации процесса проектирования на всех этапах — от интерпретации существующих моделей до создания совершенно новых. Основываясь на передовых алгоритмах кодирования и декодирования граничных представлений (Brep), система способна не только распознавать геометрические особенности, но и логически осмысливать их, что позволяет вносить изменения в конструкцию или генерировать новые проекты, соответствующие заданным параметрам и ограничениям. Это открывает перспективы для создания самообучающихся CAD-систем, способных оптимизировать конструкции, находить инновационные решения и значительно ускорить процесс разработки продуктов.

Возможности BrepCoder значительно расширяют функциональность существующих систем обратного проектирования, таких как CAD-Recode, CAD-SIGNet и TransCAD, открывая новые горизонты в автоматизации проектирования. Интеграция с этими платформами позволяет не просто воссоздавать существующие объекты, но и автоматизировать процесс их модификации и оптимизации, основываясь на заданных параметрах и ограничениях. Это приводит к сокращению времени, необходимого для внесения изменений в конструкцию, и уменьшению вероятности ошибок, связанных с ручным редактированием. В перспективе, подобный подход может полностью автоматизировать процессы реинжиниринга и создания новых продуктов, значительно ускоряя инновации в различных отраслях промышленности.

Данная разработка сулит значительное ускорение процесса проектирования, снижение количества ошибок и открытие новых горизонтов инноваций в производстве и инженерии. Благодаря автоматизации рутинных задач и возможности быстрого внесения изменений в сложные модели, инженеры смогут сосредоточиться на творческих аспектах своей работы и оптимизации проектов. Уменьшение вероятности ошибок, возникающих при ручном моделировании, не только повысит качество конечного продукта, но и снизит производственные издержки. В перспективе, эта технология может привести к созданию принципиально новых конструкций и материалов, расширяя границы возможного в различных отраслях промышленности, от автомобилестроения до аэрокосмической отрасли.

Эта работа над BrepCoder, с её упором на B-rep данные и двухэтапное обучение, закономерно вписывается в череду «революций», которые, в конечном итоге, лишь усложняют существующие процессы. Авторы предлагают элегантное решение для задач CAD, но, вероятно, уже сейчас где-нибудь в глубинах продакшена кто-то находит способ сломать эту новую «унифицированную» модель. Как говорил Бертран Рассел: «Страх — это главное препятствие для прогресса, и чаще всего он является результатом невежества». Здесь, конечно, не страх, а скорее наивная вера в то, что «новая» библиотека решит все проблемы, хотя история показывает, что всё новое — это просто старое с худшей документацией. И BrepCoder, как и все остальные, рано или поздно станет частью этого бесконечного техдолга.

Что дальше?

Представленная работа, безусловно, демонстрирует способность объединить данные B-представления с мощью больших языковых моделей. Однако, если взглянуть трезво, то становится ясно: задача не решена, а лишь переформулирована. Теперь вместо проблем с геометрией возникнут проблемы с интерпретацией «естественного языка» CAD-систем. Ошибки в модели будут исправляться не путём точного геометрического анализа, а путём «угадывания» намерений проектировщика. Если система стабильно выдаёт «почти правильные» решения, это, конечно, прогресс, но и признак того, что фундаментальные проблемы остаются нерешёнными.

В ближайшем будущем, вероятно, увидим ещё больше «cloud-native» решений для автоматизации CAD, то есть, по сути, те же самые алгоритмы, только с добавлением ещё одного слоя абстракции и ценника. Настоящий прорыв потребует отказа от идеи «общего интеллекта» в пользу узкоспециализированных систем, способных решать конкретные задачи с высокой точностью и предсказуемостью. Иначе говоря, нужно перестать писать код — нужно просто оставлять комментарии будущим археологам, которые будут пытаться понять, почему система работала именно так, а не иначе.

Не стоит забывать и о банальной масштабируемости. Обработка сложных CAD-моделей требует огромных вычислительных ресурсов. В конечном итоге, производительность системы будет ограничена не архитектурой модели, а скоростью передачи данных и стоимостью электроэнергии. В этом смысле, всё возвращается к старым добрым алгоритмам, оптимизированным для конкретного оборудования. Каждая «революционная» технология завтра станет техдолгом.


Оригинал статьи: https://arxiv.org/pdf/2602.22284.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-02 02:21