Автор: Денис Аветисян
Исследователи представили масштабный мультимодальный датасет и модель, позволяющие значительно улучшить выявление дефектов в промышленности, используя возможности генеративного искусственного интеллекта.

Представлен датасет IMDD-1M и диффузионная мультимодальная модель для обнаружения, сегментации и генерации изображений дефектов с минимальными требованиями к объему данных.
Несмотря на значительный прогресс в области машинного зрения, эффективное понимание и обнаружение дефектов в промышленном производстве остается сложной задачей. В данной работе, озаглавленной ‘Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset’, представлен масштабный мультимодальный набор данных IMDD-1M, включающий миллион пар изображений и текстовых описаний дефектов, а также разработанная на его основе модель на базе диффузии. Данный подход демонстрирует конкурентоспособные результаты в задачах обнаружения, сегментации и генерации дефектов при значительно меньшем объеме необходимых данных по сравнению с традиционными методами. Открывает ли это путь к созданию масштабируемого, адаптивного и основанного на знаниях интеллекта для промышленного производства?
Трудности промышленной дефектоскопии: старые методы дают трещину
Традиционные методы выявления и классификации промышленных дефектов зачастую требуют значительных трудозатрат и времени, что негативно сказывается на производительности и себестоимости продукции. Ручной контроль, основанный на визуальном осмотре или простых измерениях, подвержен человеческому фактору, приводящему к непоследовательности и субъективности оценок. Неоднородность в интерпретации критериев дефектности разными сотрудниками ведет к увеличению числа ложных срабатываний или, напротив, к пропуску реальных дефектов, что увеличивает риск выпуска некачественной продукции и снижает доверие к системе контроля качества. В условиях растущей сложности производственных процессов и увеличения объемов выпускаемой продукции, зависимость от трудоемких и ненадежных методов становится серьезным препятствием для обеспечения стабильного качества и конкурентоспособности предприятия.
Современные производственные процессы становятся все более сложными и многогранными, что предъявляет повышенные требования к системам контроля качества. Традиционные методы обнаружения дефектов, основанные на ручном осмотре или простых алгоритмах, уже не способны эффективно справляться с разнообразием типов дефектов и меняющимися условиями производства. Автоматизированные решения, использующие передовые методы машинного обучения и компьютерного зрения, становятся необходимостью для обеспечения стабильного качества продукции и снижения издержек. Особенно актуально это в отраслях, где высокая точность и надежность являются критически важными, таких как автомобилестроение, авиастроение и микроэлектроника. Потребность в системах, способных адаптироваться к новым типам дефектов и сложным производственным сценариям, стимулирует развитие инновационных подходов в области автоматизированного контроля качества.
Существующие подходы к автоматизированному анализу промышленных дефектов, такие как YOLOv8, часто демонстрируют ограниченные возможности в тонкой характеризации дефектов. Это приводит к возникновению ложноположительных срабатываний, когда безобидные особенности продукции ошибочно классифицируются как дефекты, и, напротив, к пропуску реальных дефектов, которые остаются незамеченными. Проблема усугубляется разнообразием форм, размеров и проявлений дефектов, а также сложностью их отличия от естественных вариаций в производственном процессе. В результате, полагаясь исключительно на подобные алгоритмы, предприятия рискуют отгружать бракованную продукцию или необоснованно отбраковывать годные изделия, что негативно сказывается на эффективности производства и репутации компании.

Диффузия как инструмент: генерируем правду из шума
В основе нашего подхода лежит диффузионная модель, представляющая собой генеративный фреймворк, используемый как для анализа дефектов, так и для их генерации. Данный тип модели демонстрирует высокую эффективность в захвате и воспроизведении сложных распределений данных, что критически важно для точного представления разнообразных сценариев дефектов. Принцип работы диффузионной модели заключается в постепенном добавлении шума к входным данным, а затем в обучении модели для обратного процесса — удаления шума и восстановления исходного изображения. Это позволяет модели генерировать реалистичные изображения дефектов, а также выявлять аномалии в существующих изображениях, основываясь на изученных распределениях данных.
Обучение модели проводилось на крупномасштабном наборе данных IMDD-1M, включающем один миллион изображений. Этот набор данных обеспечивает широкое покрытие различных сценариев дефектов, что позволяет модели эффективно изучать и воспроизводить сложные паттерны, характерные для дефектов различной природы и степени выраженности. Объем и разнообразие данных IMDD-1M критически важны для обеспечения высокой обобщающей способности модели и ее надежной работы в реальных условиях, где могут встречаться дефекты, не представленные в исходных обучающих данных.
Для управления процессом генерации дефектов используется текстовое условие (Text-Conditioning), позволяющее точно контролировать характеристики генерируемых дефектов. Это достигается путем подачи текстового описания желаемого дефекта в качестве входных данных для модели диффузии. Текст задает конкретные атрибуты, такие как тип дефекта, его местоположение, размер и интенсивность, что позволяет генерировать изображения с целевыми дефектами, соответствующими заданным параметрам. Использование текстового условия обеспечивает гибкость и точность в процессе генерации данных для обучения и оценки алгоритмов анализа дефектов.
Для расширения полезности обучающих данных и преодоления ограничений, связанных с отсутствием текстовых подписей к изображениям, в систему интегрирован неявный генератор подписей (Implicit Captioner). Данный модуль автоматически генерирует текстовые представления (embeddings) на основе анализа изображения, позволяя использовать изображения без явных текстовых описаний в процессе обучения модели. Это значительно увеличивает объем доступных данных для обучения и повышает устойчивость модели к различным сценариям дефектов, поскольку позволяет обучать модель на более разнообразном наборе данных, включая изображения, для которых ручная аннотация не была выполнена.

Точная сегментация: выявляем дефект в деталях
Для точной сегментации дефектов используется комбинация диффузионной модели и Mask2Former. Диффузионная модель генерирует высококачественные маски, а Mask2Former, являясь панаптической архитектурой сегментации, обеспечивает точное очерчивание границ дефектов, включая сложные и трудноразличимые паттерны. Такое сочетание позволяет выделить дефекты с высокой точностью и детализацией, что критически важно для последующего анализа и контроля качества.
Комбинация диффузионной модели и Mask2Former демонстрирует превосходство над традиционными методами обнаружения дефектов, особенно в случаях, когда дефекты характеризуются незначительными изменениями или сложной структурой. Традиционные алгоритмы, основанные на пороговых значениях или простых характеристиках изображения, часто не способны эффективно выделять подобные дефекты, приводя к ложноотрицательным результатам. В отличие от них, предложенный подход использует возможности сегментации Mask2Former для точного определения границ дефектов, а диффузионная модель обеспечивает повышенную чувствительность к слабым сигналам и сложным паттернам, что позволяет идентифицировать дефекты, которые остаются незамеченными при использовании стандартных методов.
Эффективность разработанной модели была тщательно оценена на стандартных наборах данных для обнаружения аномалий, включая MVTec AD и VisA. Результаты тестирования показали среднюю точность сегментации дефектов на уровне 96.7% по этим наборам данных. Данный показатель позволяет утверждать о высокой надежности и эффективности предложенного подхода в задачах автоматизированного контроля качества и выявления дефектов на промышленных объектах.
Для повышения обобщающей способности модели и предотвращения переобучения используются методы аугментации данных. В частности, применяются такие техники, как случайные повороты, масштабирование, сдвиги, изменения яркости и контрастности, а также добавление шума. Эти преобразования позволяют искусственно расширить обучающую выборку, представив модель на различных вариациях дефектов и обеспечив её устойчивость к незначительным изменениям в изображениях. Применение данных методов позволяет модели лучше обобщать полученные знания на новые, ранее не встречавшиеся данные, и тем самым повысить точность обнаружения дефектов в реальных условиях.

Кросс-доменная обобщаемость и будущее автоматизации контроля
Диффузионная модель демонстрирует выдающиеся способности к обобщению в различных областях, позволяя ей эффективно функционировать в ранее не изученных секторах производства. Это означает, что модель, обученная на данных из одной производственной отрасли, способна генерировать реалистичные образцы дефектов и для совершенно других отраслей, где данные могут значительно отличаться. Такая универсальность достигается благодаря способности модели улавливать фундаментальные принципы формирования дефектов, а не просто запоминать конкретные шаблоны, характерные для определенной отрасли. В результате, модель способна адаптироваться к новым условиям и генерировать правдоподобные дефекты даже в отсутствие большого количества обучающих данных для конкретного сектора, открывая перспективы для автоматизации контроля качества и повышения надежности продукции в широком спектре производственных процессов.
Для количественной оценки качества генерируемых изображений дефектов использовались метрики Inception Score (IS) и Fréchet Inception Distance (FID). Достигнутый показатель Inception Score составил 100.29, что свидетельствует о высокой реалистичности и разнообразии сгенерированных образцов. Значения Fréchet Inception Distance, варьировавшиеся от 5.5 до 13.6 на наборе данных Magnetic Tile Dataset, указывают на небольшое расстояние между распределениями реальных и сгенерированных изображений, подтверждая способность модели создавать правдоподобные дефекты, практически неотличимые от настоящих.
Возможность генерации реалистичных образцов дефектов открывает новые перспективы в области аугментации данных и создания синтетических датасетов. Данный подход позволяет существенно расширить объемы обучающих выборок, особенно в тех случаях, когда получение реальных данных о дефектах является сложным или дорогостоящим. Создаваемые синтетические данные, достоверно имитирующие различные типы дефектов, позволяют обучать модели машинного зрения с повышенной точностью и устойчивостью к новым, ранее не встречавшимся дефектам. Это особенно важно для контроля качества в производственных процессах, где своевременное обнаружение дефектов критически важно для обеспечения надежности и снижения издержек. Такой метод позволяет не только улучшить существующие системы контроля качества, но и создать новые, более эффективные и адаптивные решения.
Исследование демонстрирует высокую эффективность модели при ограниченном объеме обучающих данных. Несмотря на использование всего 200 примеров на класс, достигнуты впечатляющие результаты в задачах обнаружения дефектов: средняя точность обнаружения (mAP) на уровне 0.5 составляет 74.6%, а на уровне 0.75 — 58.9%. Кроме того, модель показывает отличную способность к различению дефектов и не дефектов, о чем свидетельствует значение P-AUC-ROC в 96.1%, а также высокую точность в задачах определения местоположения дефектов, подтвержденную значением AUC-PRO равным 90.2%. Эти показатели подчеркивают потенциал модели для применения в реальных производственных условиях, где сбор больших объемов размеченных данных часто является сложной задачей.
Исследование демонстрирует значительный потенциал для трансформации процессов контроля качества в различных отраслях промышленности. Разработанная модель позволяет создавать реалистичные изображения дефектов, что открывает возможности для существенного увеличения объемов обучающих данных без необходимости дорогостоящих и трудоемких процедур сбора реальных образцов. Это, в свою очередь, способствует снижению производственных издержек за счет минимизации брака и повышения эффективности обнаружения дефектов на ранних стадиях производства. В конечном итоге, внедрение данной технологии способно значительно повысить надежность выпускаемой продукции и укрепить конкурентоспособность предприятий, обеспечивая более стабильное и качественное производство.

Статья описывает создание датасета IMDD-1M и модель, способную обнаруживать дефекты на производстве с меньшим объёмом данных. Конечно, звучит как прорыв, но, как говорил Джеффри Хинтон: «Я думаю, что нам нужно прекратить думать о нейронных сетях как об обучении, а начать думать о них как о хранении». В сущности, они просто хранят и воспроизводят паттерны, найденные в данных. Данный датасет — лишь ещё один способ «скормить» машине больше примеров, чтобы она лучше распознавала «правильное» и «неправильное». И, вероятно, через пару лет кто-нибудь обнаружит, что модель отлично работает на одних типах дефектов, но безнадёжно терпит крах на других, требуя ещё больше данных и тонкой настройки. Всё как обычно.
Что дальше?
Представленный набор данных IMDD-1M, конечно, впечатляет масштабом. Но давайте будем честны: каждое новое «революционное» количество терабайт данных — это лишь отсрочка неизбежного. Рано или поздно, кто-нибудь обнаружит, что половина этих дефектов — артефакты сборочной линии, а не реальные проблемы. И тогда этот набор данных станет очередным слоем технического долга, который придётся выплачивать будущим поколениям инженеров.
Модели, основанные на диффузии, выглядят многообещающе, но не стоит забывать старую истину: сложная система всегда была простым bash-скриптом, который кто-то усложнил. Сейчас это назовут генеративным ИИ и получат инвестиции, но в конечном итоге потребуется кто-то, кто сможет объяснить, почему модель сгенерировала несуществующий дефект на несуществующем изделии. Документация, как обычно, промолчит.
Настоящий прогресс, вероятно, будет заключаться не в увеличении масштаба моделей или наборов данных, а в создании инструментов, которые позволят людям понимать, что происходит на самом деле. Возможно, пора начать с простого: хорошей визуализации и понятных метрик. Начинаю подозревать, что все эти сложные модели лишь повторяют модные слова, пытаясь скрыть отсутствие реального понимания.
Оригинал статьи: https://arxiv.org/pdf/2512.24160.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Переключение намагниченности в квантовых антиферромагнетиках: новые горизонты для терагерцовой спинтроники
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Виртуальная примерка без границ: EVTAR учится у образов
- Насколько важна полнота при оценке поиска?
2026-01-04 15:23