Распознавание кожных заболеваний: новый взгляд на искусственный интеллект

Автор: Денис Аветисян


Исследователи разрабатывают системы на основе глубокого обучения для точной диагностики кожных заболеваний по изображениям, решая проблему дисбаланса данных.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
На рисунке продемонстрированы примеры масок поражений, созданных с использованием SAM, что свидетельствует о возможности точного выделения аномальных областей на изображениях.
На рисунке продемонстрированы примеры масок поражений, созданных с использованием SAM, что свидетельствует о возможности точного выделения аномальных областей на изображениях.

В работе представлен Swin Transformer, оптимизированный с помощью методов BatchFormer и Focal Loss, для повышения точности классификации кожных новообразований.

Несмотря на растущую распространенность дерматологических заболеваний, своевременная и точная диагностика часто затруднена из-за ограниченной доступности квалифицированных специалистов. В данной работе, посвященной ‘Towards Automated Differential Diagnosis of Skin Diseases Using Deep Learning and Imbalance-Aware Strategies’, предложена модель глубокого обучения на основе архитектуры Swin Transformer для классификации кожных новообразований. Достигнута высокая точность прогнозирования — 87.71% на наборе данных ISIC2019 — благодаря применению методов аугментации данных и стратегий, учитывающих дисбаланс классов. Может ли подобный подход стать надежным инструментом поддержки принятия решений для врачей и повысить доступность первичной диагностики кожных заболеваний?


Диагностические вызовы: от субъективности к точности

Точная диагностика кожных новообразований имеет первостепенное значение, однако её затрудняет часто незначительная визуальная разница между различными типами поражений, а также субъективность оценки врачом. Даже опытные дерматологи могут испытывать сложности в дифференциальной диагностике, особенно на ранних стадиях, когда изменения могут быть минимальными и неспецифическими. Эта межэкспертная вариативность, обусловленная индивидуальным опытом и интерпретацией изображений, подчеркивает необходимость разработки объективных и надежных методов диагностики, способных минимизировать человеческий фактор и повысить точность выявления злокачественных новообразований на ранних стадиях.

Публично доступный набор данных ISIC-2019 представляет собой ценный инструмент для разработки и оценки автоматизированных систем диагностики кожных новообразований. Этот обширный ресурс содержит тысячи клинических изображений различных типов кожных поражений, сопровождаемых экспертными заключениями дерматологов. Благодаря своей структуре и объему, ISIC-2019 позволяет исследователям создавать и тестировать алгоритмы машинного обучения, предназначенные для автоматической классификации новообразований, что способствует повышению точности и скорости диагностики. Доступность этого набора данных стимулирует научные исследования в области дерматологии и искусственного интеллекта, способствуя разработке инновационных решений для раннего выявления и лечения кожных заболеваний. Он служит эталоном для сравнения эффективности различных подходов к автоматизированной диагностике и позволяет оценивать их потенциал для клинического применения.

В рамках общедоступного набора данных ISIC-2019, предназначенного для разработки систем автоматической диагностики кожных новообразований, наблюдается существенный дисбаланс классов. Это означает, что некоторые типы поражений представлены в наборе данных значительно реже, чем другие. Такое неравномерное распределение может приводить к смещению в работе алгоритмов машинного обучения, поскольку модели склонны демонстрировать более высокую точность при диагностике распространенных типов, игнорируя или неправильно классифицируя редкие. В результате, даже при высокой общей точности, система может выдавать значительное количество ложноотрицательных результатов для менее представленных классов, что критически важно при диагностике онкологических заболеваний кожи. Преодоление проблемы дисбаланса классов требует применения специальных методов, таких как взвешивание классов, генерация синтетических данных или использование метрик оценки, устойчивых к неравномерному распределению.

Распределение классов в наборе данных ISIC2019 показывает относительное количество изображений, принадлежащих к различным категориям кожных заболеваний.
Распределение классов в наборе данных ISIC2019 показывает относительное количество изображений, принадлежащих к различным категориям кожных заболеваний.

Усиление представлений: искусство расширения данных

Для преодоления ограниченного разнообразия набора данных ISIC-2019 используются методы увеличения данных (Data Augmentation), направленные на искусственное расширение обучающей выборки. Недостаточное количество изображений с различными характеристиками дерматоскопических образований может приводить к переобучению моделей и снижению их способности к обобщению. Data Augmentation позволяет создавать модифицированные версии существующих изображений, вводя вариации в параметры, такие как яркость, контрастность, поворот и масштаб, что позволяет модели обучаться на более разнообразном наборе данных и повышает ее устойчивость к вариациям в реальных клинических изображениях.

Методы эластичной деформации и преобразования Фурье применяются для искусственного увеличения разнообразия обучающей выборки путем внесения реалистичных изменений во внешний вид поражений кожи. Эластичная деформация искажает изображения, имитируя небольшие изменения формы и положения, которые могут возникнуть при получении изображений или биологической вариабельности. Преобразование Фурье, в свою очередь, модифицирует частотный спектр изображения, позволяя создавать вариации, связанные с текстурой и контрастностью. Применение данных методов способствует улучшению обобщающей способности модели, делая её более устойчивой к изменениям во внешнем виде поражений, встречающимся в реальных клинических данных.

Технология AutoAugment представляет собой автоматизированный подход к поиску оптимальных стратегий аугментации данных, направленный на повышение производительности моделей машинного обучения. Вместо ручного определения подходящих преобразований, AutoAugment использует алгоритм поиска, который оценивает различные комбинации аугментаций (например, поворот, масштабирование, изменение контрастности) на валидационном наборе данных. Этот процесс позволяет выявить наиболее эффективные комбинации аугментаций для конкретной задачи и набора данных, автоматически настраивая параметры и последовательность преобразований для достижения максимального прироста производительности. В отличие от фиксированных стратегий аугментации, AutoAugment адаптируется к особенностям данных, что приводит к более эффективному использованию данных и улучшению обобщающей способности модели.

Swin Transformer: новый горизонт точности в ISIC-2019

Архитектура Swin Transformer, являющаяся иерархическим vision transformer, продемонстрировала превосходящие результаты на наборе данных ISIC-2019 в сравнении с традиционными сверточными нейронными сетями, такими как EfficientNet и DenseNet. В ходе экспериментов Swin Transformer достиг общей точности 87.71% на ISIC-2019, что значительно выше, чем у EfficientNet (80.94%). Преимущество Swin Transformer также подтверждается более высокой точностью на 2.3% по сравнению с DenseNet, использующим AutoAugment. Данные результаты указывают на эффективность иерархического подхода Swin Transformer в задачах анализа изображений кожи.

В ходе оценки на наборе данных ISIC-2019, архитектура Swin Transformer продемонстрировала общую точность в 87.71%. Данный показатель был получен в результате тестирования модели на полном наборе данных, включающем изображения различных типов кожных новообразований. Точность вычислялась как доля правильно классифицированных изображений относительно общего числа изображений в тестовой выборке, что позволяет оценить способность модели к обобщению и корректной идентификации различных дерматологических состояний.

В ходе тестирования на наборе данных ISIC-2019, Swin Transformer продемонстрировал значительное улучшение в точности по сравнению с архитектурой EfficientNet. Если EfficientNet достиг показателя в 80.94%, то Swin Transformer превзошел этот результат, что указывает на более эффективное извлечение признаков и классификацию изображений. Данное различие в производительности свидетельствует о преимуществах иерархической структуры и механизма self-attention, реализованных в Swin Transformer, над традиционными сверточными подходами, используемыми в EfficientNet, при решении задачи классификации дерматоскопических изображений.

В ходе оценки производительности модели Swin Transformer на наборе данных ISIC-2019 было установлено, что она превосходит архитектуру DenseNet с применением AutoAugment на 2.3% по показателю точности. Это означает, что Swin Transformer продемонстрировал более высокую способность к корректной классификации изображений в рамках данного набора данных по сравнению с DenseNet, использующей AutoAugment для улучшения обобщающей способности.

Для дальнейшей оптимизации производительности, особенно в отношении миноритарных классов, Swin Transformer дополняется модулем BatchFormer. BatchFormer улучшает процесс обучения представлений, используя взаимосвязи между образцами в пакете данных. Этот подход позволяет модели извлекать более обобщенные и устойчивые признаки, что особенно полезно для классов с небольшим количеством примеров в обучающей выборке. Взаимодействие между образцами в пакете позволяет модели учитывать контекст и более эффективно различать сложные случаи, приводя к повышению точности классификации.

Для смягчения проблемы дисбаланса классов в модели Swin Transformer используется функция потерь Focal Loss. Focal Loss снижает вес легко классифицируемых примеров, тем самым уменьшая их влияние на общий градиент и фокусируя обучение на сложных, неправильно классифицированных экземплярах. Это достигается за счет добавления к стандартной функции потерь (1 - p_t)^\gamma , где p_t — предсказанная вероятность правильного класса, а γ — параметр, регулирующий степень снижения веса для легко классифицируемых примеров. Более высокое значение γ приводит к более сильному снижению веса и большему акценту на сложные примеры, что особенно полезно при значительном дисбалансе классов в обучающем наборе данных.

Предложенная модель использует архитектуру Swin-Transformer для эффективной обработки данных и достижения высокой производительности.
Предложенная модель использует архитектуру Swin-Transformer для эффективной обработки данных и достижения высокой производительности.

Тонкая настройка для надежной работы и устойчивых результатов

Для дальнейшего повышения эффективности архитектуры Swin Transformer применялся динамический планировщик скорости обучения ReduceLROnPlateau. Этот механизм автоматически корректирует скорость обучения в процессе тренировки, основываясь на результатах валидации. В случае, если метрики качества на валидационном наборе данных перестают улучшаться, ReduceLROnPlateau снижает скорость обучения, что позволяет модели более тонко настроить свои параметры и избежать переобучения. Такой подход способствует более эффективной сходимости и, как следствие, повышает общую точность и надежность модели при анализе медицинских изображений и диагностике заболеваний.

Для повышения способности модели к обобщению и, как следствие, к повышению точности диагностики, применяются передовые методы увеличения данных и оптимизированные функции потерь. Использование разнообразных техник аугментации, таких как случайные повороты, масштабирование и изменение контрастности, позволяет модели «увидеть» больше вариаций входных данных, что делает её менее чувствительной к незначительным изменениям в изображениях. В сочетании с тщательно подобранными функциями потерь, которые акцентируют внимание на наиболее важных признаках и минимизируют ошибки, это обеспечивает надежную работу модели даже на ранее не встречавшихся данных, существенно повышая её клиническую ценность и точность постановки диагноза.

Интеграция модели Segment Anything Model (SAM) позволяет значительно уточнить границы выявленных поражений, что критически важно для повышения точности анализа медицинских изображений. SAM, обученная на обширном наборе данных, способна эффективно сегментировать объекты на изображениях, даже при наличии шумов или нечетких границ. Это особенно ценно при анализе сложных случаев, где ручное определение границ поражений требует значительных усилий и может быть подвержено субъективным ошибкам. Уточнение границ, обеспечиваемое SAM, не только повышает надежность количественной оценки размеров и формы поражений, но и способствует более уверенной диагностике, предоставляя врачам дополнительную информацию для принятия обоснованных клинических решений.

В блоке Swin-Transformer механизм внимания W-MSA преобразуется в SW-MSA для эффективной обработки входных данных.
В блоке Swin-Transformer механизм внимания W-MSA преобразуется в SW-MSA для эффективной обработки входных данных.

Исследование демонстрирует, что применение глубоких нейронных сетей, в частности, архитектуры Swin Transformer, открывает новые горизонты в автоматизированной диагностике дерматологических заболеваний. Авторы подчеркивают важность не только точности модели, но и её способности эффективно справляться с проблемой дисбаланса классов в обучающей выборке. Как заметил Эндрю Ын: «Иногда лучшее решение — это не самая сложная модель, а самая простая, которая решает задачу». Этот принцип находит отражение в стремлении исследователей к созданию элегантного и эффективного решения, способного обеспечить высокую точность диагностики даже при наличии ограниченных данных по редким заболеваниям кожи. Оптимизация процесса обучения с помощью BatchFormer и Focal Loss подчеркивает стремление к гармоничному сочетанию формы и функции в машинном обучении.

Куда же дальше?

Представленная работа, безусловно, демонстрирует потенциал архитектуры Swin Transformer в решении задачи автоматической дифференциальной диагностики кожных заболеваний. Однако, элегантность решения не должна заслонять сложность самой проблемы. Успехи, достигнутые за счет методов борьбы с дисбалансом классов — Focal Loss, BatchFormer, и прочие — лишь смягчают симптомы, а не устраняют корень зла. Исходные данные, как известно, всегда несовершенны, и любое искусственное увеличение их объема, даже самое изощренное, не заменит качественного, тщательно собранного материала.

Настоящим вызовом представляется не столько достижение формально высокой точности, сколько создание системы, способной адекватно оценивать собственную неопределенность. Модель, которая «не знает», что «не знает», опасна, независимо от ее эффективности на тестовом наборе данных. Следующим шагом видится интеграция методов байесовского вывода и нечеткой логики, позволяющих модели не только классифицировать, но и обосновывать свои решения, предоставляя врачу информацию о степени уверенности в диагнозе.

И, наконец, стоит признать, что задача диагностики — это не только распознавание образов, но и понимание контекста. В конечном счете, настоящая революция в этой области произойдет лишь тогда, когда модель сможет учитывать анамнез пациента, его образ жизни и другие факторы, которые невозможно зафиксировать в изображении. А до тех пор, пусть даже самый изящный алгоритм останется лишь инструментом в руках опытного специалиста.


Оригинал статьи: https://arxiv.org/pdf/2601.00286.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-05 20:03