Лица сквозь стили: новый подход к распознаванию

Автор: Денис Аветисян


Исследователи представили комплексный подход к идентификации лиц, устойчивый к творческим изменениям стиля изображения.

Разработана модель StyleID, обученная на синтетическом наборе данных StyleBench-S, созданном на основе статистики, откалиброванной человеком, что позволяет достичь устойчивого распознавания лиц при различных стилизациях и сохраняет соответствие человеческим оценкам, поддерживая задачи идентификации, стилизации и поиска.
Разработана модель StyleID, обученная на синтетическом наборе данных StyleBench-S, созданном на основе статистики, откалиброванной человеком, что позволяет достичь устойчивого распознавания лиц при различных стилизациях и сохраняет соответствие человеческим оценкам, поддерживая задачи идентификации, стилизации и поиска.

Представлен набор данных StyleID и метрика для оценки устойчивости алгоритмов распознавания лиц к различным стилизациям.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Несмотря на успехи в области стилизации изображений лиц, сохранение узнаваемости личности при существенном изменении визуального стиля остается сложной задачей. В данной работе, ‘StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition’, представлен новый подход к оценке и улучшению устойчивости систем распознавания лиц к стилизации, включающий в себя датасеты StyleBench-H и StyleBench-S. Ключевым результатом является создание метрики и набора данных, согласованных с человеческим восприятием, что позволяет обучать модели, более эффективно сохраняющие идентичность при различных стилях и интенсивности стилизации. Не приведет ли это к созданию более надежных и универсальных систем распознавания лиц, способных работать с широким спектром визуальных представлений?


Сохранение Личности в Стильизованных Портретах

Современные методы стилизации лиц зачастую приводят к искажению индивидуальных черт, делая результат практически неузнаваемым. Применение художественных фильтров и преобразований, направленное на придание изображению эстетической привлекательности, нередко сопровождается потерей ключевых идентификационных признаков. Исследования показывают, что даже незначительные изменения в структуре лица, такие как пропорции глаз, форма носа или линии рта, могут существенно повлиять на способность человека распознать личность на изображении. Этот феномен особенно заметен при использовании агрессивных стилизаций, имитирующих, например, живопись или карикатуру, где акцент смещается с реалистичного отображения черт лица на выразительность и художественную интерпретацию. В результате, несмотря на визуальную привлекательность, стилизованные портреты часто не позволяют достоверно идентифицировать изображенного человека, что представляет серьезную проблему для приложений, требующих сохранения личности, таких как системы безопасности или социальные сети.

Сохранение узнаваемости личности при применении художественных стилей представляет собой фундаментальную задачу в области генерации изображений. Проблема заключается в том, что при трансформации фотографии в произведение искусства, алгоритмы часто искажают ключевые черты лица, необходимые для идентификации человека. Достижение баланса между выразительным стилем и сохранением индивидуальных особенностей требует сложных вычислений и глубокого понимания того, как человеческий мозг воспринимает лица. Исследователи стремятся разработать методы, которые позволят создавать стилизованные изображения, остающиеся при этом безошибочно узнаваемыми, что открывает новые возможности в таких областях, как персонализированное искусство, виртуальная реальность и системы безопасности.

Оценка успешности сохранения идентичности при стилизации лиц оказывается тесно связана с субъективным восприятием человека. Не существует единого, объективного критерия, позволяющего точно измерить, насколько хорошо стилизованное изображение сохраняет узнаваемость личности. Восприятие лица — сложный процесс, зависящий от индивидуального опыта, культурных особенностей и даже текущего настроения наблюдателя. Поэтому, даже если алгоритм сохраняет большинство ключевых черт, человек может всё равно не узнать лицо, если стилизация исказила его целостный образ. Эта субъективность создает значительную трудность при разработке и оценке алгоритмов стилизации, поскольку необходимо учитывать не только технические параметры, но и восприятие человека, что требует проведения масштабных пользовательских исследований для определения оптимального баланса между художественным эффектом и узнаваемостью личности.

Существующие методы стилизации изображений лиц часто сталкиваются с трудностями при одновременном достижении выразительного художественного эффекта и сохранении узнаваемости личности. Исследования показывают, что при сильном изменении визуального стиля, алгоритмы нередко искажают ключевые черты лица, ответственные за его индивидуальность. Это происходит из-за того, что многие подходы сосредотачиваются исключительно на применении стиля, игнорируя или недостаточно учитывая необходимость сохранения важных характеристик, таких как форма глаз, носа и рта, а также их взаимное расположение. В результате, стилизованное изображение может быть эстетически привлекательным, но при этом не отражать исходную личность, что снижает практическую ценность подобных технологий в задачах, требующих идентификации или распознавания лиц.

В ходе пользовательского исследования участникам предлагалось выбрать из двух стилизованных изображений то, которое лучше сохраняет идентичность исходного изображения.
В ходе пользовательского исследования участникам предлагалось выбрать из двух стилизованных изображений то, которое лучше сохраняет идентичность исходного изображения.

StyleID: Кодировщик, Устойчивый к Стилистическим Изменениям

StyleID — это новый энкодер идентичности, разработанный для устойчивости к стилистическим вариациям входных данных. В отличие от существующих подходов, которые часто чувствительны к изменениям в освещении, позе или выражении лица, StyleID стремится формировать представления, инвариантные к этим факторам. Это достигается путем обучения модели на специально разработанном синтетическом датасете, который учитывает статистику человеческого восприятия и позволяет эффективно отделить идентичность от стиля. Целью разработки является создание надежной системы распознавания, способной точно идентифицировать объекты или личности, несмотря на разнообразие стилистических изменений в визуальных данных.

StyleID обучается на крупномасштабном синтетическом наборе данных StyleBench-S, созданном на основе статистики человеческого распознавания лиц. Данный набор данных генерируется с целью моделирования вариативности внешнего вида лиц, наблюдаемой в реальных условиях. В процессе создания учитываются статистические данные о том, как люди воспринимают и различают лица при изменении таких факторов, как освещение, поза, выражение лица и аксессуары. Это позволяет StyleID формировать устойчивые представления личности, не зависящие от стилистических изменений, и повышает его эффективность в задачах распознавания лиц в сложных условиях.

В основе кодировщика StyleID лежит предобученная модель CLIP, используемая для извлечения первичных признаков. Для повышения эффективности и снижения вычислительных затрат, CLIP подвергается тонкой настройке с использованием метода LoRA (Low-Rank Adaptation). LoRA позволяет оптимизировать лишь небольшое количество параметров модели, сохраняя при этом большую часть предобученных весов, что значительно сокращает время обучения и объем требуемой памяти без существенной потери производительности.

Для повышения различимости кодировок и обеспечения чётких границ между идентификаторами в StyleID используются функции потерь контраста и углового отступа. Функция потерь контраста минимизирует расстояние между эмбеддингами одного и того же субъекта и максимизирует расстояние между эмбеддингами разных субъектов. Функция потерь углового отступа L_{am} дополнительно увеличивает межклассовый разрыв, наказывая эмбеддинги, которые находятся слишком близко друг к другу в угловом пространстве. Комбинация этих двух функций потерь способствует формированию более дискриминативных и надежных представлений идентичности, что критически важно для устойчивости к стилистическим вариациям.

Для упрощения визуализации обучения StyleID, хотя угловой марж вычисляется относительно центров классов, а контрастивная потеря - по парам положительных и отрицательных примеров, отображение представлено на уровне отдельных образцов.
Для упрощения визуализации обучения StyleID, хотя угловой марж вычисляется относительно центров классов, а контрастивная потеря — по парам положительных и отрицательных примеров, отображение представлено на уровне отдельных образцов.

Количественная Оценка Сохранения Идентичности на Основе Человеческого Восприятия

StyleBench-H представляет собой эталонный набор данных, оцененный с помощью экспертных оценок людей, и предназначен для количественной оценки сохранения идентичности лиц при стилизации изображений. В отличие от автоматических метрик, которые могут не соответствовать человеческому восприятию, StyleBench-H использует субъективные оценки людей для определения, насколько хорошо стилизованное изображение сохраняет узнаваемость исходного лица. Этот подход позволяет более точно измерить эффективность различных методов стилизации в плане сохранения идентичности и предоставляет надежный критерий для сравнения различных алгоритмов. Набор данных содержит большое количество изображений лиц с различными стилизациями, что позволяет проводить статистически значимые оценки и выявлять закономерности между силой стилизации и способностью распознавания лиц.

Психометрические кривые строятся на основе анализа показателей узнаваемости лиц людьми при различных уровнях применения стилизации. Этот процесс включает в себя предъявление испытуемым стилизованных изображений лиц и фиксацию процента правильных идентификаций. Изменяя интенсивность стилизации и регистрируя соответствующие показатели узнаваемости, можно построить кривую, отражающую зависимость между степенью стилизации и способностью человека сохранять узнавание личности. Такие кривые позволяют количественно оценить, насколько сильно стилизация влияет на сохранение идентичности лица, и служат основой для оценки эффективности методов, направленных на ее сохранение.

Анализ психометрических кривых, полученных на основе данных StyleBench-H, демонстрирует значительное улучшение сохранения идентичности при использовании StyleID. В частности, StyleID достигает уровня истинно-положительной доли (TPR) более 0.9 при ложно-положительной доле 10-2. Это означает, что в 90% случаев система корректно идентифицирует личность, при этом вероятность ошибочной идентификации составляет всего 0.01, что свидетельствует о высокой точности и надежности метода в задачах распознавания лиц в стилизованных изображениях.

Использование набора данных StylizedFace дополнительно подтверждает способность StyleID распознавать личности на стилизованных изображениях, демонстрируя устойчивость алгоритма к изменениям стиля. Результаты показывают, что StyleID достигает передовых результатов на двух ключевых наборах данных: StyleBench-H и SKSF-A. Это подтверждает эффективность подхода в задачах сохранения идентичности при значительных стилистических преобразованиях и доказывает его превосходство над существующими методами в области распознавания лиц на стилизованных изображениях.

На StyleBench-S точность распознавания снижается с увеличением силы стилизации, что демонстрируется на примерах стилей Pixar и Instant-ID.
На StyleBench-S точность распознавания снижается с увеличением силы стилизации, что демонстрируется на примерах стилей Pixar и Instant-ID.

За Пределами Распознавания: К Контролируемому Переносу Стиля

Метод StyleID демонстрирует свою универсальность благодаря возможности интеграции в различные конвейеры переноса стиля, включая современные диффузионные модели и InstantID. Внедрение StyleID существенно повышает способность этих систем сохранять уникальные черты личности на перенесённых изображениях. В отличие от традиционных подходов, которые часто искажают или теряют идентичность объекта, StyleID обеспечивает более точное и надежное сохранение индивидуальных особенностей, что особенно важно для приложений, требующих высокой степени реалистичности и персонализации. Это достигается за счёт эффективного кодирования и внедрения информации об идентичности в процесс переноса стиля, позволяя создавать изображения, которые не только обладают желаемым художественным стилем, но и узнаваемо представляют конкретного человека или объект.

Методы, такие как IP-Adapter, демонстрируют значительное улучшение благодаря способности StyleID эффективно внедрять информацию об идентичности. В отличие от традиционных подходов, где сохранение индивидуальных черт лица часто требует сложных настроек и больших вычислительных затрат, StyleID позволяет более точно и целенаправленно передавать уникальные характеристики объекта. Это достигается за счет использования специализированного вектора стиля, который кодирует ключевые особенности лица и позволяет применить желаемый художественный стиль, не искажая при этом личность. Исследования показывают, что интеграция StyleID в архитектуру IP-Adapter повышает стабильность и реалистичность результатов, обеспечивая более качественное и узнаваемое воспроизведение лиц в стилизованных изображениях. Такой подход открывает новые возможности для создания персонализированного контента, где сохранение идентичности является приоритетом.

Принципы, заложенные в основу StyleID, успешно применяются в передовых подходах к высококачественной стилизации лиц, таких как InfiniteYou. Данная технология использует метод Flow Matching — подход, позволяющий создавать реалистичные и детализированные изображения, сохраняя при этом уникальные черты лица. В отличие от традиционных методов, которые могут приводить к искажениям или потере идентичности, интеграция StyleID обеспечивает точное сохранение индивидуальных особенностей, позволяя создавать персонализированные стилизованные портреты с высокой степенью реализма. Использование Flow Matching в сочетании с принципами StyleID значительно повышает качество и достоверность процесса стилизации, открывая новые возможности для создания уникального визуального контента.

Сочетание сохранения идентичности и художественного контроля открывает новые горизонты в создании персонализированных и выразительных изображений. Исследования показали, что пользователи с точностью 0.707 распознают лица на изображениях, подвергшихся стилизации с сохранением идентичности. Показатели согласия между оценками пользователей, такие как коэффициент Кэппа Коэна (0.392) и коэффициент корреляции Мэтьюса (0.402), подтверждают надёжность и воспроизводимость результатов. Данные свидетельствуют о том, что предложенный подход позволяет эффективно манипулировать визуальным стилем изображения, не теряя при этом узнаваемости лица, что имеет значительный потенциал для приложений в области цифрового искусства, развлечений и персонализированного контента.

Внедрение StyleID в JoJoGAN позволило успешно переносить целевой стиль без искажения цветовой гаммы и появления артефактов, в отличие от исходной реализации с ArcFace, которая приводила к нежелательным визуальным эффектам.
Внедрение StyleID в JoJoGAN позволило успешно переносить целевой стиль без искажения цветовой гаммы и появления артефактов, в отличие от исходной реализации с ArcFace, которая приводила к нежелательным визуальным эффектам.

Исследование, представленное в данной работе, стремится к созданию системы распознавания лиц, устойчивой к художественным стилизациям. Подобная задача требует отстранения от несущественных деталей, фокусировки на фундаментальной структуре образа. Как однажды заметил Джон фон Нейманн: «В науке не бывает абсолютной истины, лишь наилучшие приближения». Данное утверждение находит отражение в стремлении к созданию style-robust embeddings — представлений, улавливающих суть идентичности, несмотря на вариативность стилей. Ясность в определении этой сути — минимальная форма любви к точности и надежности системы.

Что дальше?

Представленная работа, хотя и демонстрирует значительный прогресс в области распознавания лиц при стилизации, лишь приоткрывает завесу над истинной сложностью восприятия. Утверждать, что StyleID и StyleBench решают проблему — значит впасть в самообман. Скорее, они представляют собой очередную ступень на пути к созданию систем, способных видеть лицо не как набор пикселей, а как сущность, устойчивую к прихотям художника. Основная сложность заключается не в создании «стилеустойчивых» эмбеддингов, а в понимании того, что само понятие «идентичность» — зыбко и контекстуально.

Будущие исследования должны сместить фокус с технических ухищрений на моделирование человеческого восприятия. Необходимо исследовать, как различные стили влияют на когнитивные процессы, участвующие в распознавании лиц, и как эти процессы можно формализовать. Простая метрика, измеряющая «сохранность идентичности», — это лишь бледная тень сложной нейронной сети, отвечающей за визуальное восприятие. Упор должен быть сделан на создание датасетов, отражающих разнообразие стилей и контекстов, а также на разработку метрик, учитывающих субъективность восприятия.

В конечном счете, задача заключается не в том, чтобы заставить машину видеть как человек, а в том, чтобы понять, как видит человек. И это понимание, вероятно, потребует от нас отказаться от иллюзии контроля и признать, что в мире визуального восприятия всегда будет место для неопределенности и интерпретации. Простота — вот высшая форма сложности.


Оригинал статьи: https://arxiv.org/pdf/2604.21689.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-24 19:56