Автор: Денис Аветисян
Исследователи представили крупный датасет FIT и модель Fit-VTO, позволяющие реалистично симулировать посадку одежды на различных типах фигур.

Представлен новый датасет и метод, основанный на синтетических данных и кодировании измерений, для повышения точности виртуальной примерки одежды.
Несмотря на значительные успехи в области виртуальной примерки одежды, существующие методы зачастую игнорируют критически важный аспект — точность соответствия размера. В данной работе представлен ‘FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On’ — масштабный набор данных, включающий более 1.13 миллиона изображений примерок с точными измерениями тела и одежды, что позволяет решать задачу реалистичной симуляции посадки одежды на различные типы фигур. Разработанный набор данных, полученный с использованием масштабируемой синтетической стратегии, а также предложенная модель Fit-VTO, демонстрируют передовые результаты в задаче виртуальной примерки с учетом размера. Сможем ли мы, используя подобные данные, создать действительно персонализированный опыт онлайн-шопинга, учитывающий индивидуальные особенности каждого пользователя?
Вызов Реалистичной Виртуальной Моды
Традиционные методы виртуальной примерки одежды часто сталкиваются с трудностями в достоверном воспроизведении посадки и драпировки ткани, что приводит к нереалистичным результатам. Существующие подходы, как правило, не способны учесть сложность человеческой фигуры и тонкости характеристик ткани, таких как вес, жесткость и текстура. Вследствие этого, виртуальная одежда может выглядеть неестественно, плохо облегать тело или демонстрировать неправдоподобное поведение при движении. Это особенно заметно при моделировании одежды из различных материалов — от легкого шелка до плотной шерсти — где даже незначительные отклонения в симуляции могут существенно повлиять на визуальное восприятие и общее впечатление от виртуальной примерки. Подобные недостатки снижают доверие пользователей к виртуальным технологиям и препятствуют их широкому применению в индустрии моды и электронной коммерции.
Существующие методы виртуальной примерки одежды часто сталкиваются с проблемой недостаточной детализации при воспроизведении сложных контуров человеческого тела и характеристик ткани. Это связано с тем, что традиционные подходы упрощают геометрию тела, игнорируя индивидуальные особенности, такие как мускулатура, осанка и распределение жировой ткани. Кроме того, воссоздание реалистичной драпировки ткани требует учета множества факторов, включая ее вес, толщину, эластичность и взаимодействие с другими материалами. Неспособность адекватно передать эти нюансы приводит к тому, что виртуальная одежда выглядит неестественно и не соответствует реальным физическим свойствам, что негативно сказывается на достоверности визуализации и пользовательском опыте.
Для создания убедительной виртуальной моды требуется надежная система, объединяющая двухмерные изображения и трехмерное моделирование. Эта система должна эффективно переводить визуальную информацию с фотографий или эскизов в реалистичные трехмерные модели одежды, учитывая сложные детали, такие как текстура ткани, драпировка и взаимодействие с виртуальным телом. Разработка подобного фреймворка предполагает использование передовых алгоритмов компьютерного зрения, машинного обучения и физического моделирования, чтобы не просто воспроизвести внешний вид одежды, но и симулировать ее поведение в динамике, обеспечивая правдоподобную посадку и движение. Такой подход позволяет преодолеть ограничения традиционных методов, где одежда часто выглядит неестественно или не соответствует реальным физическим свойствам, что критически важно для улучшения пользовательского опыта и повышения доверия к виртуальной примерке.
Адекватная посадка виртуальной одежды имеет решающее значение для потребительского опыта и принятия решений о покупке. Исследования показывают, что нереалистичная визуализация, особенно в отношении соответствия размеров и драпировки ткани, значительно снижает доверие пользователей к виртуальным примерочным. Несоответствие между виртуальным образом и ожидаемой посадкой в реальности вызывает разочарование и может оттолкнуть потенциальных покупателей. Точность моделирования формы одежды, учитывающая индивидуальные особенности фигуры, является ключевым фактором, определяющим успешность виртуальных покупок. Игнорирование этой детали приводит к снижению конверсии и негативно влияет на восприятие бренда, поскольку потребитель не уверен в том, как приобретенная вещь будет выглядеть в действительности.

Конструктивные Блоки: 3D Генерация и Измерение Одежды
GarmentCode использует параметрический подход к генерации и симуляции 3D одежды, обеспечивая точное воспроизведение размеров и формы. Эта система основана на определении ключевых параметров, описывающих конструкцию одежды — длину рукава, ширину плеч, обхват груди и т.д. — которые затем используются для построения 3D модели. Параметрический характер фреймворка позволяет создавать широкий спектр одежды различных стилей и размеров, адаптируя параметры для каждого конкретного случая. Точность измерений, обеспечиваемая этой системой, является ключевым фактором для создания реалистичного виртуального примеривания, позволяя пользователям визуализировать, как одежда будет сидеть на их теле.
В основе построения трехмерных моделей одежды в GarmentCode лежит семантическая сегментация изображений. Этот процесс позволяет точно выделять и маскировать области, соответствующие элементам одежды и частям тела на входных изображениях. Точное определение границ и контуров этих областей является критически важным для последующей трехмерной реконструкции, поскольку позволяет системе корректно интерпретировать геометрию и форму одежды и тела, обеспечивая реалистичное представление и точные измерения.
Для повышения реалистичности визуализации 3D-одежды в GarmentCode используется технология Normal Mapping. Карты нормалей представляют собой текстуры, кодирующие информацию о направлении нормалей к поверхности объекта. Вместо моделирования геометрических деталей, таких как складки, швы или текстура ткани, карты нормалей позволяют имитировать их визуальное воздействие на освещение. Это достигается путем изменения направления света, отражающегося от поверхности, создавая иллюзию мелких деталей без увеличения сложности геометрии модели. В результате, визуализация одежды становится более детализированной и правдоподобной при минимальных затратах вычислительных ресурсов.
В основе функциональности GarmentCode лежит модуль кодирования измерений (Measurement Encoder), который преобразует полученные данные о размерах тела и одежды в формат, пригодный для использования в симуляции. Этот модуль осуществляет перевод численных значений, таких как обхват груди, длина рукава или ширина плеч, в векторные представления, понятные алгоритмам физического моделирования. Такое преобразование необходимо для обеспечения корректной посадки и реалистичной деформации 3D-модели одежды при виртуальной примерке, позволяя точно учитывать индивидуальные параметры пользователя и особенности кроя изделия. Использование стандартизированного формата данных, созданного Measurement Encoder, обеспечивает совместимость с различными инструментами симуляции и упрощает процесс интеграции в существующие производственные пайплайны.

Виртуальная Примерка с Учетом Посадки с Использованием Генеративных Моделей
Система Fit-VTO использует диффузионную модель для генерации реалистичных изображений виртуальной примерки одежды. В основе данной модели лежит генеративная архитектура Flux.1-dev, обеспечивающая создание высококачественных изображений. Диффузионный процесс позволяет синтезировать изображения, начиная со случайного шума и постепенно уточняя их до фотореалистичного представления одежды на модели. Этот подход обеспечивает более правдоподобные результаты по сравнению с традиционными методами наложения изображений, позволяя генерировать разнообразные и визуально убедительные варианты примерки.
Для эффективной адаптации предварительно обученной модели генерации изображений Flux.1-dev к задаче виртуальной примерки одежды с учетом посадки используется метод LoRA (Low-Rank Adaptation). LoRA позволяет оптимизировать модель, замораживая веса исходной сети и обучая лишь небольшое количество низкоранговых матриц. Такой подход значительно снижает вычислительные затраты и объем необходимых данных для обучения, сохраняя при этом качество генерируемых изображений и обеспечивая точное соответствие одежды фигуре пользователя. LoRA позволяет избежать переобучения и сохранить обобщающую способность модели Flux.1-dev, что критически важно для работы с разнообразными типами фигуры и стилями одежды.
Модель Fit-VTO использует выходные данные энкодера измерений (Measurement Encoder) для обеспечения точного соответствия сгенерированных изображений одежды различным типам фигур. В процессе генерации изображения, энкодер предоставляет информацию о параметрах тела, таких как обхват груди, талии и бедер. Эти данные интегрируются в процесс диффузии, направляя генерацию изображения таким образом, чтобы одежда реалистично сидела на виртуальной модели с соответствующими измерениями. Это позволяет создавать визуально правдоподобные примерки одежды для пользователей с разными телосложениями, значительно повышая реалистичность и полезность виртуальной примерки.
В отличие от традиционных методов виртуальной примерки, основанных на простом наложении изображения одежды на фотографию пользователя, Fit-VTO использует генеративные модели для создания реалистичных результатов. Этот подход позволяет учитывать сложные взаимодействия между одеждой и телом, включая деформацию ткани, затенение и реалистичную посадку. Вместо статического наложения, генеративные модели синтезируют новое изображение, которое выглядит как фотография пользователя, действительно носящего одежду, обеспечивая более убедительный и визуально достоверный опыт виртуальной примерки.
![Архитектура FiT-VTO, основанная на диффузионной модели Flux.1-dev и дообученная с помощью LoRA, генерирует изображение примерки <span class="katex-eq" data-katex-display="false">I_{try-on}</span> на основе изображения одежды в разложенном виде <span class="katex-eq" data-katex-display="false">I_{g}</span>, изображения человека <span class="katex-eq" data-katex-display="false">I_{p}</span> и измерений человека и одежды <span class="katex-eq" data-katex-display="false"></span>m=[m_{p},m_{g}]<span class="katex-eq" data-katex-display="false"></span>, используя закодированные латенты и диффузионный трансформер.](https://arxiv.org/html/2604.08526v1/x3.png)
Оценка модели производится на базе датасета FIT, крупномасштабного набора данных, включающего 1.13 миллиона обучающих примеров, специально разработанного для виртуальной примерки одежды с учетом посадки. Использование FIT обеспечивает надежность и обобщающую способность модели, позволяя ей эффективно работать с разнообразными типами одежды и фигурами, а также демонстрировать стабильные результаты на новых, ранее не встречавшихся данных.
Сравнение с эталонным набором данных VITON-HD демонстрирует превосходство предложенного подхода в задачах виртуальной примерки одежды. Достигнуты более высокие показатели size-aware IoU (Intersection over Union), что указывает на повышенную точность соответствия одежды фигуре. Size-aware IoU измеряет степень перекрытия между предсказанной областью одежды и реальной областью на изображении, с учетом масштаба и пропорций, что позволяет более объективно оценивать качество виртуальной примерки и соответствие одежды фигуре человека. Превосходство по данному показателю свидетельствует о более реалистичной и точной визуализации одежды на модели.
Модель демонстрирует значение ℒid (Masked L1 Distance) равное 1.61 при генерации парных изображений. Этот показатель существенно превосходит результаты, полученные на базовых моделях, значения которых составили 4.45, 2.29 и 3.91 соответственно. Полученное значение ℒid подтверждает высокую точность и эффективность предложенного подхода к задаче генерации изображений.

Будущее Иммерсивного Модного Опыта
Технология виртуальной примерки одежды обладает потенциалом для кардинального изменения ландшафта онлайн-ритейла моды, предлагая покупателям принципиально новый уровень персонализации и погружения. Вместо традиционного просмотра фотографий и чтения описаний, пользователи смогут виртуально "примерить" понравившиеся вещи, оценив, как они сидят на фигуре, и как сочетаются с другими элементами гардероба. Это создаёт эффект присутствия, приближая опыт онлайн-шопинга к посещению физического магазина, но с добавлением удобства и возможности экспериментировать с разными стилями, не выходя из дома. Такая интерактивность не только повышает вовлечённость покупателя, но и способствует более осознанному выбору, уменьшая вероятность разочарования и необходимости возврата товара.
Точность симуляции посадки одежды является ключевым фактором для снижения процента возвратов и повышения удовлетворенности покупателей. Исследования показывают, что значительная доля возвратов в онлайн-торговле одеждой обусловлена несоответствием размера или фасона ожиданиям клиента. Виртуальная примерка, основанная на точных данных о фигуре пользователя и реалистичной симуляции ткани, позволяет потребителям оценить, как одежда будет выглядеть на них, до совершения покупки. Это, в свою очередь, минимизирует вероятность разочарования и необходимости возврата товара, что приводит к экономии средств как для покупателя, так и для ритейлера, а также способствует более экологичному потреблению за счет сокращения логистических издержек и отходов.
В перспективе, интеграция моделей "Vision-Language" (VLMs) открывает принципиально новые возможности для виртуальной примерки одежды. Эти модели способны понимать текстовые описания желаемых вещей - например, "летнее платье в цветочек" или "строгий деловой костюм" - и, анализируя огромные базы данных изображений, предлагать пользователю наиболее подходящие варианты. Более того, VLM могут учитывать индивидуальные предпочтения в стиле и особенностях фигуры, генерируя реалистичные примерки, демонстрирующие, как та или иная вещь будет выглядеть конкретно на пользователе. Такой подход не только значительно упростит процесс онлайн-шопинга, но и позволит создавать персонализированные рекомендации, существенно повышая удовлетворенность клиентов и сокращая количество возвратов.
Представленная работа открывает перспективы для трансформации модной индустрии в сторону устойчивости и эффективности. Виртуальные технологии, позволяющие персонализировать опыт покупателей и точно симулировать примерку одежды, способны значительно снизить количество возвратов и, как следствие, уменьшить негативное воздействие на окружающую среду. Подобный подход, основанный на индивидуальных предпочтениях и виртуальном взаимодействии с продукцией, способствует более осознанному потреблению и оптимизации производственных процессов, формируя более экологичную и рациональную модель развития индустрии моды.

Исследование, представленное в данной работе, подчеркивает важность детерминированного подхода к моделированию. Создание датасета FIT и модели Fit-VTO демонстрирует стремление к воспроизводимости результатов в задаче виртуальной примерки одежды. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть полезен людям, а не наоборот». Эта фраза отражает суть работы, направленной на создание системы, точно имитирующей посадку одежды на различных типах фигур, что требует математической точности и предсказуемости алгоритмов. Акцент на кодировании измерений и использовании синтетических данных призван обеспечить надежность и достоверность результатов, что соответствует принципу: если результат нельзя воспроизвести, он недостоверен.
Что Дальше?
Представленный набор данных FIT, безусловно, является шагом вперёд, однако не стоит обманываться кажущейся простотой задачи виртуальной примерки. Точность симуляции посадки одежды - это не просто вопрос генерации реалистичных изображений. Если модель “работает” на тестовых данных, это лишь указывает на недостаточно тщательный выбор этих самых данных, а не на истинное понимание инвариантов, определяющих взаимодействие ткани и человеческого тела. Порой, кажется, что исследователи довольствуются “магией” чёрного ящика, вместо того, чтобы стремиться к математической элегантности решения.
Очевидным направлением развития является, конечно, улучшение точности моделирования деформации тканей. Но более фундаментальной задачей представляется разработка методов, позволяющих описывать не только видимую посадку, но и ощущаемую - то есть, учитывать не только геометрию, но и физические свойства ткани, её вес, жёсткость, и влияние этих параметров на комфорт. Иначе говоря, необходимо перейти от симуляции визуального представления к симуляции физической реальности.
Наконец, следует признать, что текущие подходы в значительной степени полагаются на синтетические данные. Хотя это и позволяет масштабировать обучение, необходимо разработать методы, позволяющие эффективно использовать реальные данные, несмотря на их ограниченное количество и сложность разметки. Иначе, вечная гонка за объёмом данных лишь замаскирует недостаток фундаментального понимания задачи.
Оригинал статьи: https://arxiv.org/pdf/2604.08526.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Искусственный интеллект, планирующий путешествия: новый подход к сложным задачам
- Большие языковые модели как судьи перевода: бюджет на размышления и калибровка реальности.
- Таблицы оживают: Искусственный интеллект осваивает структурированные данные
- Квантовый импульс для нейросетей: новый подход к распознаванию изображений
- Искусственный интеллект и квантовая физика: кто кого?
- Разделяй и Властвуй: Новый Подход к Развёртке 3D-Моделей
- Научные эксперименты с ИИ: новая платформа для проверки интеллекта
- Автоматическая оптимизация вычислений: новый подход к библиотекам математических функций
- Язык как мост между зрением и мозгом: новая модель для синхронизации сигналов
- Языковые модели и границы возможного: что делает язык человеческим?
2026-04-11 18:30