Искусство по запросу: Как нейросети учатся понимать ваш вкус

Автор: Денис Аветисян

Новое исследование демонстрирует, как персонализация генерации изображений по текстовому описанию позволяет создавать визуальный контент, идеально соответствующий индивидуальным предпочтениям.

В отличие от предыдущих работ, направленных на глобальную оптимизацию генераций с помощью вознаграждений, данное исследование демонстрирует возможность управления образцами посредством оптимизации запросов, что позволяет создавать разнообразные результаты, адаптированные к индивидуальным предпочтениям.

Представлен крупномасштабный датасет PAM∃\existsLA и модель вознаграждения для точного предсказания эстетических предпочтений пользователей в задачах генерации изображений с использованием диффузионных моделей.

Современные модели генерации изображений по текстовому описанию демонстрируют впечатляющую реалистичность, однако остаются безразличными к индивидуальным эстетическим предпочтениям пользователей. В работе, озаглавленной ‘Personalizing Text-to-Image Generation to Individual Taste’, представлен новый масштабный набор данных PAM∃\existsLA и персонализированная модель оценки, позволяющие более точно предсказывать субъективные оценки сгенерированных изображений. Разработанная модель демонстрирует превосходство над существующими подходами в прогнозировании индивидуальных предпочтений, а не только усредненных оценок. Не откроет ли это путь к созданию действительно персонализированных систем генерации изображений, способных удовлетворить уникальный вкус каждого пользователя?

Иллюзия Эстетического Согласия

Современные модели генерации изображений, несмотря на свою впечатляющую производительность, часто демонстрируют непостоянство в соответствии с индивидуальными эстетическими предпочтениями пользователей. Хотя эти модели способны создавать визуально сложные и реалистичные изображения, им зачастую не удается уловить тонкие нюансы личного вкуса. В результате, даже при использовании детальных текстовых запросов, сгенерированные изображения могут не соответствовать ожиданиям конкретного зрителя, что снижает ценность персонализированного визуального контента. Это несоответствие обусловлено сложностью кодирования субъективных оценок, таких как «красиво» или «приятно», в алгоритмы машинного обучения, и требует разработки новых подходов к пониманию и моделированию индивидуальных эстетических критериев.

Исследования показывают, что существующие объективные оценки эстетики, такие как полученные из базы данных LAION-Aesthetic, оказываются неспособными в полной мере отразить сложность и изменчивость человеческого восприятия прекрасного. Несмотря на свою количественную определенность, эти метрики часто упускают из виду тонкие нюансы, индивидуальные предпочтения и культурные контексты, которые формируют субъективное суждение о визуальной привлекательности. В результате, изображения, получившие высокие баллы по объективным критериям, могут не вызывать ожидаемого отклика у конкретного зрителя, что подчеркивает разрыв между автоматизированной оценкой и истинным эстетическим опытом. Таким образом, полагаться исключительно на подобные метрики при создании персонализированного визуального контента может привести к несоответствию между ожиданиями пользователя и генерируемым результатом.

Несоответствие между генерируемыми изображениями и индивидуальными эстетическими предпочтениями существенно ограничивает возможности персонализированного визуального опыта. Современные модели генеративного искусственного интеллекта, несмотря на свою мощь, зачастую не способны уловить тонкости субъективного восприятия красоты, что препятствует созданию контента, действительно резонирующего с конкретным пользователем. Этот разрыв не только снижает удовлетворенность от взаимодействия с ИИ, но и тормозит развитие технологий в сферах, где визуальная составляющая играет ключевую роль — от дизайна и рекламы до искусства и развлечений. Потенциал генеративного ИИ остается нереализованным до тех пор, пока не будет найдено решение для адаптации к широкому спектру индивидуальных вкусов и предпочтений.

Существует острая потребность в моделях генерации изображений, способных адаптироваться к широкому спектру индивидуальных эстетических предпочтений. Современные алгоритмы, несмотря на свою мощь, зачастую выдают результаты, не соответствующие вкусам конкретного пользователя. Для достижения подлинно персонализированного визуального опыта необходимо создание систем, которые не просто оценивают изображение по усредненным критериям, а учатся понимать и воспроизводить уникальные представления о красоте, свойственные каждому человеку. Разработка таких моделей потребует новых подходов к обучению, учитывающих не только объективные характеристики изображения, но и субъективное восприятие, что откроет новые возможности для применения генеративного искусственного интеллекта в областях, требующих высокой степени индивидуализации.

Персонализированный предсказатель эстетического качества объединяет визуальные и семантические признаки, полученные из замороженной модели SigLIP2, с эмбеддингами пользовательских данных и метаданных изображения, используя неглубокий трансформерный энкодер для прогнозирования эстетической оценки на основе линейного слоя и функции среднеквадратичной ошибки.

PAM∃\existsLA: Датасет для Персонализации Вкуса

Набор данных PAM∃\existsLA представляет собой значительный шаг вперед в области персонализированного предсказания эстетики, содержащий 70 000 оценок, распределенных по 5 077 изображениям. Такой объем данных позволяет проводить обучение и оценку моделей, способных учитывать индивидуальные предпочтения пользователей при определении эстетической привлекательности изображений. Размер и разнообразие набора данных PAM∃\existsLA обеспечивают возможность создания более точных и надежных моделей, превосходящих существующие подходы в задачах персонализации.

Для генерации изображений, входящих в состав датасета PAM∃\existsLA, использовались модели Nano Banana и Flux 2. Применение данных генеративных моделей позволило создать разнообразный и контролируемый набор визуальных стимулов, необходимых для обучения и оценки моделей, предназначенных для персонализированного предсказания эстетических предпочтений. Использование этих моделей гарантирует наличие достаточного объема данных для эффективной тренировки и валидации алгоритмов, а также обеспечивает возможность изучения влияния различных визуальных характеристик на субъективное восприятие пользователей.

Масштаб и разнообразие датасета PAM∃\existsLA, включающего 70 000 оценок 5077 изображений, позволяют разрабатывать более устойчивые и точные модели для предсказания эстетических предпочтений пользователей. Большой объем данных способствует эффективному обучению моделей, а разнообразие изображений охватывает широкий спектр визуальных стилей и контента, что снижает риск переобучения и повышает обобщающую способность моделей. Это позволяет создавать системы, способные учитывать индивидуальные вкусы и предоставлять более релевантные рекомендации или результаты поиска, основанные на личных предпочтениях пользователей.

В отличие от существующих наборов данных, оценивающих эстетическое качество изображений по универсальным критериям, PAM∃\existsLA фиксирует индивидуальные предпочтения пользователей. Набор данных содержит оценки, предоставленные разными пользователями для одних и тех же изображений, что позволяет моделировать субъективное восприятие. Это означает, что модель, обученная на PAM∃\existsLA, способна предсказывать, насколько изображение понравится конкретному пользователю, а не просто оценивать его общее эстетическое качество. Данный подход открывает возможности для создания персонализированных систем рекомендаций изображений и других приложений, учитывающих индивидуальные вкусы.

Набор данных PAM∃\existsLA охватывает две основные области - искусство и фотографию - и включает 21 тематическую категорию, что позволяет оценить способность модели различать стилизованные художественные композиции и реалистичные фотографии. — Набор данных PAM∃\existsLA охватывает две основные области — искусство и фотографию — и включает 21 тематическую категорию, что позволяет оценить способность модели различать стилизованные художественные композиции и реалистичные фотографии.

PAM∃\existsLA Predictor: Учим Машину Различать Вкус

Мы представляем PAM∃\existsLA Predictor — модель, обученную на датасете PAM∃\existsLA, предназначенную для предсказания индивидуальных предпочтений пользователей при просмотре изображений. Модель анализирует изображения и формирует прогноз, соответствующий вкусам конкретного пользователя, основываясь на данных, полученных в процессе обучения на указанном датасете. PAM∃\existsLA Predictor позволяет оценивать вероятность положительной реакции пользователя на то или иное изображение, что открывает возможности для персонализации контента и улучшения пользовательского опыта.

В основе работы предсказателя индивидуальных предпочтений лежит модель SigLIP2, используемая для извлечения значимых признаков из изображений. SigLIP2 позволяет получить векторное представление изображения, кодирующее его визуальные характеристики и семантическое содержание. Эти признаки служат входными данными для последующего анализа и формирования оценки эстетической привлекательности изображения для конкретного пользователя. Использование SigLIP2 обеспечивает эффективное представление визуальной информации, необходимой для точного моделирования предпочтений.

Включение демографической информации в модель PAM∃\existsLA позволило повысить точность прогнозирования индивидуальных предпочтений пользователей. Анализ данных о возрасте, поле и других демографических характеристиках позволил уточнить профили предпочтений, учитывая статистические закономерности, связанные с различными группами пользователей. Это привело к более персонализированным рекомендациям и улучшению способности модели учитывать разнообразие эстетических вкусов, что подтверждается результатами экспериментов и более высокой точностью прогнозирования по сравнению с моделями, не использующими демографические данные.

Модель PAM∃\existsLA Predictor демонстрирует высокую способность к обобщению, что подтверждается значением коэффициента корреляции рангов Спирмена (SROCC) в 0.4514 при оценке на данных новых пользователей. Данный показатель свидетельствует о статистически значимой связи между предсказанными предпочтениями модели и фактическими оценками пользователей, которых не было в обучающей выборке. Полученный результат превосходит показатели, достигнутые другими существующими методами прогнозирования эстетических предпочтений, что подтверждает эффективность предложенного подхода к моделированию индивидуального вкуса.

Предложенный метод PAM∃\existsLA для итеративного улучшения запросов демонстрирует эффективность в различных возрастных группах, опираясь на обобщенные паттерны, извлеченные из демографических эмбеддингов, а не на идентификацию конкретного пользователя.

Персонализация Изображений: Когда ИИ Угадывает Ваши Желания

Прогнозатор PAM∃\existsLA выступает в роли ключевого элемента оптимизации текстовых запросов, направляя модели диффузии преобразования текста в изображение для создания визуального контента, максимально соответствующего индивидуальным предпочтениям пользователя. Этот механизм позволяет тонко настраивать параметры генерации, учитывая субъективные эстетические критерии каждого отдельного человека. Вместо создания универсальных изображений, система стремится к персонализации, предлагая визуальные решения, которые наилучшим образом резонируют с вкусами и ожиданиями конкретного зрителя. По сути, прогнозатор выступает в роли «художника», адаптирующегося к уникальному видению каждого пользователя, и создающего изображения, отражающие его личные предпочтения.

В отличие от общепринятых моделей оценки, таких как ImageReward, Q-Align и HPSv3, представленный подход демонстрирует более высокую точность в отражении субъективных эстетических предпочтений. Традиционные модели часто сталкиваются с трудностями при интерпретации индивидуальных вкусов, что приводит к генерации изображений, не соответствующих ожиданиям пользователя. Новая методика, напротив, позволяет более тонко учитывать личные предпочтения, обеспечивая более релевантные и приятные визуальные результаты. Это достигается за счет более сложного анализа и учета нюансов, которые обычно упускаются из виду стандартными алгоритмами, что позволяет создавать изображения, максимально соответствующие индивидуальному восприятию красоты и стиля.

Для дальнейшей оптимизации процесса согласования и повышения соответствия с индивидуальными предпочтениями пользователей применяется метод Direct Preference Optimization (DPO). Этот подход позволяет усовершенствовать модель генерации изображений, позволяя ей не просто создавать визуально приятные картинки, но и учитывать уникальные эстетические взгляды каждого пользователя. DPO позволяет модели обучаться на основе парных сравнений изображений, определяя, какое изображение более соответствует вкусам конкретного человека. В результате, генерируемые изображения оказываются более персонализированными и резонируют с индивидуальными вкусами пользователей, обеспечивая более высокий уровень удовлетворенности.

Исследования показали, что разработанный метод демонстрирует высокую точность сопоставления предпочтений пользователей, достигая показателя в 0.6631 при оценке парных сравнений на данных новых, ранее не встречавшихся пользователей. Особенно примечательно, что разрыв в обобщающей способности, измеряемый коэффициентом корреляции Спирмена (SROCC), составляет всего 0.059. Это свидетельствует о стабильности и надёжности предсказаний в отношении эстетических вкусов, вне зависимости от индивидуальных особенностей пользователей и разнообразия их предпочтений. Полученные результаты подтверждают эффективность подхода в создании персонализированного контента, максимально соответствующего ожиданиям каждого конкретного человека.

В отличие от существующих моделей вознаграждения, наша PAM∃\existsLA позволяет адаптировать генерацию под индивидуальные предпочтения пользователей, что подтверждается сравнением результатов оптимизации запросов для разных пользователей с использованием PAM∃\existsLA, HPSv3[ma2025hpsv3] и Q-Align[qalign].

Исследование демонстрирует, что даже самые передовые модели генерации изображений по тексту нуждаются в тонкой настройке под индивидуальные предпочтения. Авторы предлагают PAM∃\existsLA — масштабный датасет и модель вознаграждения, призванные угадать, что именно понравится конкретному пользователю. Это, конечно, не отменяет того факта, что «инновации» часто сводятся к переизобретению костылей. Как метко заметил Ян Лекун: «Машинное обучение — это не магия, а просто способ заставить компьютер выполнять задачи, которые слишком сложны для ручного программирования». По сути, они пытаются автоматизировать субъективное восприятие, что всегда чревато неточностями. В конечном итоге, прод всё равно найдёт способ сломать даже самую элегантную архитектуру, подгоняя её под реальные требования.

Что дальше?

Создание датасета, каким бы масштабным оно ни было, лишь отодвигает неизбежное. Каждая «персонализированная» эстетика, зафиксированная в наборе данных, — это моментальный снимок вкуса, обречённый на устаревание. Продакшен найдёт способ сломать даже самую изящную модель предпочтений, подбрасывая неожиданные запросы и граничные случаи. И это хорошо. Любая абстракция умирает от продакшена, но зато красиво умирает, демонстрируя хрупкость наших представлений о вкусе.

Перспективы кажутся очевидными: динамические модели предпочтений, учитывающие контекст, время и даже настроение пользователя. Но не стоит обольщаться. Всегда найдётся запрос, который вызовет у системы когнитивный диссонанс, и тогда придётся решать, что важнее: точность предсказания или правдоподобие.

Всё, что можно задеплоить — однажды упадёт. И это не трагедия, а константа. Интересно не то, как долго продержится иллюзия персонализации, а как элегантно система справится с неизбежным провалом, и какие новые артефакты она породит на обломках старых предпочтений. В конце концов, даже в хаосе есть своя красота.

Оригинал статьи: https://arxiv.org/pdf/2604.07427.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-10 12:18

🚀 Квантовые новости