Тонкости настройки: как научить нейросети понимать сложные предпочтения

Автор: Денис Аветисян


Новый подход позволяет более точно согласовывать модели генерации изображений с нюансами человеческих оценок, выходя за рамки простого «нравится — не нравится».

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Существующие методы опираются на грубые, скалярные или бинарные сигналы вознаграждения на уровне изображения, в то время как предлагаемый подход использует знания экспертов для детального разделения атрибутов, направляя модель непосредственно из пространства шума к положительным направлениям и избегая отрицательных.
Существующие методы опираются на грубые, скалярные или бинарные сигналы вознаграждения на уровне изображения, в то время как предлагаемый подход использует знания экспертов для детального разделения атрибутов, направляя модель непосредственно из пространства шума к положительным направлениям и избегая отрицательных.

Предложена методика Complex Preference Optimization (CPO) для декомпозиции атрибутов и тонкой настройки диффузионных моделей на основе экспертных знаний.

Упрощенные сигналы, такие как скалярные оценки или бинарные предпочтения, часто ограничивают возможности пост-тренинговой адаптации диффузионных моделей к сложным экспертным знаниям. В работе «Beyond Binary Preference: Aligning Diffusion Models to Fine-grained Criteria by Decoupling Attributes» предложен новый подход, основанный на построении иерархических, детализированных критериев оценки, декомпозирующих качество изображения на множество положительных и отрицательных атрибутов. Разработанный фреймворк Complex Preference Optimization (CPO) позволяет одновременно максимизировать вероятность положительных и минимизировать вероятность отрицательных атрибутов, используя знания, переданные от вспомогательной диффузионной модели. Сможет ли подобный подход к детализированной оптимизации открыть новые возможности для контролируемого и качественного генерирования изображений, полностью соответствующих ожиданиям экспертов?


Истинная Элегантность Визуального Восприятия

Традиционные методы оценки качества изображений, как правило, опираются на скалярные метрики, такие как PSNR или SSIM, стремясь свести сложность визуального восприятия к единому числовому значению. Однако, такой подход игнорирует субъективный и многогранный характер эстетических предпочтений человека. Восприятие красоты и качества изображения зависит от множества факторов — композиции, цветовой гаммы, текстуры, общей гармонии — которые не могут быть адекватно отражены единственным числом. В результате, изображение, получившее высокий балл по стандартной метрике, может оказаться визуально непривлекательным или не соответствовать ожиданиям зрителя, в то время как изображение с более низким баллом может восприниматься как более качественное и эстетически приятное. Данное ограничение особенно критично при разработке генеративных моделей, поскольку стремление к оптимизации скалярных метрик может привести к созданию изображений, технически совершенных, но лишенных художественной ценности и эмоционального воздействия.

Упрощенный подход к оценке качества изображения игнорирует многогранность визуальной привлекательности, что серьезно затрудняет разработку генеративных моделей, действительно соответствующих человеческому восприятию. Визуальное восприятие — это сложный процесс, включающий в себя не только технические параметры, такие как резкость и контрастность, но и субъективные факторы, включая композицию, цветовую гамму, эмоциональное воздействие и даже культурный контекст. Генеративные модели, обученные на основе упрощенных метрик, часто создают изображения, технически совершенные, но лишенные эстетической гармонии и способности вызывать положительные эмоции у наблюдателя. Для достижения подлинного соответствия человеческому вкусу необходимо учитывать весь спектр факторов, определяющих визуальную привлекательность, и интегрировать эти знания в алгоритмы обучения моделей.

Современные методы оценки и генерации изображений часто сталкиваются с проблемой баланса между техническими характеристиками и эстетической привлекательностью. Несмотря на достижение высокой четкости, реалистичности и детализации, сгенерированные изображения могут казаться безжизненными или неудовлетворительными для человеческого глаза. Это связано с тем, что алгоритмы, оптимизированные для минимизации технических дефектов, не всегда учитывают субъективные предпочтения, такие как композиция, цветовая гамма или общее настроение изображения. В результате, изображение может быть технически совершенным, но лишенным художественной ценности и не вызывать желаемого эмоционального отклика у зрителя. Проблема усугубляется сложностью формализации понятия «красота» и различиями в эстетических вкусах, что делает задачу создания универсальной системы оценки качества изображений особенно трудной.

Для оценки изображений из групп G1 и G2 необходимо провести парные сравнения по семи критериям: манера и текстура, связь между гранями, композиция, освещение и тени, цветовые сочетания, перспектива и пространственное построение, а также форма и объём, выбирая лучшее изображение в каждой паре по каждому критерию.
Для оценки изображений из групп G1 и G2 необходимо провести парные сравнения по семи критериям: манера и текстура, связь между гранями, композиция, освещение и тени, цветовые сочетания, перспектива и пространственное построение, а также форма и объём, выбирая лучшее изображение в каждой паре по каждому критерию.

Разделение Атрибутов для Точного Контроля

Разделение атрибутов представляет собой перспективный подход к управлению качеством генерируемых изображений, позволяя независимо оптимизировать положительные и отрицательные характеристики. Традиционно, модели генерации изображений стремятся одновременно улучшить все аспекты изображения, что может привести к компромиссам. Разделение позволяет целенаправленно улучшать желаемые качества (например, реалистичность, детализацию) без ухудшения нежелательных (например, артефакты, шум). Это достигается за счет обучения модели различать и управлять каждым атрибутом по отдельности, что позволяет добиться более точного контроля над конечным результатом и более гибкой настройки генерации изображений под конкретные требования.

Двухэтапная стратегия постобучения позволяет уточнить понимание моделью эстетических нюансов посредством последовательной оптимизации. На первом этапе модель подвергается обучению на большом наборе данных изображений с целью извлечения общих закономерностей и улучшения способности к обобщению. Второй этап включает в себя тонкую настройку модели с использованием специализированного набора данных, ориентированного на конкретные эстетические характеристики, что позволяет добиться более точного контроля над генерируемыми изображениями и улучшить их визуальное качество.

Супервизированная тонкая настройка (Supervised Fine-Tuning) является ключевым этапом в процессе обучения генеративных моделей, позволяющим добиться соответствия генерируемых изображений заданным эстетическим предпочтениям. Данный метод предполагает использование размеченных данных, содержащих изображения и соответствующие им оценки эстетических характеристик, для корректировки весов модели. В процессе тонкой настройки модель обучается на специфическом наборе данных, что позволяет ей адаптироваться к желаемым визуальным качествам, таким как цветовая гамма, композиция и уровень детализации. Эффективность тонкой настройки напрямую зависит от качества и объема размеченных данных, а также от выбора подходящей функции потерь, ориентированной на оптимизацию целевых эстетических параметров.

Наш фреймворк использует агента, разбирающего изображение по семи параметрам - мазок и текстура, свет и тень, форма и поза, композиция, перспектива и пространство, цветовые отношения и отношения между гранями - для динамического получения шумовых сигналов, которые позволяют обучить модель, усиливающую позитивные и подавляющую негативные атрибуты, используя пятиуровневую иерархию из 246 пар признаков.
Наш фреймворк использует агента, разбирающего изображение по семи параметрам — мазок и текстура, свет и тень, форма и поза, композиция, перспектива и пространство, цветовые отношения и отношения между гранями — для динамического получения шумовых сигналов, которые позволяют обучить модель, усиливающую позитивные и подавляющую негативные атрибуты, используя пятиуровневую иерархию из 246 пар признаков.

За пределами Скалярных Метрик: Холистическая Оценочная Рамка

Метод оценки CPO (Content Preference Optimization) использует многомерный подход, отказавшись от практики назначения единой числовой оценки. Вместо этого, CPO анализирует контент по множеству различных параметров, отражающих различные аспекты эстетического качества. Это позволяет более точно и детально оценивать предпочтения пользователей, учитывая сложные и нюансированные характеристики изображений, которые не могут быть адекватно представлены одной метрикой. Такой подход позволяет выявлять более тонкие корреляции между характеристиками контента и пользовательскими предпочтениями, что приводит к более эффективной оптимизации и персонализации.

Используемая структура оценки включает в себя иерархический и дискретный анализ, что позволяет детально изучать отдельные атрибуты изображений. Иерархический подход предполагает разложение общей оценки на составляющие, такие как композиция, цветовая гамма и детализация, каждая из которых оценивается отдельно. Дискретный анализ, в свою очередь, предполагает оценку конкретных характеристик внутри каждого атрибута по заданным критериям, например, определение наличия или отсутствия определенных объектов или оценка степени выраженности конкретных визуальных эффектов. Такая детализация позволяет не только получить более точную оценку качества изображения, но и выявить конкретные области, требующие улучшения или оптимизации.

Обучающий набор данных был размечен с точностью 88.71%, что гарантирует высокое качество данных, используемых для оценки и оптимизации моделей. Данная точность была достигнута благодаря многократному контролю и перепроверке аннотаций квалифицированными специалистами. Высокая степень достоверности разметки критически важна для обеспечения надежности и воспроизводимости результатов, а также для эффективной тренировки алгоритмов машинного обучения, поскольку ошибки в данных могут привести к смещению оценок и ухудшению производительности системы.

Неравновесная оценка (Non-Equilibrium Evaluation) учитывает изменчивость эстетических предпочтений, адаптируясь к содержанию и стилю каждого изображения. В отличие от статических метрик, данный подход анализирует визуальные характеристики конкретного изображения, чтобы определить релевантные критерии оценки. Это позволяет избежать предвзятости, возникающей при применении универсальных стандартов к изображениям различной тематики и художественного стиля. Адаптация происходит путем динамического взвешивания различных атрибутов изображения, что позволяет более точно отразить субъективное восприятие качества и эстетической привлекательности.

Алгоритм CPO демонстрирует превосходство над всеми базовыми решениями как в задаче избегания нежелательных признаков (↓\downarrow), так и в задаче максимизации предпочтений (↑\uparrow).
Алгоритм CPO демонстрирует превосходство над всеми базовыми решениями как в задаче избегания нежелательных признаков (↓\downarrow), так и в задаче максимизации предпочтений (↑\uparrow).

Соответствие Человеческой Эстетике: Оптимизация Предпочтений

Оптимизация с целью соответствия человеческому восприятию является конечной целью в создании изображений, стремящейся к тому, чтобы сгенерированные визуальные материалы находили отклик у наблюдателя. Искусственный интеллект, создающий изображения, должен не просто воспроизводить визуальные данные, но и учитывать субъективные критерии, определяющие эстетическую привлекательность для человека. Достижение этой гармонии требует глубокого понимания того, какие визуальные характеристики вызывают положительные эмоции и соответствуют общепринятым представлениям о красоте, что, в свою очередь, позволяет создавать изображения, которые не просто технически совершенны, но и действительно приятны для восприятия.

Оптимизация эстетической привлекательности является ключевой задачей в генерации изображений, и подход CPO (Contrastive Preference Optimization) направлен на её решение посредством целенаправленных стратегий. Данная методика позволяет максимизировать субъективное восприятие красоты, измеряемое объективными метриками, такими как PickScore, который оценивает соответствие сгенерированного изображения предпочтениям пользователей. CPO не просто стремится к технической точности, но и к созданию визуально приятных результатов, что достигается путём контрастного обучения модели на парах изображений, ранжированных по степени привлекательности. Такой подход позволяет модели улавливать тонкие нюансы, определяющие эстетическое восприятие, и генерировать изображения, более соответствующие человеческим ожиданиям.

В ходе пользовательских исследований модель FLUX-CPO продемонстрировала впечатляющий уровень соответствия предпочтениям пользователей, достигнув показателя в 84.1%. Этот результат значительно превосходит аналогичные показатели, достигнутые другими существующими методами генерации изображений. Данное превосходство указывает на то, что FLUX-CPO обладает более тонким пониманием эстетических критериев, формируемых человеческим восприятием, и способна создавать изображения, которые с большей вероятностью будут оценены как привлекательные и соответствующие ожиданиям пользователей. Такой высокий уровень соответствия предпочтениям открывает новые возможности для применения модели в различных областях, где важна визуальная привлекательность и субъективная оценка качества, например, в дизайне, рекламе и создании контента.

Исследования показали, что модель демонстрирует впечатляющий контроль над эстетическими характеристиками генерируемых изображений. Высокие значения IoU (Intersection over Union) — 96.18% — зафиксированы для позитивных атрибутов, таких как гармоничное сочетание цветов, что свидетельствует о способности модели точно воспроизводить желаемые визуальные качества. Примечательно, что значения IoU по всем негативным атрибутам остаются низкими, что указывает на эффективное подавление нежелательных характеристик и позволяет создавать изображения, соответствующие заданным критериям качества. Такой уровень контроля над деталями позволяет модели генерировать визуально привлекательные и эстетически приятные изображения, отвечающие предпочтениям наблюдателей.

Процесс оптимизации эстетических предпочтений активно использует такие методы, как Direct Preference Optimization (DPO) и Reinforcement Learning from Human Feedback (RLHF), позволяя модели более точно улавливать нюансы человеческого восприятия. Эти подходы подразумевают непосредственное использование оценок людей для корректировки параметров генерации изображений. В частности, DPO позволяет обучать модель, сравнивая предпочтения пользователей относительно пар изображений, избегая необходимости в сложных функциях вознаграждения. RLHF, в свою очередь, использует обратную связь от людей для формирования более эффективной политики генерации, что способствует созданию изображений, максимально соответствующих ожиданиям и вкусам наблюдателей. Благодаря этим итеративным процессам обучения, модель постепенно совершенствует свое понимание эстетических критериев, обеспечивая генерацию визуально привлекательного и гармоничного контента.

Алгоритм CPO демонстрирует превосходство над всеми базовыми моделями как в задаче избегания нежелательных атрибутов (отображается <span class="katex-eq" data-katex-display="false">\downarrow</span>), так и в оптимизации целевых показателей (отображается <span class="katex-eq" data-katex-display="false">\uparrow</span>).
Алгоритм CPO демонстрирует превосходство над всеми базовыми моделями как в задаче избегания нежелательных атрибутов (отображается \downarrow), так и в оптимизации целевых показателей (отображается \uparrow).

Представленная работа демонстрирует стремление к математической чистоте в области генеративных моделей. Авторы, подобно тому, как математик ищет элегантное решение, предлагают разложить сложную задачу выравнивания предпочтений на отдельные, четко определенные атрибуты. Этот подход, названный Complex Preference Optimization (CPO), напоминает стремление к доказуемости алгоритма, а не просто к его работоспособности на тестовых примерах. Действительно, как однажды заметил Дэвид Марр: «Алгоритм должен быть доказуем, а не просто «работать на тестах»». Разделение атрибутов позволяет не только улучшить качество генерации, но и обеспечить большую контролируемость модели, что соответствует принципам предсказуемости и непротиворечивости, столь важным для истинной элегантности кода.

Что Дальше?

Представленный подход к оптимизации диффузионных моделей, отделяющий атрибуты для более точной адаптации к экспертным знаниям, безусловно, шаг вперёд. Однако, иллюзия полного соответствия модели желаниям человека — опасна. Алгоритмическая элегантность, заключающаяся в декомпозиции сложных предпочтений, не гарантирует, что полученные результаты действительно отражают суть человеческого восприятия. Вопрос не в том, чтобы “научить” модель генерировать желаемое, а в том, чтобы понять, что именно мы подразумеваем под “желаемым” — и насколько это вообще формализуемо.

Дальнейшие исследования должны быть сосредоточены не на увеличении количества атрибутов, а на разработке более строгих метрик для оценки их согласованности и релевантности. Необходимо отойти от эмпирических тестов и стремиться к доказательству корректности алгоритма, а не просто к демонстрации его работоспособности на ограниченном наборе данных. Попытки внедрения формальной логики в процесс оптимизации, пусть и кажущиеся утопичными, представляются более перспективными, чем бесконечное наращивание вычислительных ресурсов.

В конечном итоге, задача не в создании идеального генератора, а в глубоком понимании того, как человек воспринимает мир и какие принципы лежат в основе его эстетических и функциональных предпочтений. Иначе, мы рискуем создать лишь сложный инструмент для воспроизведения собственных предрассудков, прикрытых маской алгоритмической точности.


Оригинал статьи: https://arxiv.org/pdf/2601.04300.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-09 13:15