Редактирование изображений: когда машина понимает, что вам нравится

Автор: Денис Аветисян

Новая методика HP-Edit позволяет моделям редактирования изображений лучше соответствовать человеческим предпочтениям, обеспечивая более качественный и точный результат.

Предлагаемый фреймворк HP-Edit состоит из трёх последовательных этапов: оценки человеческих предпочтений с учётом конкретной задачи, обработки данных, полученных от людей, и последующей оптимизации модели с использованием обучения с подкреплением на основе этих предпочтений.

Представлен фреймворк HP-Edit, использующий обучение с подкреплением и новый набор данных RealPref-50K для улучшения согласованности моделей редактирования изображений с человеческим восприятием.

Несмотря на успехи генеративных диффузионных моделей в редактировании изображений, эффективное применение обучения с подкреплением на основе предпочтений человека (RLHF) оставалось сложной задачей из-за недостатка масштабируемых данных и специализированных фреймворков. В данной работе представлена система ‘HP-Edit: A Human-Preference Post-Training Framework for Image Editing’, предлагающая новый подход к обучению моделей редактирования изображений с учетом предпочтений человека, включающий фреймворк постобработки и набор данных RealPref-50K, охватывающий восемь распространенных задач. Разработанный HP-Scorer позволяет автоматически оценивать качество редактирования, соответствующее человеческим предпочтениям, и служит основой для построения масштабируемого набора данных и функции вознаграждения. Позволит ли предложенный подход значительно улучшить качество и соответствие инструкциям в задачах редактирования изображений и открыть новые горизонты для взаимодействия человека и искусственного интеллекта в данной области?

Когда «Революция» Становится Техдолгом: Проблема Согласования Предпочтений

Современные методы редактирования изображений часто сталкиваются с трудностями при удовлетворении тонких человеческих предпочтений, что приводит к неестественным или нежелательным результатам. Алгоритмы, полагающиеся на общие правила или статистические закономерности, нередко упускают из виду субъективные аспекты визуального восприятия, такие как гармония цветов, композиция и соответствие ожиданиям зрителя. Это проявляется в искажениях перспективы, чрезмерной ретуши, нереалистичном изменении освещения или создании общей картины, которая кажется искусственной и лишенной естественности. В результате, даже технически совершенные изменения могут оказаться неприемлемыми для человека, стремящегося к аутентичности и эстетическому удовольствию. Проблема усугубляется разнообразием вкусов и культурных особенностей, что делает задачу автоматического выявления и удовлетворения индивидуальных предпочтений особенно сложной.

Увеличение масштаба моделей машинного обучения, несмотря на общий прогресс в области искусственного интеллекта, не гарантирует соответствия результатов человеческому эстетическому восприятию. Исследования показывают, что простое наращивание вычислительных мощностей и объемов данных не решает проблему согласования с нюансированными предпочтениями людей в области редактирования изображений. Вместо этого, требуется целенаправленный подход, фокусирующийся на разработке алгоритмов, способных улавливать и воспроизводить субъективные оценки красоты и гармонии, присущие человеческому глазу. Такой подход предполагает не только обучение на больших наборах данных, но и внедрение механизмов, позволяющих модели учитывать контекст, намерения пользователя и индивидуальные предпочтения, что делает процесс редактирования более интуитивным и результативным.

Существующие оценочные наборы данных, предназначенные для обучения моделей редактирования изображений, зачастую не отражают всей сложности и разнообразия реальных задач, с которыми сталкиваются пользователи. Они, как правило, фокусируются на простых, изолированных изменениях, игнорируя контекст, субъективные предпочтения и тонкие нюансы, определяющие эстетическую привлекательность. В результате, модели, хорошо работающие на этих наборах данных, могут демонстрировать неудовлетворительные результаты при применении к более сложным и реалистичным сценариям редактирования. Это несоответствие между искусственной средой обучения и реальными потребностями пользователей существенно замедляет прогресс в области обучения моделей, способных понимать и соответствовать человеческим эстетическим предпочтениям, что требует разработки более комплексных и репрезентативных оценочных наборов данных.

Сравнение на RealPref-Bench по восьми распространенным задачам редактирования демонстрирует качественные различия в подходах.

HP-Edit: Укрощение Модели с Помощью Человека

HP-Edit представляет собой фреймворк постобработки, предназначенный для улучшения моделей редактирования изображений на основе предпочтений пользователей. В отличие от обучения с нуля, HP-Edit использует предварительно обученную модель и дообучает ее, используя обратную связь от человека. Это позволяет адаптировать модель к конкретным задачам и эстетическим требованиям без необходимости значительных вычислительных ресурсов. Фреймворк фокусируется на повышении субъективного качества редактирования, а не на достижении определенных метрик, что делает его особенно полезным для задач, где визуальное восприятие играет ключевую роль.

HP-Edit объединяет в единую систему Визуальную Большую Языковую Модель (VLM), используемую в качестве оценивающего модуля (HP-Scorer), масштабный набор данных RealPref-50K для обучения и обучение с подкреплением (RL) для тонкой настройки модели. HP-Scorer оценивает качество изменений, вносимых в изображения, предоставляя сигнал для RL-агента с целью оптимизации политики редактирования. RealPref-50K содержит 50 тысяч пар изображений с предпочтениями пользователей, что позволяет обучать модель различать более и менее качественные результаты редактирования. Обучение с подкреплением использует эти предпочтения для итеративного улучшения политики редактирования, направленной на генерацию изображений, соответствующих ожиданиям пользователей.

HP-Scorer использует Визуальную Большую Языковую Модель (VLM) для оценки качества внесенных изменений в изображения. VLM анализирует отредактированное изображение и выдает числовой сигнал, отражающий степень соответствия редактирования предпочтениям пользователя. Этот сигнал служит функцией вознаграждения для агента обучения с подкреплением (RL), направляя его в процессе оптимизации политики редактирования. Агент RL, получая обратную связь от HP-Scorer, корректирует свои действия, стремясь генерировать редактирования, которые получат более высокие оценки от VLM, тем самым улучшая качество и соответствие результатов предпочтениям пользователя.

Представленные кривые вознаграждения демонстрируют влияние различных настроек на производительность алгоритма HP-Edit.

RealPref-50K: Подлинный Тест для Алгоритмов

Набор данных RealPref-50K представляет собой крупномасштабный ресурс, включающий более 50 000 случаев редактирования изображений. Балансировка набора данных достигается за счет равномерного распределения объектов из набора MS-COCO и широкого спектра подзадач редактирования. Это обеспечивает разнообразие сценариев и позволяет всесторонне оценить производительность моделей в различных условиях. Разнообразие подзадач включает в себя, но не ограничивается, изменение стиля, добавление или удаление объектов, а также изменение атрибутов объектов на изображениях.

Набор данных RealPref-50K разработан для преодоления ограничений существующих бенчмарков в области редактирования изображений. В отличие от предыдущих подходов, которые часто использовали синтетические или упрощенные сценарии, RealPref-50K фокусируется на реалистичных задачах редактирования, основанных на реальных пользовательских запросах. Ключевым аспектом является ручная верификация инструкций, что гарантирует их ясность и соответствие ожидаемым изменениям изображения. Это позволяет более точно оценивать способность моделей генерировать правдоподобные и релевантные результаты редактирования, избегая проблем, связанных с неоднозначностью или неточностью инструкций, характерных для автоматизированных методов генерации бенчмарков.

В ходе строгой оценки с использованием RealPref-Bench, модель HP-Edit продемонстрировала высокую степень соответствия сгенерированных изменений человеческим предпочтениям, достигнув показателя HP-Score в 4.667. Этот результат превосходит аналогичный показатель для модели Qwen-Image-Edit-2509 на 0.195, что свидетельствует о более эффективной генерации редактирований, соответствующих ожиданиям пользователей.

Набор данных RealPref-50K содержит информацию о распределении задач и объектов, используемых для обучения и оценки моделей.

За Горизонтом: Flow Matching и Будущие Направления

Принципы, лежащие в основе HP-Edit, оказываются универсальными и применимы не только к диффузионным моделям, но и к генеративным моделям, использующим подход потокового соответствия (Flow Matching). Данный факт открывает новые возможности для улучшения качества и управляемости генерации в различных областях. Использование этих принципов позволяет строить более эффективные алгоритмы обучения, которые учитывают предпочтения человека и обеспечивают создание контента, максимально соответствующего заданным критериям. В частности, методы, разработанные для HP-Edit, могут быть адаптированы для оптимизации траекторий потока в Flow Matching, что приведет к более реалистичным и когерентным результатам генерации изображений и других типов данных. Это подчеркивает перспективность использования общих принципов обучения с подкреплением и оценки качества для различных классов генеративных моделей.

Исследования показывают, что методы, подобные Flow-GRPO, открывают новые возможности для применения подходов, разработанных в обучении с подкреплением, к потоковым моделям генерации. Данный подход позволяет оптимизировать процесс генерации, используя сигналы обратной связи, аналогичные тем, что используются в обучении с подкреплением, для улучшения качества и соответствия генерируемых данных заданным критериям. По сути, Flow-GRPO позволяет «направлять» процесс генерации, корректируя параметры потоковой модели таким образом, чтобы получаемые результаты были более желательными и соответствовали ожиданиям. Это особенно актуально для задач, где сложно определить четкую функцию потерь, но можно оценить качество сгенерированного контента на основе субъективных оценок или экспертного мнения.

Разработанный HP-Scorer продемонстрировал высокую степень соответствия человеческим предпочтениям, что подтверждается коэффициентом корреляции Пирсона $PCC = 0.89$ при оценке результатов на наборе данных GEdit-Bench-CN. Этот показатель свидетельствует о способности модели эффективно оценивать качество генерируемых изменений изображений, сопоставимо с восприятием экспертов. Более того, HP-Scorer достиг передовых результатов на GEdit-Bench-CN, превзойдя существующие методы оценки и подтверждая свою эффективность в качестве надежного инструмента для автоматизированной оценки генеративных моделей редактирования изображений.

Анализ корреляции между оценкой пользователя и HP-Score на GEdit-Bench-EN показывает значимую взаимосвязь между этими показателями.

Исследование, представленное в статье, закономерно фокусируется на согласовании моделей редактирования изображений с человеческими предпочтениями. Это, конечно, не ново, но подход, использующий обучение с подкреплением и тщательно собранный датасет RealPref-50K, выглядит прагматично. Как однажды заметил Янн Лекун: «Машинное обучение — это не магия, а инженерное дело». И в данном случае, это инженерное дело направлено на решение вполне конкретной задачи — преодоление разрыва между теоретической возможностью и практическим результатом. Авторы, по сути, признают, что даже самая элегантная архитектура нуждается в калибровке под суровую реальность пользовательских ожиданий. Всё, что оптимизировано, рано или поздно оптимизируют обратно — и это, пожалуй, самое честное признание в мире машинного обучения.

Что дальше?

Представленный фреймворк HP-Edit, безусловно, добавляет ещё один уровень сложности в и без того непростую задачу выравнивания моделей генерации изображений с человеческими предпочтениями. Однако, стоит помнить, что любой датасет, даже тщательно аннотированный, — это лишь снимок субъективных оценок на определённый момент времени. Мода меняется, и то, что казалось эстетически привлекательным сегодня, завтра может быть признано устаревшим. Попытки «закодировать» вкус — занятие, обречённое на постоянное обновление.

Более того, увеличение размера датасета RealPref-50K, вероятно, лишь отодвинет проблему, а не решит её. Улучшение метрик на синтетических данных или даже на “свежих” изображениях не гарантирует устойчивости системы к adversarial атакам или к неожиданным запросам. Очевидно, что рано или поздно, найдётся способ «сломать» даже самую изящную модель, выдав совершенно непредсказуемый результат. И тогда, все эти красивые графики сходимости окажутся лишь иллюзией.

В конечном счёте, истинным вызовом остаётся не столько достижение высокой точности на текущих бенчмарках, сколько создание моделей, способных к самообучению и адаптации к меняющимся вкусам. Или, проще говоря, моделей, которые умеют учиться на своих ошибках, а не просто перерисовывать то, что им показали. Впрочем, это уже, кажется, было в 2012-м, только называлось “активным обучением”.

Оригинал статьи: https://arxiv.org/pdf/2604.19406.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-23 01:54

🚀 Квантовые новости