Искусственный интеллект рисует по заказу: Новый масштабный датасет для редактирования изображений

Автор: Денис Аветисян


Исследователи представили UnicEdit-10M — огромный набор данных, призванный улучшить качество и точность инструкций для редактирования изображений с помощью ИИ.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Система UnicEdit-10M охватывает 22 задачи редактирования, от простых до сложных, и использует унифицированную стадию постобработки для фильтрации ошибок и уточнения инструкций, что позволяет получать высококачественные тройки данных, а для всесторонней оценки разработан набор метрик UnicBench.
Система UnicEdit-10M охватывает 22 задачи редактирования, от простых до сложных, и использует унифицированную стадию постобработки для фильтрации ошибок и уточнения инструкций, что позволяет получать высококачественные тройки данных, а для всесторонней оценки разработан набор метрик UnicBench.

Представлен датасет UnicEdit-10M и эталон UnicBench для оценки точности и логичности редактирования изображений по текстовым инструкциям.

Несмотря на стремительное развитие мощных мультимодальных моделей, таких как GPT-4o, разрыв в производительности между закрытыми и открытыми системами редактирования изображений сохраняется из-за нехватки масштабных, высококачественных данных и всесторонних бенчмарков. В работе ‘UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits’ представлен новый подход к созданию данных, основанный на сквозной модели и унифицированной пост-верификации, что позволило создать датасет UnicEdit-10M, насчитывающий 10 миллионов примеров. Наряду с этим, предложен бенчмарк UnicBench, позволяющий оценить не только базовые, но и сложные операции редактирования, требующие пространственного и логического мышления. Каким образом предложенные решения могут способствовать дальнейшему развитию и более глубокому пониманию возможностей современных моделей редактирования изображений?


Бесполезная элегантность: Почему существующие системы редактирования изображений не справляются с задачей

Современные модели редактирования изображений зачастую демонстрируют недостаточную семантическую согласованность, что приводит к неточному отражению намерений пользователя. Несмотря на впечатляющие визуальные результаты, алгоритмы нередко игнорируют контекст и логические связи в изображении, выполняя изменения, которые кажутся технически верными, но лишены смысла с точки зрения общего содержания. Например, при запросе на изменение цвета объекта модель может изменить цвет и фона, игнорируя необходимость сохранения реалистичности сцены. Эта проблема особенно актуальна при сложных запросах, требующих понимания взаимосвязей между различными элементами изображения и их ролями в общей композиции. Неспособность моделей к семантическому пониманию ограничивает их применимость в задачах, требующих высокой точности и соответствия исходному замыслу, подчеркивая необходимость разработки более интеллектуальных алгоритмов и методов оценки.

Существующие оценочные наборы данных для редактирования изображений зачастую не способны всесторонне проверить возможности современных моделей, что тормозит развитие данной области. Многие из них ограничиваются простыми операциями, такими как изменение яркости или контрастности, и не учитывают сложные сценарии, требующие семантического понимания изображения и точного следования инструкциям пользователя. Отсутствие комплексной оценки приводит к тому, что модели могут демонстрировать хорошие результаты на простых задачах, но терпят неудачу при более реалистичных и требовательных запросах, например, при изменении стиля изображения, добавлении или удалении объектов с сохранением правдоподобности, или при выполнении сложных композиционных изменений. Это затрудняет объективное сравнение различных подходов и замедляет прогресс в создании действительно интеллектуальных систем редактирования изображений.

Разработка надежной и масштабируемой системы оценки является ключевым фактором для дальнейшего развития технологий редактирования изображений. Отсутствие универсального и объективного метода проверки ограничивает прогресс в этой области, поскольку затрудняет сравнение различных моделей и выявление их слабых мест. Такая система должна позволять оценивать не только базовые операции, такие как изменение яркости или контрастности, но и сложные сценарии, требующие глубокого понимания семантики изображения и точного следования инструкциям пользователя. Масштабируемость важна для оценки моделей на больших и разнообразных наборах данных, что необходимо для обеспечения их надежности и обобщающей способности. Именно благодаря подобной системе станет возможным более целенаправленное развитие алгоритмов и, в конечном итоге, создание инструментов редактирования изображений, которые действительно отвечают потребностям пользователей и открывают новые возможности для творчества.

Процесс курирования данных состоит из трех этапов: подготовки, редактирования изображений и последующей верификации с фильтрацией неудачных правок и повторным описанием.
Процесс курирования данных состоит из трех этапов: подготовки, редактирования изображений и последующей верификации с фильтрацией неудачных правок и повторным описанием.

UnicEdit-10M: Набор данных для всесторонней оценки, или иллюзия прогресса

Набор данных UnicEdit-10M состоит из 10 миллионов троек «изображение-инструкция-результат», охватывающих широкий спектр задач по редактированию изображений. В него включены разнообразные типы редактирования, такие как добавление объектов, удаление элементов, изменение стилей, и манипуляции с атрибутами изображений. Такой объем и разнообразие данных позволяют комплексно оценивать возможности моделей редактирования изображений и проводить сравнительный анализ их производительности в различных сценариях. Каждая тройка представляет собой исходное изображение, текстовое описание желаемого изменения и результирующее отредактированное изображение.

Для формирования датасета UnicEdit-10M использовались модели Qwen-Image-Edit и FLUX.1-Kontext в процессе курирования данных. Эти модели применялись для генерации разнообразных инструкций по редактированию изображений, что позволило обеспечить широкий спектр задач и сценариев. Использование нескольких моделей позволило повысить разнообразие сгенерированных данных и снизить предвзятость, характерную для использования единственной модели. Автоматизированный процесс курирования, основанный на этих моделях, значительно увеличил объем данных, доступных для обучения и оценки алгоритмов редактирования изображений, сохранив при этом высокий уровень качества и релевантности.

В составе UnicEdit-10M реализован многоступенчатый конвейер постобработки, предназначенный для выявления и фильтрации некорректных изменений в изображениях. Данный конвейер включает в себя автоматические проверки на предмет логических несоответствий между инструкцией и результатом редактирования, а также оценку визуального качества внесенных изменений. Для обеспечения высокой точности используются как метрики, основанные на сравнении пикселей, так и модели машинного обучения, обученные на выявлении артефактов и несоответствий. Выявленные ошибки приводят к отбраковке соответствующих пар «изображение-инструкция», что гарантирует высокое качество и достоверность данных в UnicEdit-10M.

Изображение демонстрирует типичные примеры всех подзадач, представленных в наборе данных UnicEdit-10M.
Изображение демонстрирует типичные примеры всех подзадач, представленных в наборе данных UnicEdit-10M.

Улучшение верификации с помощью Qwen-Verify и Chain-of-Thought: ещё один уровень автоматизации, ещё больше потенциальных ошибок

Модель Qwen-Verify, представляющая собой экспертную систему на основе архитектуры 7B, выполняет ключевую роль в процессе постобработки и верификации. Она предназначена для выявления случаев, когда процесс верификации завершился неудачно, и последующей переформулировки инструкций для повторной обработки. Функционал модели включает в себя анализ результатов верификации, определение ошибок и автоматическое генерирование новых, более четких инструкций, направленных на исправление выявленных недочетов и обеспечение корректности итогового результата.

Обучение модели Qwen-Verify оптимизировано с использованием алгоритма D2PO (Direct Preference Optimization). Данный метод позволяет модели эффективно различать корректные и некорректные изменения, основанные на предпочтениях, заданных в процессе обучения. В отличие от стандартных методов обучения с подкреплением, D2PO напрямую оптимизирует политику модели, основываясь на сравнении предпочтений между различными вариантами ответов, что приводит к более точному определению качества редактирований и, следовательно, к повышению надежности процесса верификации.

Интеграция метода рассуждений “Chain-of-Thought” (CoT) значительно повышает способность модели Qwen-Verify к логическому анализу и проверке. CoT предполагает, что модель не просто выдает конечный ответ, а генерирует последовательность промежуточных шагов рассуждений, объясняющих процесс получения результата. Это позволяет Qwen-Verify не только выявлять ошибки в редактировании, но и более точно определять причины этих ошибок, повышая надежность процесса верификации и снижая количество ложноположительных и ложноотрицательных результатов. Использование CoT особенно эффективно при сложных задачах, требующих многоступенчатого анализа и учета различных факторов.

Представленные примеры демонстрируют, что разработанная экспертная модель Qwen-Verify, обученная на двойной задаче, превосходит базовые модели Qwen2.5-VL-7B и Qwen2.5-VL-7B после первого этапа SFT.
Представленные примеры демонстрируют, что разработанная экспертная модель Qwen-Verify, обученная на двойной задаче, превосходит базовые модели Qwen2.5-VL-7B и Qwen2.5-VL-7B после первого этапа SFT.

Измерение успеха: за пределами базовых метрик, или как создать иллюзию объективности

Для всесторонней оценки качества редактирования изображений используется комплексная метрика UnicBench, включающая в себя оценку способности модели к логическому мышлению (Reasoning Accuracy), точности выполнения инструкций (Instruction Following) и сохранению целостности изображения при внесении изменений (Non-edit Consistency). В отличие от традиционных подходов, фокусирующихся лишь на отдельных аспектах, UnicBench позволяет получить полное представление о производительности модели, учитывая не только точность внесенных правок, но и способность к осмысленному и гармоничному изменению изображения. Такой подход позволяет более объективно сравнивать различные модели и выявлять наиболее эффективные решения для задач редактирования, обеспечивая высокий уровень качества и соответствие заданным требованиям.

Для оценки качества изменений, внесенных в изображения, используется метрика VIEScore, которая комплексно оценивает как семантическую согласованность, так и восприятие визуального качества. В отличие от простых метрик, фокусирующихся исключительно на точности, VIEScore учитывает, насколько правки соответствуют смысловому содержанию изображения и насколько гармонично они вписываются в общую композицию. Этот подход позволяет выявить ситуации, когда правки технически верны, но визуально неудовлетворительны, или наоборот — визуально привлекательны, но вносят смысловые искажения. Таким образом, VIEScore обеспечивает более полную и объективную оценку качества редактирования изображений, выходя за рамки простой проверки точности и учитывая эстетическое восприятие.

В рамках оценки качества редактирования изображений, использовался показатель эстетической привлекательности, позволяющий оценить общую гармоничность и визуальное совершенство отредактированных снимков. Набор данных UnicEdit-10M продемонстрировал наивысшие показатели эстетической оценки, превзойдя все конкурирующие модели в данной категории. Этот показатель позволяет не просто судить о точности внесенных изменений, но и о том, насколько естественно и приятно выглядит итоговое изображение для человеческого глаза, что является ключевым фактором при оценке эффективности алгоритмов редактирования.

Оценка продемонстрировала существенный прогресс в поддержании согласованности лиц на отредактированных изображениях. Достигнутый показатель в 0.89 значительно превосходит результат GPT-Image-Edit-1.5M, составивший всего 0.3025. Это указывает на то, что разработанная система способна более эффективно сохранять реалистичность и идентичность лиц в процессе редактирования, минимизируя искажения и артефакты. Подобное улучшение особенно важно для приложений, где точность представления лиц имеет решающее значение, таких как создание фотореалистичных изображений или редактирование портретов.

Исследования показали, что система Qwen-Verify демонстрирует высокую эффективность в отбраковке дефектных изменений, внесенных в изображения. После проведения верификации, система отсеивает приблизительно 26% некорректных результатов, что существенно повышает общее качество обработанных изображений. Этот показатель свидетельствует о способности Qwen-Verify надежно идентифицировать и исключать нежелательные артефакты или неточности, обеспечивая более точный и визуально привлекательный результат редактирования. Эффективность фильтрации позволяет значительно уменьшить количество ошибок и повысить доверие к автоматизированным процессам редактирования изображений.

Таблица 4 представляет собой всесторонний анализ производительности различных моделей редактирования изображений на базе UnicBench. В ней детально сравниваются ключевые показатели, такие как точность рассуждений, следование инструкциям, согласованность редактирования, семантическая и визуальная целостность, а также эстетическая оценка. Представленные данные позволяют оценить сильные и слабые стороны каждой модели, демонстрируя, как они справляются с различными аспектами редактирования. Сравнительный анализ, содержащийся в таблице, служит надежным ориентиром для исследователей и разработчиков, стремящихся к созданию более совершенных и эффективных систем редактирования изображений, а также позволяет объективно оценить прогресс в данной области.

Результаты тестирования моделей на UnicBench демонстрируют превосходство закрытых моделей, при этом лучшие и вторые лучшие результаты выделены полужирным и подчеркнутым шрифтом соответственно.
Результаты тестирования моделей на UnicBench демонстрируют превосходство закрытых моделей, при этом лучшие и вторые лучшие результаты выделены полужирным и подчеркнутым шрифтом соответственно.

Исследование представляет собой типичную историю о масштабировании и качестве. Создаётся впечатление, что авторы столкнулись с проблемой, знакомой каждому, кто работал с данными: чем больше данных, тем сложнее поддерживать их чистоту и релевантность. Подобные наборы данных, как UnicEdit-10M, неизбежно становятся источником головной боли, требуя постоянной верификации и фильтрации. Как метко заметил Ян Лекун: «Машинное обучение — это, по сути, создание сложных систем, которые мы не понимаем». Это особенно верно в контексте reasoning-enriched edits, где даже небольшие ошибки в данных могут привести к непредсказуемым результатам. Создание “dual-task expert model” и benchmark, безусловно, полезный шаг, но, вероятно, лишь отсрочит неизбежное столкновение с реальностью, где «продукшн всегда найдёт способ сломать элегантную теорию».

Что дальше?

Представленный набор данных, конечно, впечатляет масштабом. Но история помнит множество «миллионных» датасетов, которые спустя год превратились в пыльные архивы, требующие лишь комментариев вроде «ну, мы старались». Проблема не в количестве, а в неизбежной деградации метрик. Продакшен всегда найдет способ сломать даже самую элегантную систему, и эти «резонирующие» правки неизбежно потребуют новых, еще более сложных методов верификации. По сути, это лишь отсрочка неизбежного технического долга.

В перспективе, стоит ожидать не просто увеличения масштаба датасетов, а переосмысления самой концепции «разумного» редактирования изображений. Вопрос в том, как научить систему не просто следовать инструкциям, а понимать намерения пользователя, предвидеть возможные ошибки и предлагать альтернативные решения. А еще — как бороться с неизбежной субъективностью оценки качества, ведь «красота» и «реалистичность» — понятия, как известно, весьма относительные.

И, конечно, не стоит забывать о ресурсах. Каждая новая модель требует все больше вычислительной мощности, а это, в свою очередь, порождает новые этические дилеммы. В конечном итоге, возможно, придется признать, что идеального редактора не существует. Остается лишь продлевать страдания существующего, добавляя все новые и новые патчи.


Оригинал статьи: https://arxiv.org/pdf/2512.02790.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-04 00:10