Критик во благо: надежное обучение для точного редактирования и генерации изображений

Автор: Денис Аветисян

Новый подход позволяет создавать более качественные изображения и точнее редактировать существующие, используя возможности обучения с подкреплением и надежные модели вознаграждения.

В процессе обучения с подкреплением модель FIRM-Edit-8B используется в качестве функции вознаграждения, что позволяет сравнивать результаты редактирования изображений, полученные различными методами.

В статье представлен FIRM — фреймворк для обучения устойчивых моделей вознаграждения и разработки эффективных стратегий для обучения с подкреплением в задачах редактирования и генерации изображений.

Несмотря на успехи обучения с подкреплением в задачах редактирования и генерации изображений, текущие модели оценки, выступающие в роли критика, часто страдают от неточностей и приводят к ошибочным результатам. В статье ‘Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation’ представлен FIRM — комплексный подход к созданию надежных моделей оценки, обеспечивающих точное и последовательное руководство для задач генерации и редактирования изображений. Авторы предлагают специализированные наборы данных и модели (FIRM-Edit-370K, FIRM-Gen-293K, FIRM-Edit-8B, FIRM-Gen-8B) и новую стратегию вознаграждения, значительно улучшающую качество и соответствие инструкциям генерируемых изображений. Сможем ли мы создать еще более надежные и эффективные системы искусственного интеллекта, полагаясь на более точных и беспристрастных критиков?

Преодоление Разрыва: FIRM — Фреймворк для Надежного Моделирования Вознаграждений

Современные генеративные модели, несмотря на впечатляющий прогресс, часто испытывают трудности с точным соответствием сложным человеческим предпочтениям. Это приводит к непоследовательным результатам, когда сгенерированные изображения или тексты не всегда отвечают ожиданиям пользователя или могут содержать нежелательные артефакты. Проблема заключается в том, что человеческие суждения редко бывают однозначными; они зависят от контекста, эстетических предпочтений и субъективного восприятия. Обучение моделей на недостаточно детализированных или противоречивых данных усугубляет эту проблему, приводя к генерации контента, который может быть технически совершенным, но не удовлетворяющим потребностям пользователя или даже восприниматься как некачественный. Неспособность адекватно учитывать нюансы человеческих предпочтений ограничивает практическое применение этих моделей в областях, требующих высокой степени согласованности и соответствия ожиданиям, таких как персонализированный контент и творческие приложения.

В рамках решения проблемы несоответствия результатов работы генеративных моделей сложным человеческим предпочтениям, разработан фреймворк FIRM — комплексный подход, охватывающий как создание специализированных конвейеров обработки данных, так и формулировку точных сигналов вознаграждения. Фреймворк не ограничивается одной задачей, а предназначен для эффективной работы как в задачах редактирования изображений, позволяя пользователям точно настраивать визуальный контент, так и в задачах генерации новых изображений с заданными характеристиками. Ключевым аспектом является адаптация каждого этапа — от сбора и подготовки данных до определения метрик качества — к конкретным требованиям поставленной задачи, что обеспечивает более надежное соответствие результатов ожиданиям пользователей и повышает общую управляемость моделей.

В основе подхода FIRM лежит убеждение, что мощь генеративных моделей не имеет значения без надежного соответствия человеческим ожиданиям. Вместо того чтобы полагаться исключительно на увеличение масштаба моделей, данная структура акцентирует внимание на тщательном контроле качества обучающих данных и формировании точных сигналов вознаграждения. Это позволяет создать системы, способные не просто генерировать контент, но и делать это в соответствии с нюансами человеческих предпочтений, обеспечивая стабильные и предсказуемые результаты в задачах редактирования и генерации изображений. Подобный акцент на данных и вознаграждениях позволяет существенно повысить надежность и управляемость моделей, делая их более полезными и безопасными для практического применения.

Конвейеры обработки данных FIRM включают в себя инновационный подход «сначала разница» (FIRM-Edit) и парадигму «планирование-оценка» (FIRM-Gen), значительно повышающую точность оценки результатов.

Основа Данных: Конвейеры для Редактирования и Генерации

В основе работы FIRM-Edit Pipeline лежит методика анализа различий между изображениями (“difference-first”), позволяющая создавать целевой обучающий набор данных. Этот подход предполагает детальное выявление и структурирование изменений, внесенных в исходные изображения, что обеспечивает высокую точность при обучении моделей редактирования. Анализ проводится на уровне пикселей и семантических признаков, что позволяет выделить наиболее релевантные области для обучения и оптимизировать процесс редактирования изображений. Полученный набор данных, FIRM-Edit-370K, содержит размеченные пары “оригинальное изображение — отредактированное изображение”, что делает его эффективным для обучения моделей, способных выполнять сложные операции редактирования с высокой степенью детализации.

В рамках FIRM-Gen Pipeline применяется методология “планирование-затем-оценка”, направленная на повышение точности генерации изображений по текстовому описанию. Данный подход предполагает предварительное формирование плана генерации на основе входного текста, после чего полученное изображение оценивается по ряду критериев. Оценка, в свою очередь, используется для корректировки процесса генерации и улучшения качества конечного результата. Такая последовательность действий позволяет более эффективно управлять процессом создания изображения и добиваться большей соответствия между текстом и сгенерированным визуальным контентом.

В рамках разработки системы FIRM созданы два высококачественных набора данных: FIRM-Edit-370K, содержащий 370 тысяч пар изображений, и FIRM-Gen-293K, насчитывающий 293 тысячи изображений. Эти наборы данных критически важны для обучения надежных моделей вознаграждения (reward models), используемых в процессе редактирования и генерации изображений. Наборы данных были сформированы с использованием специализированных конвейеров обработки, обеспечивающих высокую точность и релевантность данных для обучения моделей.

В состав конвейера FIRM-Gen входит интеграция модели Qwen3-VL-235B-A22B, обеспечивающая структурированную аналитическую оценку генерируемых данных. Данная модель выполняет анализ и присваивает оценки изображениям на основе заданных критериев, что позволяет отфильтровать низкокачественные образцы и повысить общую достоверность и релевантность обучающего набора данных FIRM-Gen-293K. Использование Qwen3-VL-235B-A22B позволяет автоматизировать процесс оценки, снижая потребность в ручной проверке и повышая эффективность создания высококачественных данных для обучения моделей генерации изображений.

Использование FIRM-Gen-8B в качестве модели вознаграждения в процессе обучения с подкреплением позволяет добиться более качественной генерации изображений по текстовому описанию по сравнению с другими методами.

Обучение Моделей Вознаграждения и Генеративных Моделей

Для обучения моделей вознаграждения FIRM-Edit-8B и FIRM-Gen-8B использовались специально подготовленные наборы данных. В качестве отправной точки и для ускорения процесса обучения применялась предобученная модель Qwen3-VL-8B, которая затем подверглась тонкой настройке (fine-tuning) на этих данных. Этот подход позволяет эффективно адаптировать базовую модель к задачам оценки качества редактирования изображений и генерации изображений по текстовому описанию, формируя основу для последующей оптимизации генеративных моделей.

Обученные модели вознаграждения используются для управления двумя различными генеративными моделями: FIRM-Qwen-Edit, предназначенной для редактирования изображений, и FIRM-SD3.5, которая генерирует изображения по текстовому описанию. Модель FIRM-Qwen-Edit использует архитектуру Qwen, а FIRM-SD3.5 построена на базе SD3.5, что позволяет каждой модели оптимизировать процесс генерации и редактирования изображений в соответствии с критериями, заданными моделью вознаграждения.

Оптимизация генеративных моделей, таких как FIRM-Qwen-Edit и FIRM-SD3.5, осуществляется посредством онлайн-обучения с подкреплением, реализованного через платформу DiffusionNFT. Данный подход позволяет непрерывно совершенствовать модели в процессе их эксплуатации, адаптируя их к изменяющимся требованиям и предпочтениям пользователей. DiffusionNFT обеспечивает возможность корректировки параметров моделей на основе получаемых сигналов обратной связи, что приводит к повышению производительности и улучшению соответствия с целевыми результатами. В отличие от традиционного обучения, которое требует предварительно собранного набора данных, онлайн-обучение позволяет моделям учиться непосредственно в процессе взаимодействия с пользователями, обеспечивая более гибкий и эффективный процесс оптимизации.

Обученные модели продемонстрировали улучшенные результаты в задачах редактирования и генерации изображений. На тестовом наборе FIRM-Bench-Edit (Execution) достигнута средняя абсолютная ошибка (MAE) в 0.53, а на FIRM-Bench-Gen — 0.51. Эти показатели превосходят результаты, полученные моделью GPT-5, а также другие открытые аналоги, что подтверждает эффективность предложенного подхода к обучению и оптимизации моделей генерации и редактирования изображений.

Результаты тестирования на FIRM-Bench демонстрируют, что наши модели вознаграждения лучше соответствуют человеческим оценкам, чем Qwen3-VL-8B и Qwen3-VL-32B.

Подтверждение Эффективности: FIRM-Bench и Соответствие Человеческим Предпочтениям

Для обеспечения объективной оценки моделей вознаграждения разработан FIRM-Bench — стандартизированный набор инструментов, позволяющий точно измерить способность этих моделей ранжировать и оценивать сгенерированный контент. Этот комплексный подход включает в себя разнообразные запросы и соответствующие предпочтения пользователей, создавая надежную основу для сравнения различных моделей. В рамках FIRM-Bench оценивается не просто соответствие сгенерированного текста заданным критериям, но и степень его соответствия субъективным ожиданиям человека, что критически важно для создания действительно полезных и привлекательных приложений на основе генеративного искусственного интеллекта. Точность ранжирования и оценки, демонстрируемая моделями в ходе тестирования на FIRM-Bench, является ключевым показателем их способности эффективно взаимодействовать с пользователями и предоставлять результаты, соответствующие их запросам и предпочтениям.

Оценка с использованием FIRM-Bench, в сочетании с показателями соответствия предпочтениям человека, продемонстрировала значительное превосходство обученных моделей над предыдущими подходами. Проведенные исследования выявили, что предложенная методика позволяет более точно оценивать качество генерируемого контента, приближая его к субъективным критериям, предъявляемым человеком. В результате, модели, прошедшие обучение с использованием FIRM-Bench, демонстрируют улучшенное ранжирование и оценку сгенерированных текстов и изображений, что подтверждается количественными показателями и экспертными оценками. Данное превосходство указывает на эффективность предложенного фреймворка в согласовании автоматизированных сигналов вознаграждения с более сложными и нюансированными человеческими ожиданиями.

В ходе проведенных тестов модель FIRM-Qwen-Edit продемонстрировала передовые результаты, установив новый рекорд в 7.84 балла по шкале GEditBench, что свидетельствует о значительном улучшении в задачах редактирования текста. Параллельно, модель FIRM-SD3.5 показала конкурентоспособный результат в 0.77 по метрике GenEval, подтверждая её эффективность в задачах генерации контента. Эти достижения подчеркивают способность разработанного подхода к созданию моделей, способных генерировать и редактировать текст на качественно новом уровне, приближаясь к стандартам, заданным человеком.

Полученные результаты наглядно демонстрируют эффективность разработанного фреймворка FIRM в преодолении разрыва между автоматизированными сигналами вознаграждения и сложными человеческими ожиданиями. Данная система позволяет более точно сопоставлять машинную оценку контента с субъективным восприятием качества человеком, что является ключевым шагом к созданию действительно полезных и интуитивно понятных искусственных интеллектов. Успешное применение FIRM подтверждает возможность обучения моделей, способных генерировать контент, соответствующий не только формальным критериям, но и тонким нюансам человеческого вкуса и предпочтений, открывая новые перспективы для развития технологий генерации контента.

Сравнение графиков вознаграждения показывает, что стратегии, ориентированные на согласованность и исполнение, демонстрируют различную динамику обучения при использовании исходных функций вознаграждения.

Наблюдатель видит, как очередная «революционная» технология, в данном случае — применение обучения с подкреплением к диффузионным моделям, неизбежно обретает черты технического долга. Авторы предлагают FIRM — фреймворк для обучения надежных моделей вознаграждения, стремясь обуздать хаос генерации изображений. Но, как показывает опыт, даже самые элегантные теоретические построения сталкиваются с суровой реальностью продакшена. Дэвид Марр однажды заметил: «Искусственный интеллект — это не создание машин, которые думают, а создание машин, которые заставляют нас думать». И в этом исследовании, как и во многих других, задача смещается с автоматизации мышления на автоматизацию процесса принятия решений, где вознаграждение — лишь один из факторов, а истинный контроль всегда остается за человеком.

Что дальше?

Представленный каркас FIRM, безусловно, ещё один шаг в бесконечной гонке за иллюзией «разумного» редактирования изображений. Заманчиво полагаться на обучение с подкреплением и сложные модели вознаграждения, но не стоит забывать, что вся эта конструкция неизбежно упрётся в проблему субъективности. В конце концов, «красота» и «соответствие тексту» — понятия расплывчатые, и рано или поздно система начнёт оптимизировать под прихоти конкретных аннотаторов. И тогда, несомненно, это назовут «персонализированным AI» и получат очередную волну инвестиций.

Очевидно, что текущая архитектура требует значительных вычислительных ресурсов. Будущие исследования, вероятно, сосредоточатся на уменьшении размера моделей и повышении эффективности обучения, возможно, за счёт ещё большего упрощения функции вознаграждения. Не стоит забывать, что сложная система когда-то была простым bash-скриптом, и, возможно, ключ к успеху лежит в возвращении к основам. Впрочем, кто вспомнит об этом, когда впереди маячит возможность публикации в топовой конференции?

Вероятно, в ближайшем будущем появятся попытки обобщить FIRM для работы с другими модальностями данных — видео, аудио, 3D-моделями. Но, как показывает опыт, каждая новая модальность принесёт с собой новые проблемы и ограничения. Документация снова соврет, и начнётся бесконечная отладка. Впрочем, это лишь неизбежная плата за прогресс — или, скорее, за иллюзию прогресса.

Оригинал статьи: https://arxiv.org/pdf/2603.12247.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-14 19:09

🚀 Квантовые новости