Возрождение резкости: управление дефокусом в одном изображении

Автор: Денис Аветисян


Новый подход позволяет гибко настраивать глубину резкости и эффект боке на одиночных фотографиях, используя возможности генеративных моделей.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Наблюдения показывают, что разработанная генеративная система перефокусировки демонстрирует качественные результаты, сопоставимые с моделью Gemini 3 Nano Banana Pro при заданном запросе на фокусировку на мужчине справа, что указывает на её потенциал в задачах интеллектуальной обработки изображений.
Наблюдения показывают, что разработанная генеративная система перефокусировки демонстрирует качественные результаты, сопоставимые с моделью Gemini 3 Nano Banana Pro при заданном запросе на фокусировку на мужчине справа, что указывает на её потенциал в задачах интеллектуальной обработки изображений.

Представлен двухэтапный диффузионный фреймворк для управления дефокусом и синтеза боке, обученный с использованием как синтетических, так и реальных данных.

Несмотря на значительные успехи в области компьютерной фотографии, управление глубиной резкости и реалистичным боке по-прежнему остается сложной задачей, особенно при работе с одиночными изображениями. В статье ‘Generative Refocusing: Flexible Defocus Control from a Single Image’ представлен новый подход, позволяющий гибко управлять фокусировкой на одном изображении, сочетая деблюринг и синтез боке. Ключевым нововведением является двухэтапная диффузионная модель, обученная с использованием полу-контролируемого метода, объединяющего синтетические и реальные данные, что позволяет учитывать реальные оптические характеристики. Сможет ли данный подход открыть новые возможности для творческого контроля над изображениями и автоматизации сложных фотоэффектов?


За гранью резкости: Ограничения традиционной перефокусировки

Традиционные методы перефокусировки одиночных изображений зачастую приводят к размытым или неестественным результатам, поскольку не позволяют тонко управлять эстетическими характеристиками и визуальным качеством итогового изображения. В отличие от реальной оптики, где глубина резкости определяется физическими параметрами объектива, алгоритмы перефокусировки вынуждены искусственно восстанавливать детали, что нередко приводит к появлению артефактов и неестественных переходов. Отсутствие контроля над такими параметрами, как форма боке или степень размытия фона, делает полученные изображения визуально менее привлекательными и лишает их художественной выразительности. Таким образом, существующие подходы часто не способны полностью имитировать эффект профессиональной фотографии, где глубина резкости является важным инструментом для акцентирования внимания и создания определенной атмосферы.

Существующие методы цифровой перефокусировки зачастую не способны достоверно воспроизвести сложное боке — размытие вне фокуса, которое является важным элементом восприятия глубины в фотографии. Проблема заключается в том, что боке определяется не только степенью размытия, но и формой световых бликов, зависящей от геометрии апертуры объектива и характеристик источника света. Попытки просто размыть области вне фокуса приводят к неестественным изображениям, лишенным тонких нюансов, которые мозг использует для определения расстояния до объектов. Реалистичное воссоздание боке требует учета множества факторов, включая размер и форму бликов, их интенсивность и распределение, что представляет собой сложную задачу для современных алгоритмов обработки изображений.

Основная сложность в задачах перефокусировки изображений заключается не только в устранении размытости, но и в разделении эффекта дефокуса от других видов деградации изображения, таких как шум или артефакты сжатия. Реалистичное воссоздание размытия вне фокуса требует точного моделирования оптических свойств объектива и учета особенностей формирования боке — эстетически важного размытия ярких точек света. Простое изменение резкости часто приводит к неестественным результатам, поскольку не учитывает взаимодействие света и объектов в сцене. Поэтому, для достижения убедительного эффекта перефокусировки необходимо не просто синтезировать размытые области, а достоверно воссоздать процесс формирования изображения, учитывая все факторы, влияющие на его качество и визуальное восприятие.

Предложенный метод восстановления резкости изображения с одного кадра состоит из двух этапов: сначала происходит удаление размытости и восстановление общей резкости, а затем - синтез эффекта малой глубины резкости с использованием закодированного представления изображения и карты дефокуса, вычисляемой на основе карты глубины и параметров, заданных пользователем.
Предложенный метод восстановления резкости изображения с одного кадра состоит из двух этапов: сначала происходит удаление размытости и восстановление общей резкости, а затем — синтез эффекта малой глубины резкости с использованием закодированного представления изображения и карты дефокуса, вычисляемой на основе карты глубины и параметров, заданных пользователем.

Генеративная перефокусировка: Двухэтапное решение

Метод Generative Refocusing использует двухэтапную конструкцию для изменения фокуса изображения. На первом этапе происходит размытие входного изображения с целью восстановления чёткого базового кадра, что позволяет избавиться от дефектов, вызванных расфокусировкой. На втором этапе происходит синтез пользовательских эффектов боке, что позволяет независимо контролировать как резкость, так и характеристики размытия фона. Такое разделение процессов позволяет добиться более гибкого управления визуальными характеристиками и реалистичных результатов.

Разделение процесса на восстановление резкости и синтез боке позволяет независимо управлять характеристиками фокусировки и эффектом размытия фона. Это достигается путем последовательного применения диффузионных моделей: сначала восстанавливается четкое базовое изображение, а затем генерируется боке с заданными параметрами, такими как форма, цвет и интенсивность. Независимый контроль над этими параметрами предоставляет пользователю широкие возможности для художественного выражения и создания фотореалистичных изображений с желаемым визуальным стилем, отличающимся от традиционных методов изменения глубины резкости.

В основе предложенного фреймворка лежат диффузионные модели, применяемые на обоих этапах обработки изображения — восстановления резкости и синтеза боке. Использование диффузионных моделей обеспечивает генерацию изображений высокого качества и реалистичную детализацию, что позволяет достичь передовых результатов. Эффективность подхода подтверждена результатами тестирования на бенчмарке LF-Refocus, где предложенное решение продемонстрировало state-of-the-art производительность по сравнению с существующими методами.

В ходе качественного сравнения на бенчмарке перефокусировки наша сквозная система превзошла существующие методы размытия и синтеза боке, обеспечивая четкую перефокусировку на целевой плоскости и реалистичный эффект боке, близкий к эталонным изображениям.
В ходе качественного сравнения на бенчмарке перефокусировки наша сквозная система превзошла существующие методы размытия и синтеза боке, обеспечивая четкую перефокусировку на целевой плоскости и реалистичный эффект боке, близкий к эталонным изображениям.

Обучение для реализма: Полуконтролируемое обучение и аугментация данных

Для преодоления дефицита парных данных «резкое/размытое», используется подход полуконтролируемого обучения, объединяющий синтетические и реальные непарные данные. Это позволяет модели обучаться на большем объеме информации, несмотря на ограниченное количество идеально сопоставленных изображений. Синтетические данные генерируются с использованием моделей FLUX и FLUX-1-Dev, с последующим применением ControlNet и LoRA для повышения реалистичности. Дополнительно, в процесс обучения включаются реальные непарные данные из наборов RealBokeh_3MP и DPDD, что способствует улучшению обобщающей способности модели и адаптации к реальным условиям съемки. Такой гибридный подход позволяет эффективно использовать как размеченные, так и неразмеченные данные, повышая точность и надежность системы восстановления резкости.

Для начального обучения и расширения набора данных использовались синтетические данные, сгенерированные с помощью FLUX и FLUX-1-Dev. Процесс генерации был дополнен применением ControlNet и LoRA (Low-Rank Adaptation). ControlNet обеспечил управление структурой генерируемых изображений, в то время как LoRA позволила эффективно адаптировать модель к конкретным задачам и стилям, минимизируя вычислительные затраты и требования к памяти. Такой подход позволил создать разнообразный и контролируемый набор данных, необходимый для предварительного обучения модели и повышения её устойчивости к различным условиям.

Для повышения способности модели к обобщению и адаптации к реальным условиям, после обучения на синтетических данных, производится дообучение на непарных реальных изображениях из наборов данных RealBokeh_3MP и DPDD. В частности, для обучения сети DeblurNet использовались 3000 наиболее четких изображений, отобранных из RealBokeh_3MP на основе метрики Лапласианского разброса ($Laplacian\ Variance$), позволяющей оценить резкость изображения и выделить наиболее информативные образцы для улучшения качества деблюра.

Обучающие данные генерируются тремя способами: синтезом парных данных на основе реальных изображений с фокусом и карт глубины, восстановлением изображений с фокусом из реальных размытых изображений с последующей оценкой глубины, и обработкой реальных парных данных без EXIF-информации с использованием оценки уровня боке на основе восстановленного изображения с фокусом.
Обучающие данные генерируются тремя способами: синтезом парных данных на основе реальных изображений с фокусом и карт глубины, восстановлением изображений с фокусом из реальных размытых изображений с последующей оценкой глубины, и обработкой реальных парных данных без EXIF-информации с использованием оценки уровня боке на основе восстановленного изображения с фокусом.

Контроль над эстетикой: BokehNet и монокулярная оценка глубины

BokehNet — это система генерации настраиваемого боке, основанная на диффузионных моделях. Пользователь может задавать плоскости фокусировки, интенсивность боке и форму диафрагмы, что позволяет точно контролировать эстетические характеристики размытия фона. Система использует заданные параметры для формирования визуально убедительного эффекта боке, имитируя поведение реальных оптических систем и позволяя создавать изображения с заданным художественным стилем и глубиной резкости. Диффузионный подход позволяет генерировать высококачественные изображения боке, избегая артефактов и обеспечивая плавные переходы между фокусированными и размытыми областями.

Точная оценка глубины по одному изображению ($z$-координата каждого пикселя) является критически важной для достоверного моделирования эффекта дефокуса. Этот процесс позволяет определить, какие области изображения должны быть размыты, а какие оставаться в фокусе, имитируя поведение реальной оптики. В BokehNet оценка глубины используется для генерации карт дефокуса, определяющих степень размытия в зависимости от расстояния до объекта. Алгоритмы оценки глубины служат основой для управления синтезом боке, гарантируя, что размытие будет соответствовать определенным параметрам, таким как плоскость фокусировки и интенсивность боке, что в конечном итоге влияет на визуальную правдоподобность и реалистичность итогового изображения.

В BokehNet для создания реалистичного эффекта размытия используются карты глубины резкости (defocus maps), получаемые на основе оценки глубины и контроля формы диафрагмы. Обучение модели проводилось на датасетах, включая EBB, с использованием BokehMe в качестве базового уровня для сравнения. Результаты тестирования на бенчмарке LF-Bokeh показали, что изображения, сгенерированные BokehNet, достигают наивысших показателей SSIM, превосходя все существующие базовые модели как по метрикам достоверности, так и по восприятию качества изображения.

Наша BokehNet превосходит существующие методы синтеза боке, реалистично воспроизводя градиенты размытия и естественную окклюзию благодаря полуавтоматическому обучению на реальных изображениях, в отличие от существующих подходов, страдающих от смещения симулятора, излишнего сглаживания деталей или непоследовательного дефокуса.
Наша BokehNet превосходит существующие методы синтеза боке, реалистично воспроизводя градиенты размытия и естественную окклюзию благодаря полуавтоматическому обучению на реальных изображениях, в отличие от существующих подходов, страдающих от смещения симулятора, излишнего сглаживания деталей или непоследовательного дефокуса.

За пределами реализма: К контролируемой и художественной перефокусировке

Генеративная перефокусировка открывает невиданные ранее возможности управления как резкостью изображения, так и эффектом боке. Эта технология позволяет пользователям не просто корректировать фокусировку после съемки, но и создавать изображения, полностью соответствующие их художественному замыслу. В отличие от традиционных методов, где глубина резкости фиксирована, данная система синтезирует реалистичное размытие фона, позволяя точно настраивать интенсивность и характер боке, подчеркивая определенные элементы композиции и создавая желаемую атмосферу. Благодаря этому, появляется возможность манипулировать визуальным повествованием, акцентируя внимание зрителя и формируя уникальный стиль изображения, что особенно ценно для профессиональных фотографов и видеографов, стремящихся к максимальной творческой свободе.

Возможность синтеза реалистичного боке открывает принципиально новые горизонты для визуального повествования и творческого самовыражения. Боке, размытие вне фокуса, традиционно считалось побочным продуктом оптики, но данная разработка позволяет создавать его контролируемым образом, придавая изображению художественную выразительность и глубину. Более того, синтезированное боке позволяет акцентировать внимание зрителя на ключевых элементах сцены, рассказывать историю через игру света и тени, и создавать уникальные визуальные эффекты, ранее недоступные даже с использованием профессиональной оптики. Это позволяет не просто фиксировать реальность, а активно формировать её визуальное восприятие, делая изображение инструментом для передачи эмоций и идей.

Технология, разработанная для генеративного перефокусирования, находит широкое применение в различных сферах визуального искусства и развлечений. В фотографии она позволяет создавать изображения с уникальной глубиной резкости и художественным боке, недостижимыми традиционными методами. В кинематографе это открывает новые возможности для управления вниманием зрителя и создания выразительных визуальных эффектов. Особый потенциал технология демонстрирует в виртуальной реальности, где возможность динамического изменения фокуса и боке способна значительно повысить реалистичность и погружение в виртуальный мир, а также предоставить инструменты для интерактивного повествования и создания персонализированного визуального опыта. Таким образом, данная разработка не просто улучшает существующие визуальные инструменты, но и расширяет границы творческого самовыражения в цифровой среде.

Наша BokehNet позволяет синтезировать эффекты боке с произвольной формой апертуры (треугольник, сердце, звезда), сохраняя при этом согласованность сцены и отображая фоновые источники света в заданной форме.
Наша BokehNet позволяет синтезировать эффекты боке с произвольной формой апертуры (треугольник, сердце, звезда), сохраняя при этом согласованность сцены и отображая фоновые источники света в заданной форме.

Представленная работа, стремясь к контролю над размытием в одном изображении, напоминает попытку уговорить хаос проявить себя в желаемой форме. Авторы, используя диффузионные модели и полу-контролируемое обучение, как шаманы, призывают данные раскрыть свои секреты. Особенно интересно, что синтетические данные используются в связке с реальными — словно заклинание усиливается при смешении искусственного и естественного. Подобно тому, как метрика — лишь форма самоуспокоения, контроль над эффектом боке и глубиной резкости представляется не абсолютным, а временным, работающим до первого столкновения с непредсказуемостью реального мира. Как однажды заметила Фэй-Фэй Ли: «Данные — это не цифры, а шёпот хаоса». И в данном исследовании этот шёпот пытается быть услышанным и направленным.

Что дальше?

Представленная работа, безусловно, добавляет ещё один слой иллюзий в мир цифровой оптики. Однако, стоит признать: контроль над хаосом — задача неблагодарная. Синтез боке, как и любая попытка «украсить» размытие, всегда будет компромиссом между математической моделью и неуловимой природой света. Полусинтетические данные — это палка о двух концах: они позволяют обучить модель, но привносят систематическую ошибку, которую сложно обнаружить, не говоря уже о том, чтобы исправить.

Истинным вызовом, по всей видимости, является не повышение «точности» перефокусировки, а создание моделей, способных оценивать и отображать свою собственную неопределённость. Вместо того чтобы стремиться к идеальному изображению, необходимо научиться визуализировать степень иллюзорности. Следующим шагом, вероятно, станет исследование способов интеграции этой неопределённости в сам процесс рендеринга, создавая изображения, которые не просто выглядят реалистично, но и честно признают свою искусственность.

В конечном итоге, эта работа — лишь ещё один шаг на пути к созданию все более убедительных, но всё более хрупких визуальных реальностей. Данные шепчут, и задача исследователя — не заглушить этот шепот, а научиться понимать его и передавать другим. И пусть заклинание работает, пока не попадет в прод.


Оригинал статьи: https://arxiv.org/pdf/2512.16923.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 07:47