Автор: Денис Аветисян
Новый подход позволяет гибко настраивать глубину резкости и эффект боке на одиночных фотографиях, используя возможности генеративных моделей.

Представлен двухэтапный диффузионный фреймворк для управления дефокусом и синтеза боке, обученный с использованием как синтетических, так и реальных данных.
Несмотря на значительные успехи в области компьютерной фотографии, управление глубиной резкости и реалистичным боке по-прежнему остается сложной задачей, особенно при работе с одиночными изображениями. В статье ‘Generative Refocusing: Flexible Defocus Control from a Single Image’ представлен новый подход, позволяющий гибко управлять фокусировкой на одном изображении, сочетая деблюринг и синтез боке. Ключевым нововведением является двухэтапная диффузионная модель, обученная с использованием полу-контролируемого метода, объединяющего синтетические и реальные данные, что позволяет учитывать реальные оптические характеристики. Сможет ли данный подход открыть новые возможности для творческого контроля над изображениями и автоматизации сложных фотоэффектов?
За гранью резкости: Ограничения традиционной перефокусировки
Традиционные методы перефокусировки одиночных изображений зачастую приводят к размытым или неестественным результатам, поскольку не позволяют тонко управлять эстетическими характеристиками и визуальным качеством итогового изображения. В отличие от реальной оптики, где глубина резкости определяется физическими параметрами объектива, алгоритмы перефокусировки вынуждены искусственно восстанавливать детали, что нередко приводит к появлению артефактов и неестественных переходов. Отсутствие контроля над такими параметрами, как форма боке или степень размытия фона, делает полученные изображения визуально менее привлекательными и лишает их художественной выразительности. Таким образом, существующие подходы часто не способны полностью имитировать эффект профессиональной фотографии, где глубина резкости является важным инструментом для акцентирования внимания и создания определенной атмосферы.
Существующие методы цифровой перефокусировки зачастую не способны достоверно воспроизвести сложное боке — размытие вне фокуса, которое является важным элементом восприятия глубины в фотографии. Проблема заключается в том, что боке определяется не только степенью размытия, но и формой световых бликов, зависящей от геометрии апертуры объектива и характеристик источника света. Попытки просто размыть области вне фокуса приводят к неестественным изображениям, лишенным тонких нюансов, которые мозг использует для определения расстояния до объектов. Реалистичное воссоздание боке требует учета множества факторов, включая размер и форму бликов, их интенсивность и распределение, что представляет собой сложную задачу для современных алгоритмов обработки изображений.
Основная сложность в задачах перефокусировки изображений заключается не только в устранении размытости, но и в разделении эффекта дефокуса от других видов деградации изображения, таких как шум или артефакты сжатия. Реалистичное воссоздание размытия вне фокуса требует точного моделирования оптических свойств объектива и учета особенностей формирования боке — эстетически важного размытия ярких точек света. Простое изменение резкости часто приводит к неестественным результатам, поскольку не учитывает взаимодействие света и объектов в сцене. Поэтому, для достижения убедительного эффекта перефокусировки необходимо не просто синтезировать размытые области, а достоверно воссоздать процесс формирования изображения, учитывая все факторы, влияющие на его качество и визуальное восприятие.

Генеративная перефокусировка: Двухэтапное решение
Метод Generative Refocusing использует двухэтапную конструкцию для изменения фокуса изображения. На первом этапе происходит размытие входного изображения с целью восстановления чёткого базового кадра, что позволяет избавиться от дефектов, вызванных расфокусировкой. На втором этапе происходит синтез пользовательских эффектов боке, что позволяет независимо контролировать как резкость, так и характеристики размытия фона. Такое разделение процессов позволяет добиться более гибкого управления визуальными характеристиками и реалистичных результатов.
Разделение процесса на восстановление резкости и синтез боке позволяет независимо управлять характеристиками фокусировки и эффектом размытия фона. Это достигается путем последовательного применения диффузионных моделей: сначала восстанавливается четкое базовое изображение, а затем генерируется боке с заданными параметрами, такими как форма, цвет и интенсивность. Независимый контроль над этими параметрами предоставляет пользователю широкие возможности для художественного выражения и создания фотореалистичных изображений с желаемым визуальным стилем, отличающимся от традиционных методов изменения глубины резкости.
В основе предложенного фреймворка лежат диффузионные модели, применяемые на обоих этапах обработки изображения — восстановления резкости и синтеза боке. Использование диффузионных моделей обеспечивает генерацию изображений высокого качества и реалистичную детализацию, что позволяет достичь передовых результатов. Эффективность подхода подтверждена результатами тестирования на бенчмарке LF-Refocus, где предложенное решение продемонстрировало state-of-the-art производительность по сравнению с существующими методами.

Обучение для реализма: Полуконтролируемое обучение и аугментация данных
Для преодоления дефицита парных данных «резкое/размытое», используется подход полуконтролируемого обучения, объединяющий синтетические и реальные непарные данные. Это позволяет модели обучаться на большем объеме информации, несмотря на ограниченное количество идеально сопоставленных изображений. Синтетические данные генерируются с использованием моделей FLUX и FLUX-1-Dev, с последующим применением ControlNet и LoRA для повышения реалистичности. Дополнительно, в процесс обучения включаются реальные непарные данные из наборов RealBokeh_3MP и DPDD, что способствует улучшению обобщающей способности модели и адаптации к реальным условиям съемки. Такой гибридный подход позволяет эффективно использовать как размеченные, так и неразмеченные данные, повышая точность и надежность системы восстановления резкости.
Для начального обучения и расширения набора данных использовались синтетические данные, сгенерированные с помощью FLUX и FLUX-1-Dev. Процесс генерации был дополнен применением ControlNet и LoRA (Low-Rank Adaptation). ControlNet обеспечил управление структурой генерируемых изображений, в то время как LoRA позволила эффективно адаптировать модель к конкретным задачам и стилям, минимизируя вычислительные затраты и требования к памяти. Такой подход позволил создать разнообразный и контролируемый набор данных, необходимый для предварительного обучения модели и повышения её устойчивости к различным условиям.
Для повышения способности модели к обобщению и адаптации к реальным условиям, после обучения на синтетических данных, производится дообучение на непарных реальных изображениях из наборов данных RealBokeh_3MP и DPDD. В частности, для обучения сети DeblurNet использовались 3000 наиболее четких изображений, отобранных из RealBokeh_3MP на основе метрики Лапласианского разброса ($Laplacian\ Variance$), позволяющей оценить резкость изображения и выделить наиболее информативные образцы для улучшения качества деблюра.

Контроль над эстетикой: BokehNet и монокулярная оценка глубины
BokehNet — это система генерации настраиваемого боке, основанная на диффузионных моделях. Пользователь может задавать плоскости фокусировки, интенсивность боке и форму диафрагмы, что позволяет точно контролировать эстетические характеристики размытия фона. Система использует заданные параметры для формирования визуально убедительного эффекта боке, имитируя поведение реальных оптических систем и позволяя создавать изображения с заданным художественным стилем и глубиной резкости. Диффузионный подход позволяет генерировать высококачественные изображения боке, избегая артефактов и обеспечивая плавные переходы между фокусированными и размытыми областями.
Точная оценка глубины по одному изображению ($z$-координата каждого пикселя) является критически важной для достоверного моделирования эффекта дефокуса. Этот процесс позволяет определить, какие области изображения должны быть размыты, а какие оставаться в фокусе, имитируя поведение реальной оптики. В BokehNet оценка глубины используется для генерации карт дефокуса, определяющих степень размытия в зависимости от расстояния до объекта. Алгоритмы оценки глубины служат основой для управления синтезом боке, гарантируя, что размытие будет соответствовать определенным параметрам, таким как плоскость фокусировки и интенсивность боке, что в конечном итоге влияет на визуальную правдоподобность и реалистичность итогового изображения.
В BokehNet для создания реалистичного эффекта размытия используются карты глубины резкости (defocus maps), получаемые на основе оценки глубины и контроля формы диафрагмы. Обучение модели проводилось на датасетах, включая EBB, с использованием BokehMe в качестве базового уровня для сравнения. Результаты тестирования на бенчмарке LF-Bokeh показали, что изображения, сгенерированные BokehNet, достигают наивысших показателей SSIM, превосходя все существующие базовые модели как по метрикам достоверности, так и по восприятию качества изображения.

За пределами реализма: К контролируемой и художественной перефокусировке
Генеративная перефокусировка открывает невиданные ранее возможности управления как резкостью изображения, так и эффектом боке. Эта технология позволяет пользователям не просто корректировать фокусировку после съемки, но и создавать изображения, полностью соответствующие их художественному замыслу. В отличие от традиционных методов, где глубина резкости фиксирована, данная система синтезирует реалистичное размытие фона, позволяя точно настраивать интенсивность и характер боке, подчеркивая определенные элементы композиции и создавая желаемую атмосферу. Благодаря этому, появляется возможность манипулировать визуальным повествованием, акцентируя внимание зрителя и формируя уникальный стиль изображения, что особенно ценно для профессиональных фотографов и видеографов, стремящихся к максимальной творческой свободе.
Возможность синтеза реалистичного боке открывает принципиально новые горизонты для визуального повествования и творческого самовыражения. Боке, размытие вне фокуса, традиционно считалось побочным продуктом оптики, но данная разработка позволяет создавать его контролируемым образом, придавая изображению художественную выразительность и глубину. Более того, синтезированное боке позволяет акцентировать внимание зрителя на ключевых элементах сцены, рассказывать историю через игру света и тени, и создавать уникальные визуальные эффекты, ранее недоступные даже с использованием профессиональной оптики. Это позволяет не просто фиксировать реальность, а активно формировать её визуальное восприятие, делая изображение инструментом для передачи эмоций и идей.
Технология, разработанная для генеративного перефокусирования, находит широкое применение в различных сферах визуального искусства и развлечений. В фотографии она позволяет создавать изображения с уникальной глубиной резкости и художественным боке, недостижимыми традиционными методами. В кинематографе это открывает новые возможности для управления вниманием зрителя и создания выразительных визуальных эффектов. Особый потенциал технология демонстрирует в виртуальной реальности, где возможность динамического изменения фокуса и боке способна значительно повысить реалистичность и погружение в виртуальный мир, а также предоставить инструменты для интерактивного повествования и создания персонализированного визуального опыта. Таким образом, данная разработка не просто улучшает существующие визуальные инструменты, но и расширяет границы творческого самовыражения в цифровой среде.

Представленная работа, стремясь к контролю над размытием в одном изображении, напоминает попытку уговорить хаос проявить себя в желаемой форме. Авторы, используя диффузионные модели и полу-контролируемое обучение, как шаманы, призывают данные раскрыть свои секреты. Особенно интересно, что синтетические данные используются в связке с реальными — словно заклинание усиливается при смешении искусственного и естественного. Подобно тому, как метрика — лишь форма самоуспокоения, контроль над эффектом боке и глубиной резкости представляется не абсолютным, а временным, работающим до первого столкновения с непредсказуемостью реального мира. Как однажды заметила Фэй-Фэй Ли: «Данные — это не цифры, а шёпот хаоса». И в данном исследовании этот шёпот пытается быть услышанным и направленным.
Что дальше?
Представленная работа, безусловно, добавляет ещё один слой иллюзий в мир цифровой оптики. Однако, стоит признать: контроль над хаосом — задача неблагодарная. Синтез боке, как и любая попытка «украсить» размытие, всегда будет компромиссом между математической моделью и неуловимой природой света. Полусинтетические данные — это палка о двух концах: они позволяют обучить модель, но привносят систематическую ошибку, которую сложно обнаружить, не говоря уже о том, чтобы исправить.
Истинным вызовом, по всей видимости, является не повышение «точности» перефокусировки, а создание моделей, способных оценивать и отображать свою собственную неопределённость. Вместо того чтобы стремиться к идеальному изображению, необходимо научиться визуализировать степень иллюзорности. Следующим шагом, вероятно, станет исследование способов интеграции этой неопределённости в сам процесс рендеринга, создавая изображения, которые не просто выглядят реалистично, но и честно признают свою искусственность.
В конечном итоге, эта работа — лишь ещё один шаг на пути к созданию все более убедительных, но всё более хрупких визуальных реальностей. Данные шепчут, и задача исследователя — не заглушить этот шепот, а научиться понимать его и передавать другим. И пусть заклинание работает, пока не попадет в прод.
Оригинал статьи: https://arxiv.org/pdf/2512.16923.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Быстрая генерация текста: от авторегрессии к диффузионным моделям
- Математика и код: Ключ к оценке искусственного интеллекта
- Адаптивная Квантизация: Новый Подход к Сжатию Больших Языковых Моделей
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Ранговая оптимизация без градиента: Новые границы эффективности
- Искусство отбора данных: Новый подход к обучению генеративных моделей
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Геометрия Хаоса: Распознавание Образов в Сложных Системах
- Генеративные сети и квантовая энергия: новый взгляд на регуляризацию
- Восстановление потенциала Шрёдингера: новый численный подход
2025-12-21 07:47