Искусство видеть: Открытая модель для генерации изображений по тексту

Автор: Денис Аветисян


Новая модель i1 демонстрирует впечатляющие результаты в создании изображений на основе текстовых запросов, делая передовые технологии доступными для всех.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Figure 4:High-level illustration of our final i1 model. Rather than introducing major new network modules,i1combines carefully selected modeling and data design choices into a simple and strong text-to-image model.
Figure 4:High-level illustration of our final i1 model. Rather than introducing major new network modules,i1combines carefully selected modeling and data design choices into a simple and strong text-to-image model.

Исследование представляет 3B-параметровую модель диффузии i1, достигающую передовых результатов среди полностью открытых моделей благодаря тщательному выбору архитектуры и стратегии балансировки данных.

Несмотря на значительный прогресс в генерации изображений по текстовому описанию, установить вклад конкретных архитектурных решений и наборов данных в достигнутые результаты представляется сложной задачей. В данной работе, представленной под названием ‘i1: A Simple and Fully Open Recipe for Strong Text-to-Image Models’, авторы проводят систематическое исследование влияния различных факторов на качество моделей диффузии, проведя более 300 контролируемых экспериментов. Результатом стала модель i1 — 3-параметровая система, демонстрирующая конкурентоспособные результаты на пяти ключевых бенчмарках и превосходящая лучшие открытые модели на 29.5 процентных пункта. Сможет ли представленный открытый рецепт i1 стать надежной основой для дальнейших исследований и разработки доступных генеративных моделей?


Эстетика Открытых Моделей: Новый Вызов в Генерации Изображений

Сфера генерации изображений по текстовому описанию переживает стремительное развитие, обусловленное такими моделями, как диффузионные модели. Однако, несмотря на впечатляющие результаты, широкая доступность этих технологий остаётся проблемой. Сложность воспроизведения и модификации сложных моделей, а также высокие вычислительные требования, препятствуют участию исследователей и разработчиков, не имеющих доступа к значительным ресурсам. Это создает барьер для инноваций и замедляет прогресс в области, ограничивая возможности для экспериментов и адаптации моделей к специфическим задачам и потребностям. Поэтому, преодоление этих ограничений и обеспечение более широкого доступа к технологиям генерации изображений является ключевым направлением для дальнейшего развития этой перспективной области.

Полностью открытые модели, предоставляющие публичный доступ к весам, данным и коду, играют ключевую роль в демократизации исследований и разработок в области генерации изображений. Однако, несмотря на их важность для стимулирования инноваций и обеспечения прозрачности, производительность таких моделей зачастую уступает закрытым аналогам. Этот разрыв в эффективности связан с ограниченностью ресурсов и сложностью воспроизведения результатов, требуя от исследователей разработки новых архитектур и стратегий обучения, способных раскрыть весь потенциал открытых подходов и обеспечить их конкурентоспособность. Доступность исходного кода и данных позволяет сообществу совместно решать возникающие проблемы и ускорять прогресс, что в конечном итоге способствует более широкому распространению и применению передовых технологий генерации изображений.

Существующий разрыв в производительности между открытыми и закрытыми моделями генерации изображений требует поиска новых архитектурных решений и стратегий обучения. Исследователи активно изучают возможности повышения эффективности открытых моделей за счет оптимизации существующих алгоритмов диффузии, разработки инновационных блоков внимания и использования более эффективных методов масштабирования. Особое внимание уделяется техникам обучения с самоконтролем и дистилляции знаний, позволяющим переносить навыки от крупных, закрытых моделей к их открытым аналогам. Помимо этого, перспективным направлением является разработка специализированных архитектур, оптимизированных для работы с ограниченными вычислительными ресурсами, что позволит расширить доступ к передовым технологиям генерации изображений и стимулировать дальнейшие исследования в данной области.

Figure 1:We investigate the design space of text-to-image diffusion models to understand how modeling and data choices affect model capabilities. This exploration culminates ini1, a 3B-parameter model that performs competitively with leading models at 1024-resolution, as measured by the average percentage score across GenEval, DPG-Bench, PRISM, CVTG-2K, and LongText-Bench. We open-source our model, code, and data to support future research.
Figure 1:We investigate the design space of text-to-image diffusion models to understand how modeling and data choices affect model capabilities. This exploration culminates ini1, a 3B-parameter model that performs competitively with leading models at 1024-resolution, as measured by the average percentage score across GenEval, DPG-Bench, PRISM, CVTG-2K, and LongText-Bench. We open-source our model, code, and data to support future research.

i1: Архитектура и Философия Обучения

Модель i1 представляет собой диффузионную модель для генерации изображений по текстовому описанию, содержащую 3 миллиарда параметров. В её архитектуре используется Dual-Stream MMDiT, позволяющий эффективно обрабатывать текстовую информацию посредством механизма Cross-Attention. Данный подход позволяет модели устанавливать связи между текстовыми входными данными и генерируемым изображением, фокусируясь на релевантных частях текста при создании деталей изображения. Использование Dual-Stream MMDiT обеспечивает более точное соответствие между текстом и визуальным результатом, повышая качество и реалистичность генерируемых изображений.

The model utilizes Flow Matching as its training objective and incorporates Long Skip Connections to improve performance and stability.

To enhance image quality and detail, i1 leverages the FLUX.2 VAE and incorporates techniques like Equal Weighting during training, ensuring a balanced learning process.

В процессе обучения модель i1 использует синтетические подписи к изображениям, сгенерированные большой мультимодальной моделью Qwen3-VL-30B-A3B. Данный подход позволяет значительно увеличить объем обучающих данных, компенсируя ограниченность размеченных данных для задач преобразования текста в изображения. Использование синтетических подписей способствует улучшению обобщающей способности модели i1, позволяя ей более эффективно генерировать изображения по различным текстовым запросам и демонстрировать повышенную устойчивость к незнакомым входным данным.

Figure 21:The architecture of our final i1 model. Building on an MMDiT backbone, we use a large text encoder adapter consisting of 2 transformer blocks, remove noise-conditioning (i.e., AdaLN), add long skip connections, combine both sinusoidal and RoPE positional embeddings, and share sandwich normalizations across text and image streams.
Figure 21:The architecture of our final i1 model. Building on an MMDiT backbone, we use a large text encoder adapter consisting of 2 transformer blocks, remove noise-conditioning (i.e., AdaLN), add long skip connections, combine both sinusoidal and RoPE positional embeddings, and share sandwich normalizations across text and image streams.

Проверка Производительности: Оценка Возможностей i1

Модель i1 демонстрирует передовые результаты среди полностью открытых моделей, что подтверждается высокими показателями на стандартных бенчмарках, включая GenEval, DPG-Bench и PRISM-Bench. В ходе тестирования i1 превзошла другие открытые модели по совокупности метрик, оценивающих качество генерируемого текста и изображений. Результаты бенчмарков свидетельствуют о способности i1 эффективно решать широкий спектр задач, связанных с генерацией контента, и обеспечивают количественную оценку ее производительности в сравнении с существующими аналогами.

Specifically, i1 demonstrates state-of-the-art performance on DPG-Bench, PRISM-Bench, and LongText-Bench, outperforming several leading weight-only models.

Модель i1 демонстрирует высокую устойчивость при рендеринге текста, что подтверждается результатами на бенчмарках CVTG-2K и LongText-Bench. В ходе тестирования на CVTG-2K, состоящем из 2000 изображений с текстовыми вставками, i1 показала способность точно и разборчиво воспроизводить текст различной сложности и стилей. Результаты на LongText-Bench, ориентированном на оценку работы с длинными текстовыми фрагментами, указывают на эффективность модели в обработке и отображении больших объемов текстовой информации без значительной потери качества или возникновения артефактов. Эти показатели свидетельствуют о надежности i1 при генерации изображений, содержащих текст.

Производительность модели i1 дополнительно улучшается за счет использования техник, таких как Rescale CFG (Classifier-Free Guidance). Rescale CFG позволяет повысить качество генерируемых изображений на этапе инференса, регулируя степень влияния классификатора на процесс генерации. В частности, данный метод позволяет добиться более четких и детализированных изображений, а также улучшить соответствие генерируемого контента заданным условиям и запросам, без необходимости использования дополнительных параметров или слоев в архитектуре модели.

Обучение i1 на разрешении 512 значительно улучшает его производительность в PRISM и LongText, даже без использования данных для рендеринга текста.
Обучение i1 на разрешении 512 значительно улучшает его производительность в PRISM и LongText, даже без использования данных для рендеринга текста.

Архитектурные Улучшения: Повышение Эффективности и Стабильности i1

В архитектуре i1 используется двухпоточный (Dual-Stream) блок MMDiT, который для кодирования позиционной информации применяет RoPE (Rotary Positional Embeddings). RoPE обеспечивает эффективное представление относительных позиций токенов, что особенно важно для обработки длинных последовательностей. Для улучшения потока данных и стабилизации обучения, в MMDiT блоке также реализована Sandwich Normalization — метод нормализации, который применяется как до, так и после слоя внимания, способствуя более эффективному распространению градиентов и предотвращая проблемы с затуханием или взрывом градиентов во время обучения.

Модель i1 достигает баланса между вычислительной эффективностью и производительностью благодаря использованию архитектурных компонентов, таких как RoPE для позиционных встраиваний и Sandwich Normalization. Эти решения позволяют оптимизировать поток данных и снизить вычислительные затраты без существенной потери в качестве генерируемых результатов. В частности, RoPE обеспечивает эффективную обработку последовательностей различной длины, а Sandwich Normalization способствует стабильности обучения и улучшению обобщающей способности модели, что критически важно для практического применения в задачах обработки естественного языка.

Модель i1 имеет размер 3 миллиарда параметров, что значительно меньше, чем у многих современных крупных языковых моделей. Несмотря на меньший размер, i1 демонстрирует сопоставимую производительность в различных задачах, что указывает на эффективность используемой архитектуры и методов обучения. Это позволяет развертывать i1 на менее ресурсоемком оборудовании, делая его более доступным для широкого круга пользователей и приложений, где ограничения по вычислительным ресурсам являются критическими.

Архитектурные решения, включающие в себя использование RoPE, Sandwich Normalization и относительно небольшое количество параметров (3B), в сочетании с применяемой методикой обучения, направлены на создание модели i1, ориентированной на практическое применение и развертывание. Данный подход позволяет добиться конкурентоспособной производительности при ограниченных вычислительных ресурсах, что делает i1 подходящим для широкого спектра задач и сценариев, где важна эффективность и возможность масштабирования. Акцент на развертываемости подчеркивает стремление разработчиков к созданию ИИ, доступного для реального использования, а не только для исследовательских целей.

Сочетание позиционных вложений обеспечивает превосходную производительность по сравнению с использованием только синусоидальных вложений или только RoPE вложений для семейств архитектур с перекрестным вниманием и двойным потоком.
Сочетание позиционных вложений обеспечивает превосходную производительность по сравнению с использованием только синусоидальных вложений или только RoPE вложений для семейств архитектур с перекрестным вниманием и двойным потоком.

Будущее Открытого ИИ: Демократизация Создания Изображений

i1, trained on 4.4M images from ImageNet-22K, represents a significant step towards democratizing access to high-quality text-to-image generation technology.

Открытый доступ к весам модели i1 создает уникальные возможности для совместной работы в научном сообществе. В отличие от закрытых систем, где исследования ограничены внутренними ресурсами разработчиков, i1 позволяет любому специалисту изучать, модифицировать и улучшать алгоритмы генерации изображений. Это стимулирует появление новых идей, ускоряет процесс отладки и оптимизации, а также способствует распространению инноваций в области искусственного интеллекта. Благодаря коллективному интеллекту и обмену опытом, развитие технологий генерации изображений становится более динамичным и эффективным, открывая путь к созданию принципиально новых приложений и сервисов.

Модель i1 предоставляет исследователям и разработчикам мощную и доступную основу для создания инновационных приложений, открывая новые горизонты в области искусственного интеллекта и творчества. Благодаря своей архитектуре и обучению на обширном наборе данных, i1 позволяет создавать изображения из текстовых описаний с высоким качеством и детализацией. Это, в свою очередь, стимулирует разработку широкого спектра приложений, от автоматизированного создания контента и дизайна до инструментов для образования и научных исследований. Возможность свободно использовать и модифицировать модель i1 способствует быстрому обмену знаниями и ускоряет прогресс в области генеративного искусственного интеллекта, давая толчок для появления новых, ранее невообразимых творческих решений.

Обучение на ImageNet-22K и YFCC обеспечивает наилучшие результаты, в то время как iNaturalist демонстрирует худшую производительность, при этом для качественной отрисовки текста необходимы специализированные датасеты, насыщенные текстовой информацией, такие как TextAtlas, а уменьшение размера большинства датасетов до 1 миллиона экземпляров практически не влияет на общую производительность.
Обучение на ImageNet-22K и YFCC обеспечивает наилучшие результаты, в то время как iNaturalist демонстрирует худшую производительность, при этом для качественной отрисовки текста необходимы специализированные датасеты, насыщенные текстовой информацией, такие как TextAtlas, а уменьшение размера большинства датасетов до 1 миллиона экземпляров практически не влияет на общую производительность.

Представленная работа демонстрирует элегантность подхода к созданию диффузионных моделей преобразования текста в изображение. Акцент на доступности и воспроизводимости, в сочетании с оптимизацией архитектуры и балансировкой данных, подчеркивает глубокое понимание принципов масштабируемости. Как заметил Ян Лекун: «Машинное обучение — это наука об алгоритмах и моделях, которые учатся на данных». В данном исследовании этот принцип реализован через тщательный выбор данных и архитектуры i1, что позволило достичь передовых результатов среди полностью открытых моделей, подтверждая, что красота, в данном случае — эффективность и доступность, действительно масштабируется, а беспорядок — нет.

Что дальше?

Представленная работа, несмотря на элегантность реализации и достигнутые результаты, лишь слегка приоткрывает завесу над истинной сложностью задачи генерации изображений по текстовому описанию. Достижение «состояния искусства» среди полностью открытых моделей — это, конечно, похвально, но истинный прогресс заключается не в превосходстве над другими, а в понимании фундаментальных ограничений. Очевидно, что балансировка данных и архитектурные решения играют ключевую роль, однако вопрос о том, как эффективно преодолеть «узкие места» в восприятии сложных, многослойных запросов, остается открытым.

Дальнейшее развитие неминуемо связано с поиском новых способов представления и обработки контекста. Простое увеличение размера модели — это путь грубой силы, лишенный изящества. Гораздо более интересным представляется исследование методов, позволяющих модели «понимать» не только слова, но и их взаимосвязи, намерения, и даже подтекст. Особое внимание следует уделить разработке метрик оценки, способных уловить нюансы эстетики и семантической точности, а не просто измерять статистические показатели.

В конечном итоге, задача состоит не в том, чтобы создать машину, способную рисовать картинки, а в том, чтобы создать инструмент, расширяющий границы человеческого воображения. И это требует не только технических инноваций, но и философского осмысления самой природы творчества. Успех не измеряется количеством сгенерированных изображений, а их способностью вызывать у зрителя ощущение гармонии и красоты.


Оригинал статьи: https://arxiv.org/pdf/2606.11289.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-11 09:11