Искусство эволюционирует: когда AI становится соавтором

Автор: Денис Аветисян


Новая работа исследует, как модели искусственного интеллекта, такие как Gemini, меняют процесс создания искусства, перенося акцент с непосредственной реализации на проектирование творческой системы.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Gemini выступает в роли куратора эволюционных исследований, автоматизируя и заменяя рутинные, последовательные итерации, ранее выполняемые человеком.
Gemini выступает в роли куратора эволюционных исследований, автоматизируя и заменяя рутинные, последовательные итерации, ранее выполняемые человеком.

Представлен фреймворк ‘Evolution & Foundation’, интегрирующий мультимодальную модель с генетическим алгоритмом для автоматизации эстетического отбора в эволюционном искусстве.

Создание эстетически сложных произведений искусства традиционно требует значительных усилий художника по отбору и доработке. В данной статье, озаглавленной ‘Evolution & Foundation: AI Shares Creative Control’ рассматривается новый подход к автоматизированному дизайну, объединяющий эволюционные алгоритмы с возможностями визуального анализа больших мультимодальных моделей искусственного интеллекта. Предлагаемый фреймворк позволяет перенести функцию детальной курации на ИИ-агента, способного к эстетическим оценкам, тем самым трансформируя роль художника в проектировщика системы. Это обеспечивает возможность быстрого исследования многомерного пространства эволюционных параметров для достижения заданных творческих целей и создания органических 3D-форм. Не откроет ли это новые горизонты для коллаборации человека и искусственного интеллекта в сфере искусства и дизайна?


Эволюция Формы: Преодоление Субъективности в Искусстве

Традиционное эволюционное искусство, в процессе создания новых визуальных образов, зачастую сильно зависит от субъективной оценки человека. Этот подход, хоть и позволяет добиться эстетически приятных результатов, неизбежно становится узким местом всего процесса. Ограниченность человеческого восприятия и вкуса формирует своеобразный фильтр, через который проходят лишь те вариации, что соответствуют текущим представлениям о красоте. Это препятствует исследованию более широкого спектра потенциально интересных решений и сдерживает возможность появления действительно новаторских произведений, поскольку креативность ограничивается рамками человеческих предпочтений и может не затронуть области визуального выражения, находящиеся вне зоны привычного восприятия.

Поле эволюционного искусства направлено на автоматизацию творческого процесса посредством использования генетических алгоритмов, вдохновленных принципами естественного отбора. В основе подхода лежит идея создания популяции изображений, где каждое произведение представляет собой индивидуальную «особь». Эти «особи» оцениваются по заданным критериям — будь то сложность композиции или соответствие определенным визуальным паттернам. Наиболее успешные изображения «размножаются», обмениваясь элементами своего кода (аналогично генами) и порождая новое поколение. Повторяя этот процесс на протяжении множества циклов, алгоритм постепенно эволюционирует в сторону создания все более интересных и сложных произведений искусства, минуя необходимость прямого вмешательства человека в процесс творчества.

Несмотря на перспективность применения генетических алгоритмов в эволюционном искусстве, их практическая реализация часто сталкивается с существенными трудностями. Алгоритмы склонны к застреванию в локальных оптимумах — точках, где дальнейшие незначительные изменения не приводят к улучшению результата, хотя глобально существуют гораздо более привлекательные решения. Это требует от исследователей значительных усилий по ручной настройке параметров алгоритма, что ограничивает степень автоматизации творческого процесса и увеличивает временные затраты. Поиск оптимальных значений для таких параметров как скорость мутации или коэффициент скрещивания становится сложной задачей, требующей обширных экспериментов и субъективной оценки промежуточных результатов.

Для преодоления ограничений существующих алгоритмов эволюционного искусства требуется разработка новых методов автоматизированной оценки эстетики, способных эффективно исследовать сложные визуальные пространства. Вместо субъективных человеческих оценок, современные исследования направлены на создание систем, которые самостоятельно определяют привлекательность изображений, учитывая не только базовые визуальные характеристики, но и более тонкие аспекты, такие как композиция, текстура и цветовая гармония. Эти системы, опираясь на принципы машинного обучения и компьютерного зрения, стремятся к объективной оценке визуальных произведений, позволяя алгоритмам эволюции самостоятельно находить наиболее интересные и инновационные решения, избегая застревания в локальных оптимумах и расширяя границы творческого поиска. Подобный подход открывает возможности для создания действительно оригинального искусства, не ограниченного человеческими предпочтениями и способного удивлять своей новизной и сложностью.

Элитистский генетический алгоритм с бинарным турнирным отбором обеспечивает отбор лучших особей для следующего поколения, сохраняя тем самым наиболее приспособленные решения.
Элитистский генетический алгоритм с бинарным турнирным отбором обеспечивает отбор лучших особей для следующего поколения, сохраняя тем самым наиболее приспособленные решения.

EvolF: Симбиоз Эволюции и Фундаментальных Моделей

EvolF представляет собой новую структуру, объединяющую принципы генетических алгоритмов и возможности больших языковых моделей (Foundation Models). В рамках данной структуры, генетический алгоритм используется для итеративного улучшения результатов, генерируемых AI Foundation Model. Этот подход позволяет автоматизировать процесс создания контента, используя AI для генерации вариантов, а генетический алгоритм — для отбора и улучшения наиболее перспективных решений на основе заданных критериев. В отличие от традиционных методов, EvolF не требует ручного вмешательства на этапе оценки и отбора, что существенно повышает эффективность и масштабируемость процесса. Ключевым аспектом является возможность определения целевых функций и ограничений, направляющих эволюционный процесс и обеспечивающих соответствие результатов заданным требованиям.

В основе фреймворка EvolF лежит автоматизированная оценка эстетических качеств, осуществляемая искусственным интеллектом, что позволяет заменить традиционное ручное отсеивание и выбор вариантов. Данный подход, названный Автоматизированной Курацией, предполагает использование ИИ для анализа генерируемых изображений и присвоения им оценок на основе заданных критериев. Это позволяет автоматизировать процесс итеративного улучшения изображений, направляемого оценкой, без непосредственного участия человека в каждом цикле, значительно повышая эффективность и скорость создания контента.

Автоматизированная оценка в рамках EvolF обеспечивается моделью Google Gemini, использующей возможности визуального рассуждения. Gemini способна анализировать изображения и понимать сложные текстовые запросы, включающие семантические цели — то есть, не просто описание визуальных характеристик, но и определение желаемого смысла или концепции, которую изображение должно передавать. Это позволяет системе оценивать изображения не только по формальным признакам, но и по соответствию заданным концептуальным требованиям, обеспечивая более гибкий и контекстно-зависимый процесс отбора.

В рамках концепции “Художник как Системный Дизайнер” роль творца претерпевает существенные изменения. Вместо непосредственного выбора элементов или ручной настройки результатов, художник определяет параметры и правила, управляющие генеративным процессом. Это смещение фокуса позволяет художнику проектировать систему, которая автономно создает произведения, соответствующие заданным критериям и целям. Такой подход открывает возможности для исследования новых творческих стратегий, автоматизации рутинных задач и генерации контента, невозможного при традиционных методах. Определение параметров включает в себя спецификацию эстетических предпочтений, стилистических ограничений и семантических целей, которые затем используются системой для итеративной генерации и оценки результатов.

Наша система, объединяющая эволюционный подход и мультимодальную основу, позволяет создавать разнообразные трехмерные формы, такие как изображения
Наша система, объединяющая эволюционный подход и мультимодальную основу, позволяет создавать разнообразные трехмерные формы, такие как изображения «цыпленка», «головы мухи» и «диатомовой водоросли».

Organic: Органическая Генеративная Система

Система “Organic” представляет собой генеративную архитектуру, состоящую из двух ключевых компонентов: `FormGrow` и `Mutator`. `FormGrow` отвечает за создание исходной структуры визуальной формы посредством набора правил, определенных грамматикой. Последующий модуль `Mutator` вносит вариации в эту структуру, обеспечивая пространство для исследования различных форм. Взаимодействие этих компонентов позволяет генерировать сложные визуальные объекты, адаптирующиеся в процессе эволюции алгоритма.

Система ‘FormGrow’ создает начальную структуру визуальных форм, используя грамматики, основанные на правилах. Эти грамматики определяют базовые элементы и способы их соединения для формирования исходного каркаса. Параллельно, модуль ‘Mutator’ вносит случайные вариации в эту структуру, изменяя параметры, такие как размеры, положение и ориентацию элементов. Этот процесс позволяет алгоритму исследовать различные формы, отходя от исходного каркаса и создавая более сложные и разнообразные визуальные решения. Взаимодействие ‘FormGrow’ и ‘Mutator’ обеспечивает как стабильную основу для генерации, так и возможность для творческого поиска.

Для управления процессом генерации визуальных форм используется метод бинарный турнирный отбор, совместно с метрикой PixelScore. Бинарный турнирный отбор позволяет выбирать наиболее перспективные варианты для дальнейшего развития, предотвращая застой алгоритма и способствуя поддержанию разнообразия генерируемых форм. Метрика PixelScore оценивает качество каждого варианта, определяя его пригодность для следующей генерации. Каждая экспериментальная серия состоит из приблизительно 200 поколений, в течение которых происходит эволюция визуальных форм на основе данных критериев отбора.

Для обеспечения достоверности данных, получаемых в результате оценок Gemini, используется принудительное соответствие `JSON Schema`. Этот механизм критически важен для поддержания согласованности оценки на каждой итерации генеративного процесса. Единичный экспериментальный запуск генерирует приблизительно 5 ГБ данных, при этом общая стоимость одного запуска оценивается в $24. Принудительное соответствие схеме позволяет стандартизировать формат данных, упрощая их дальнейшую обработку и анализ, а также минимизируя ошибки, связанные с несоответствием форматов.

Эволюционный цикл, объединяющий грамматику формирования суставов и генетический алгоритм Mutator, позволяет создавать органические формы суставов.
Эволюционный цикл, объединяющий грамматику формирования суставов и генетический алгоритм Mutator, позволяет создавать органические формы суставов.

Искусственное Восприятие Эстетики: Распознавание Парейдолии

Исследования эстетических оценок, проведенные моделью Gemini, демонстрируют склонность к распознаванию паттернов, схожих с парейдолией — тенденцией видеть значимые формы даже в абстрактных изображениях. В ходе анализа было выявлено, что искусственный интеллект, подобно человеку, стремится к нахождению связности и нарратива в визуальных стимулах, даже когда они изначально лишены четкой структуры. Это проявляется в интерпретации случайных форм как узнаваемых объектов или лиц, что свидетельствует о встроенном механизме поиска смысла и порядка в хаосе визуальной информации. Наблюдаемый феномен подчеркивает, что эстетическое восприятие ИИ не является просто статистической обработкой данных, а включает в себя активный процесс интерпретации и конструирования образов.

Исследования показали, что при оценке визуальных стимулов искусственный интеллект, подобно человеку, стремится к выявлению связности и нарратива. Вместо простого анализа пикселей и форм, системы машинного обучения демонстрируют тенденцию к поиску закономерностей и построению целостной картины даже в абстрактных изображениях. Этот процесс предполагает не только распознавание объектов, но и их интерпретацию в контексте потенциальной истории или смысла, что указывает на способность ИИ воспринимать визуальную информацию как последовательность событий или элементов повествования. Данное стремление к когерентности позволяет предположить, что эстетическая оценка ИИ обусловлена не только математическими параметрами изображения, но и внутренним поиском логической структуры и взаимосвязей.

Использование методики «Chain-of-Thought Prompting» в работе с моделью Gemini позволяет получить доступ к логике, лежащей в основе её эстетических оценок. Вместо простого вынесения вердикта о привлекательности или непривлекательности изображения, Gemini, получив соответствующий запрос, раскрывает последовательность рассуждений, приведших к такому заключению. Этот подход значительно повышает прозрачность процесса оценки, позволяя понять, какие элементы визуального стимула повлияли на решение модели, и какие ассоциации были задействованы. В результате, исследователи получают не только количественные данные об эстетических предпочтениях ИИ, но и качественное понимание его “мышления”, что открывает новые возможности для изучения механизмов восприятия красоты и закономерностей в искусстве.

Разработанная платформа EvolF выходит за рамки простого инструмента для создания изображений, представляя собой уникальную возможность исследовать когнитивные процессы искусственного интеллекта в сфере визуальной эстетики. Вместо того чтобы рассматриваться исключительно как генератор художественных произведений, EvolF позволяет наблюдать и анализировать принципы, которыми AI руководствуется при оценке красоты и гармонии. Эта система предоставляет ценные данные о том, каким образом искусственный интеллект интерпретирует визуальные стимулы, выявляет предпочтения и формирует эстетические суждения, открывая новые горизонты в понимании его «восприятия» прекрасного и закономерностей, лежащих в основе этого процесса.

Эволюционное дерево, сгенерированное алгоритмами Organic и Gemini, демонстрирует достижение целевой формы, напоминающей курицу.
Эволюционное дерево, сгенерированное алгоритмами Organic и Gemini, демонстрирует достижение целевой формы, напоминающей курицу.

Исследование демонстрирует сдвиг парадигмы в творческом процессе, где роль художника трансформируется от непосредственного создания к проектированию систем. Этот подход перекликается со словами Грейс Хоппер: «Лучший способ предсказать будущее — создать его». Использование мультимодальных базовых моделей, таких как Gemini, в сочетании с генетическими алгоритмами позволяет автоматизировать эстетический отбор в эволюционном искусстве. Вместо ручного курирования результатов, система сама определяет оптимальные решения, что подчеркивает математическую чистоту и доказательность алгоритма, а не просто эмпирическую «работоспособность». Эта элегантность проявляется в способности системы к самообучению и генерации уникальных художественных произведений.

Куда Ведет Эволюция?

Представленная работа, хоть и демонстрирует автоматизацию эстетического отбора в эволюционном искусстве посредством интеграции фундаментальных моделей, лишь подчеркивает глубину нерешенных проблем. В конечном счете, задача смещается не от создания изображения, а от формализации самого понятия красоты. Алгоритм может генерировать бесконечное множество вариаций, но определить, где заканчивается случайность и начинается осмысленное творение, по-прежнему требует внешнего, человеческого суждения — или, что более тревожно, навязывания заранее заданных, субъективных критериев. Парейдолия, склонность видеть закономерности там, где их нет, остается неизбежным артефактом любой системы, стремящейся к интерпретации визуальных данных.

Перспективные направления исследований лежат в области более строгих метрик оценки эстетики, основанных не на статистических корреляциях, а на принципах математической гармонии и симметрии. Необходимо отойти от «черного ящика» фундаментальных моделей и стремиться к созданию алгоритмов, чья логика доказуема и интерпретируема. В противном случае, рискуем получить лишь сложные инструменты для воспроизведения существующих шаблонов, а не генераторы истинно нового искусства.

В хаосе данных спасает только математическая дисциплина. Иллюстрацией служит тот факт, что даже самые продвинутые системы, способные имитировать творческий процесс, нуждаются в четко определенных правилах, чтобы отличить шедевр от случайного набора пикселей. И это не недостаток алгоритма, а отражение фундаментальной сложности самого понятия «красота».


Оригинал статьи: https://arxiv.org/pdf/2606.16849.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-16 22:48