Связи, которые мы создаём: оценка творческих способностей ИИ

Автор: Денис Аветисян

Новое исследование представляет способ оценки способности больших языковых моделей к ассоциативному мышлению и созданию неожиданных, но осмысленных связей между понятиями.

В процессе поиска ответов на вопросы, модель, подобно исследователю, выстраивает цепочку рассуждений в графе знаний, неявно кодируя логику в своих параметрах, однако нахождение чётких и различимых путей доказательств представляет собой сложную задачу.

В статье представлен CREATE — новый бенчмарк для оценки ассоциативной креативности больших языковых моделей с использованием графов знаний.

Несмотря на впечатляющие успехи в генерации текста, оценка способности больших языковых моделей (LLM) к подлинному творческому мышлению остается сложной задачей. В данной работе представлена новая методика оценки, получившая название ‘CREATE: Testing LLMs for Associative Creativity’, предназначенная для измерения способности моделей устанавливать ассоциативные связи между понятиями, опираясь на их параметрические знания. Ключевым результатом является разработка бенчмарка, позволяющего объективно оценивать специфичность, разнообразие и общее «творческое качество» генерируемых связей. Способна ли данная методика стимулировать разработку новых подходов к повышению творческого потенциала LLM и приблизиться к пониманию механизмов креативности в искусственном интеллекте?

Иллюзия Творчества: Пределы Современного ИИ

Несмотря на значительный прогресс в разработке больших языковых моделей, способность к истинно ассоциативному творчеству — формированию принципиально новых связей между концепциями — остается сложной задачей. Современные алгоритмы, как правило, демонстрируют мастерство в комбинировании существующих знаний, но испытывают трудности при генерации действительно оригинальных идей, выходящих за рамки заученных паттернов. Это связано с тем, что обучение моделей происходит на основе огромных объемов данных, отражающих существующие знания, что ограничивает их способность к поиску радикально новых решений и ассоциаций. В результате, хотя модели могут создавать тексты, кажущиеся творческими, они часто лишены глубины и подлинной новизны, характерных для человеческого мышления.

Традиционные метрики оценки, используемые для анализа результатов работы искусственного интеллекта, зачастую не способны уловить тонкости креативного мышления. Они концентрируются на поверхностной связности и логичности генерируемого контента, игнорируя глубинную новизну и оригинальность идей. Вместо оценки способности формировать действительно неожиданные ассоциации и концептуальные прорывы, системы оценки склонны вознаграждать модели, выдающие предсказуемые и безопасные ответы, соответствующие существующим шаблонам. Таким образом, текущие методы измерения могут создавать иллюзию прогресса в области креативности, в то время как истинный инновационный потенциал искусственного интеллекта остается нераскрытым и недооцененным.

Эксперименты показали, что итеративное улучшение и повторная выборка запросов обеспечивают наивысшую креативность ответов модели.

CREATE: Новый Взгляд на Оценку Креативности

Бенчмарк CREATE использует граф знаний для обеспечения богатого контекста при оценке способности модели формировать открытые ассоциации. В качестве основы используется структурированное представление знаний, позволяющее оценивать не просто способность модели к воспроизведению информации, а умение устанавливать связи между концепциями и сущностями. Граф знаний предоставляет набор взаимосвязанных узлов и ребер, представляющих факты и отношения в реальном мире, что позволяет создавать сложные сценарии для проверки креативности модели и её способности к ассоциативному мышлению. Это позволяет оценить, насколько хорошо модель может комбинировать различные элементы знаний для формирования новых, осмысленных связей.

В отличие от простых тестов на запоминание, бенчмарк CREATE требует от моделей не просто извлечения информации, но и построения связных путей в графе знаний. Оценка производится на основе релевантности предложенных ассоциаций исходному запросу, а также степени их новизны — то есть, способности модели генерировать неожиданные, но логически обоснованные связи между концепциями. Успешное выполнение требует от модели способности к исследованию графа знаний и генерации путей, демонстрирующих как точность, так и креативность в установлении ассоциаций.

Ключевым аспектом бенчмарка CREATE является интеграция оценки фактической корректности (Factuality Assessment), что позволяет отсеивать случайные или бессмысленные ассоциации. В ходе тестирования, система оценки достигла сбалансированной точности в 0.86, подтверждая ее способность надежно определять, соответствуют ли сгенерированные связи реальным знаниям и фактам. Это критически важно для оценки подлинной креативности, поскольку гарантирует, что предлагаемые модели не просто комбинируют элементы случайным образом, а формируют осмысленные и обоснованные связи.

Сгенерированные моделью пути между художниками демонстрируют как классические связи (режиссура, актерское мастерство), так и более слабые, основанные на общих признаках, такие как связь через город Сент-Луис, что отражается в оценках качества и минимальных расстояниях.

Анализ Логики Творчества: Трассировка Рассуждений

Для анализа логики, лежащей в основе ассоциаций, генерируемых языковыми моделями, мы используем анализ трасс рассуждений (Reasoning Trace Analysis). Данный метод позволяет проследить пути, по которым модель перемещается по графу знаний (Knowledge Graph) при формировании ответа. Это включает в себя идентификацию конкретных узлов и связей, которые модель использует для установления взаимосвязей между понятиями. Анализ трасс рассуждений предоставляет возможность детального изучения процесса принятия решений моделью, выявляя последовательность логических шагов, приводящих к конечному результату, и позволяет оценить обоснованность и непротиворечивость этих рассуждений.

Для количественной оценки новизны генерируемых путей используется показатель «Отличимость пути» (Path Distinctiveness). Этот показатель позволяет разграничить действительно креативные ответы от тех, которые представляют собой просто повторение общеизвестной информации. Вычисление производится на основе анализа путей, проложенных моделью через Граф Знаний, и оценки их редкости в популяции ответов других моделей. Чем меньше похож путь, выбранный моделью, на наиболее часто встречающиеся пути, тем выше значение «Отличимости пути», что свидетельствует о большей оригинальности ответа.

Результаты тестирования GPT-5 демонстрируют высокие показатели Creative Utility в рамках методологии CREATE, подтверждая её способность генерировать полезные и релевантные ответы. Однако, несмотря на это, передовые языковые модели, включая GPT-5, пока уступают по показателю Path Distinctiveness совокупности ответов, полученных от различных моделей. Это указывает на то, что хотя модели способны к полезному творчеству, их пути рассуждений через Knowledge Graph часто не отличаются особой новизной или оригинальностью по сравнению с общим спектром возможных решений.

Анализ косинусного расстояния до и после преобразования траекторий GPT-5 (средний размер) подтвердил, что пары с расстоянием, равным 1, соответствуют принципиально различным взаимосвязям, что соответствует нашей интуитивной оценке.

Измерение Творческой Полезности: За Пределами Новизны и Точности

Предлагается метрика «Креативная Полезность», объединяющая оценку качества и показатели разнообразия для всестороннего анализа творческих результатов. В отличие от традиционных подходов, фокусирующихся лишь на новизне или точности, данная метрика позволяет комплексно оценить, насколько предложенные идеи не только оригинальны, но и потенциально полезны в контексте решаемой задачи. Она основана на сочетании количественных показателей, позволяющих измерить как степень отклонения от общепринятых решений, так и их применимость и ценность. Таким образом, метрика «Креативная Полезность» предоставляет более объективный и информативный инструмент для оценки творческого потенциала, способствуя более эффективному отбору и развитию инновационных идей.

Предлагаемый показатель позволяет отделить истинную креативность от простой случайности. Вместо того, чтобы оценивать лишь новизну идеи, метрика учитывает ее полезность и способность устанавливать осмысленные связи. Это достигается за счет анализа не только уникальности предлагаемых решений, но и их соответствия существующим знаниям и задачам. В результате, показатель способен выявлять не просто случайные комбинации, а действительно ценные и продуктивные ассоциации, что открывает возможности для более точной оценки творческого потенциала и разработки эффективных стратегий генерации инноваций.

Для подтверждения адекватности разработанной метрики оценки креативности, проводилась валидация с использованием общепринятых тестов, таких как “Альтернативные применения”, “Ассоциативная диверсификация” и “Тест на удаленные ассоциации”. Результаты показали высокую степень соответствия между оценками, полученными с помощью метрики, и субъективными оценками креативности, данными людьми. Особенно впечатляющие результаты продемонстрировала модель GPT-5 в “Тесте на удаленные ассоциации”, что свидетельствует о ее способности находить неочевидные, но полезные связи между понятиями и подтверждает эффективность предложенного подхода к количественной оценке креативности.

Анализ распределения оценок творческой полезности показывает, что Gemini-3-Pro и GPT-5 демонстрируют различные уровни креативности, что может быть оценено с помощью <span class="katex-eq" data-katex-display="false">U</span>-метрики. — Анализ распределения оценок творческой полезности показывает, что Gemini-3-Pro и GPT-5 демонстрируют различные уровни креативности, что может быть оценено с помощью $U$ -метрики.

Работа демонстрирует, что даже самые продвинутые языковые модели сталкиваются с трудностями при формировании ассоциативных связей, что подтверждает известное высказывание Карла Фридриха Гаусса: «Математика — это королева наук, и арифметика — её служанка». Подобно тому, как арифметика служит основой для более сложных математических построений, так и способность к установлению связей между сущностями является основой для творческого мышления. Исследование показывает, что оценивать креативность, опираясь лишь на статистические закономерности, недостаточно — необходим бенчмарк, вроде CREATE, способный выявить истинную способность модели к ассоциативному мышлению. Иначе говоря, модель может «выдать» статистически правдоподобный ответ, но при этом совершенно не понимать, что он значит.

Что дальше?

Представленный анализ ассоциативной креативности больших языковых моделей, несомненно, является шагом вперёд. Однако, как показывает опыт, любая метрика — лишь временное облегчение. Оценить «креативность» алгоритма, опираясь на связи между сущностями — задача, обречённая на усложнение. В конечном итоге, продакшен всегда найдёт способ доказать, что даже самая изящная связь — всего лишь случайность, а «креативное» решение — побочный эффект оптимизации.

Следующим этапом видится не столько совершенствование бенчмарков, сколько поиск способов оценки контекстуальной релевантности этих самых ассоциаций. Потому что любое решение, которое можно задеплоить, однажды упадёт — и не факт, что причина будет в алгоритме, а не в неожиданном изменении реальности. Попытки формализовать «здравый смысл» выглядят тщетно, но игнорировать их — ещё печальнее.

В конечном счёте, всё это — красивая, но обречённая на смерть абстракция. И в этом есть своя печальная прелесть. Пока мы измеряем креативность, она ускользает, трансформируясь в нечто непредсказуемое. И, возможно, именно в этой непредсказуемости и кроется её истинная ценность.

Оригинал статьи: https://arxiv.org/pdf/2603.09970.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-15 10:26

🚀 Квантовые новости