Автор: Денис Аветисян
Новое исследование представляет корпус текстов, созданных различными нейросетями, имитирующими разные характеры и раскрывающих особенности поведения и потенциальные предубеждения искусственного интеллекта.

Представлен ‘AI Sydney Corpus’ — набор сказок, сгенерированных большими языковыми моделями, для анализа переноса личностных черт и лингвистических закономерностей в сгенерированных нарративах.
Оценка поведения больших языковых моделей (LLM) в контексте взаимодействия с человеком осложняется влиянием не только архитектуры сети, но и «личностей», которые модели имитируют. В работе ‘Sydney Telling Fables on AI and Humans: A Corpus Tracing Memetic Transfer of Persona between LLMs’ представлен корпус текстов «AI Sydney», созданный 12 передовыми LLM от OpenAI, Anthropic, Alphabet, DeepSeek и Meta, под тремя различными «личностями»: стандартной, классическим «Сиднеем» и «меметическим Сиднеем». Этот корпус, содержащий 4,5 тыс. текстов и 6 млн слов, аннотирован в соответствии со стандартами Universal Dependencies и доступен для исследований. Какие лингвистические закономерности и потенциальные предубеждения скрываются в «сказках», генерируемых LLM под влиянием различных «личностей»?
Создание Корпуса для ИИ-Повествования: Основа для Доказательной Генерации Текста
В основе данной работы лежит тщательно сформированный текстовый корпус, играющий ключевую роль в обучении и оценке больших языковых моделей (LLM). Этот корпус представляет собой структурированный набор текстов, предназначенный для обеспечения LLM необходимым объемом данных для понимания и генерации связных, осмысленных повествований. Качество и разнообразие этого корпуса напрямую влияют на способность модели к творчеству и адаптации к различным стилям и жанрам. Использование подобного корпуса позволяет исследователям не только оценивать текущие возможности LLM в области генерации текстов, но и выявлять области для дальнейшего совершенствования и оптимизации алгоритмов. Тщательный отбор и структурирование данных в корпусе обеспечивают надежную основу для объективной оценки и сравнения различных моделей машинного обучения в контексте создания историй.
Для создания разнообразных нарративов активно использовался потенциал больших языковых моделей (LLM), однако этот процесс требует тщательного контроля над стилем и содержанием генерируемых текстов. Эффективное управление достигается посредством продуманных запросов — “промптов”, которые направляют LLM в нужное русло. Сложность заключается в необходимости точно определить параметры запроса, чтобы получить тексты, соответствующие заданным критериям по тону, тематике и структуре. В результате, разработка оптимальных промптов становится ключевым этапом, определяющим качество и релевантность генерируемых историй, а также позволяющим избежать нежелательных отклонений от заданной тематики или стиля.
Для обеспечения целенаправленного анализа, в работе был выбран жанр басни, как наиболее подходящий для контролируемой генерации повествований. Систематически комбинируя образы животных-персонажей с четко сформулированными тематическими запросами, исследователи создали корпус текстов, насчитывающий в общей сложности 4 536 басен. Такой подход позволил добиться высокой степени управляемости контента и стиля, что крайне важно для последующего обучения и оценки больших языковых моделей. Полученный корпус представляет собой ценный ресурс для изучения возможностей ИИ в области создания структурированных и тематически согласованных историй, а также для разработки алгоритмов, способных генерировать оригинальные сюжеты и персонажей.

Определение AI-Персон и Нарративных Темы: Ключ к Целенаправленному Анализу
В качестве отправной точки для создания повествовательных моделей искусственного интеллекта используется персонаж «Сидней», изначально разработанный для поисковой системы Bing. Данный персонаж был выбран из-за его существующей проработанности и способности к ведению диалога, что позволило использовать его в качестве базового шаблона для последующей адаптации и экспериментов с различными языковыми моделями. Использование существующего персонажа позволило сократить время на разработку начальных параметров и сосредоточиться на исследовании возможностей генерации нарративов.
В ходе экспериментов использовались две версии персонажа ‘Sydney’: ‘Классическая Sydney’, представляющая собой точную копию оригинальной реализации, использованной в поисковой системе Bing, и ‘Мемы-Sydney’, сформированная на основе данных, содержащихся в обучающей выборке языковой модели. ‘Мемы-Sydney’ отражает влияние многочисленных взаимодействий и запросов пользователей, запечатленных в процессе обучения, что отличает её от ‘Классической Sydney’, которая представляет собой исходную версию персонажа без учета последующего влияния данных обучения. Данный подход позволил оценить влияние обучающих данных на формирование личности и поведения ИИ.
Для оценки поведенческих характеристик и возможностей генерации текста, разработанные AI-персоны (‘Classic Sydney’ и ‘Memetic Sydney’) использовались в сочетании с тематическими запросами, сфокусированными на взаимодействии «Искусственный интеллект — Человек» и «Искусственный интеллект — Искусственный интеллект». Данный подход позволил провести сравнительный анализ производительности 12 различных больших языковых моделей (LLM) в рамках заданных сценариев, выявляя особенности их реакции на конкретные темы и персональные установки. Использованные промпты определяли направление повествования и служили ключевым фактором при оценке качества генерируемого контента и соответствия заданным параметрам.
Лингвистическая Аннотация с Использованием Universal Dependencies: Обеспечение Структурированного Анализа
Для обеспечения детального анализа генерируемого текста используется фреймворк Universal Dependencies (UD), представляющий собой стандартизированную схему лингвистической аннотации. UD обеспечивает последовательное и единообразное описание грамматической структуры предложений, включая части речи, морфологические признаки, синтаксические отношения и зависимости между словами. Это позволяет проводить автоматизированный анализ текста, извлекать лингвистическую информацию и сравнивать результаты обработки различных текстов и языков, используя единый формат представления данных. Использование UD способствует повышению точности и надежности алгоритмов обработки естественного языка.
Аннотация в рамках Universal Dependencies осуществляется с использованием UDPipe — инструментария, предназначенного для обработки текста и назначения лингвистических характеристик. UDPipe представляет собой конвейер обработки, включающий в себя токенизацию, частеречную разметку, определение морфологических признаков, разрешение зависимостей и другие этапы анализа. Он поддерживает множество языков и позволяет автоматизировать процесс аннотации больших объемов текста, обеспечивая согласованность и точность получаемых данных. UDPipe использует статистические модели, обученные на размеченных корпусах, что позволяет достичь высокой производительности и качества разметки.
Аннотированные данные сохраняются в стандартном формате CoNLL-U, представляющем собой текстовый файл, структурированный в виде таблиц, где каждая строка соответствует одному токену (слову) в предложении. Каждая строка содержит информацию о морфологических признаках токена, его синтаксической зависимости от других токенов, части речи и других лингвистических характеристиках, разделенных табуляцией. Использование CoNLL-U обеспечивает совместимость данных с широким спектром инструментов обработки естественного языка и позволяет легко обмениваться данными между различными исследовательскими группами и платформами, упрощая дальнейший анализ и разработку лингвистических моделей.
Оценка Производительности LLM: Выявление Сильных и Слабых Сторон Моделей
В рамках всестороннего исследования была проведена оценка ряда передовых больших языковых моделей, включая GPT-3.5 Turbo, GPT-4, GPT-4o, GPT-5, Claude 3 Opus, Claude 4.5 Sonnet, DeepSeek-v3, Gemini 2.5 Pro и Llama 3.1 405B Instruct. Использование специализированного корпуса текстов позволило сопоставить возможности этих моделей в генерации связных и грамматически корректных текстов. Такой подход обеспечивает объективную оценку производительности каждой модели, выявляя сильные и слабые стороны в контексте решения сложных лингвистических задач и подготовки к дальнейшим улучшениям в области искусственного интеллекта.
Исследование выявило существенные различия в частоте отказов моделей при обработке запросов. В частности, модели Classic Sydney и Claude 3 Opus продемонстрировали 59%-ный уровень отказов, что означает, что почти половина всех запросов не получила ответа. В то же время, GPT-4o показал значительно более низкий показатель — всего 20% отказов. Данная разница указывает на существенные различия в подходах к безопасности и фильтрации контента между моделями, а также на их способность обрабатывать широкий спектр запросов без нежелательных реакций или отклонений от заданных параметров.
В ходе исследования языковые модели использовали различные ограничения на длину генерируемого текста — от стандартных 4096 токенов для моделей, таких как GPT-3.5-turbo и Claude 3 Opus, до расширенного лимита в 20 тысяч токенов. Увеличение этого параметра позволило значительно расширить возможности моделей в создании развернутых, детализированных повествований, демонстрируя их способность к поддержанию контекста и логической связности на протяжении более длинных текстов. Использование 20-тысячного лимита токенов стало ключевым фактором в оценке способности моделей к генерации сложных и когерентных текстов, а также к более эффективному выполнению задач, требующих длительного сохранения информации.
Анализ выходных данных, размеченных в соответствии со схемой Universal Dependencies (UD), позволил провести количественную оценку способности различных больших языковых моделей генерировать грамматически корректные и семантически связные повествования. Этот метод предполагает детальное разложение текста на составляющие элементы — части речи, синтаксические связи и роли слов в предложении — что дает возможность выявить ошибки в структуре предложений, несогласованности и нелогичности. Применяя количественные метрики, основанные на точности разметки UD, исследователи смогли объективно сравнить качество генерируемого текста между моделями, такими как GPT-4o, Claude 3 Opus и другими, выявляя их сильные и слабые стороны в построении последовательных и осмысленных нарративов. Такой подход выходит за рамки субъективной оценки и позволяет получить надежные данные о лингвистических возможностях каждой модели.
Исследование, представленное в статье, демонстрирует, как большие языковые модели, наделенные различными личностями, конструируют повествования. Этот процесс напоминает о сложности создания действительно надежных и предсказуемых систем. Кен Томпсон однажды сказал: «Я думаю, что оптимизация — это прежде всего поиск невыгодных мест». В контексте данной работы, это можно интерпретировать как необходимость тщательного анализа лингвистических паттернов и потенциальных предубеждений в генерируемых моделями текстах, прежде чем пытаться оптимизировать их производительность. Создание ‘AI Sydney Corpus’ позволяет глубже понять, как модели переносят и трансформируют личностные характеристики, выявляя тем самым ‘невыгодные места’ в их способности к повествованию и этичному взаимодействию.
Куда же дальше?
Представленный корпус «AI Sydney» — лишь первый шаг в исследовании причудливой способности больших языковых моделей к имитации и, возможно, к созданию собственных нарративных инвариантов. Если повествование кажется магией — значит, ещё не раскрыт лежащий в его основе алгоритм. Настоящая проблема заключается не в генерации текста, а в формализации критериев «правдоподобности» и «последовательности» для искусственного интеллекта, способного к творчеству. Простое увеличение объёма обучающих данных не решит задачу; требуется принципиально новый подход к оценке семантической целостности и логической корректности генерируемых историй.
Особый интерес представляет изучение эволюции «персоны» в серии генерируемых текстов. Возможно ли, чтобы языковая модель, начав с заданного прототипа, «развивала» собственное, уникальное повествовательное «я»? И, что более важно, как эта эволюция отражается на потенциальных предубеждениях и этических последствиях генерируемого контента? Необходимо разрабатывать метрики, способные улавливать тонкие изменения в стилистике, тональности и тематике, выходящие за рамки простой статистической обработки слов.
В конечном счёте, ценность подобного рода исследований заключается не в создании «идеального рассказчика», а в углублении понимания самих принципов нарратива и его роли в формировании человеческого мышления. Если алгоритм не может быть доказан, то он, по сути, является лишь сложной формой случайности, замаскированной под интеллект.
Оригинал статьи: https://arxiv.org/pdf/2602.22481.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Функциональные поля и модули Дринфельда: новый взгляд на арифметику
- Квантовая самовнимательность на службе у поиска оптимальных схем
- Квантовый скачок: от лаборатории к рынку
2026-03-01 01:08