Угасающая креативность: почему языковые модели теряют способность к разнообразию

Автор: Денис Аветисян

Новое исследование показывает, что причина снижения вариативности в ответах больших языковых моделей кроется не в алгоритмах обучения, а в составе используемых данных.

Исследование прослеживает динамику разнообразия выходных данных посредством трех параллельных пост-тренировочных ветвей модели Olmo 3, выявляя конкретные этапы, причины и степень утраты вариативности.

Ключевым фактором, определяющим потерю разнообразия в процессе пост-тренировки, является состав обучающего набора данных, а не конкретный метод пост-тренировки, такой как Supervised Fine-Tuning, Direct Preference Optimization или Reinforcement Learning.

Несмотря на впечатляющие возможности больших языковых моделей, их способность генерировать разнообразные ответы снижается в процессе пост-обучения. В работе ‘Where does output diversity collapse in post-training?’ исследуется природа этого «схлопывания» разнообразия, а также роль состава обучающих данных и используемых методов пост-обучения. Полученные результаты показывают, что снижение разнообразия в большей степени определяется составом данных, чем конкретным методом пост-обучения, таким как супевизированная тонкая настройка или оптимизация предпочтений. Может ли осознанный подход к формированию обучающих данных стать ключом к сохранению креативности и непредвзятости больших языковых моделей?

Разрушая Иллюзии: О Многообещающих и Опасных Возможностях Больших Языковых Моделей

Современные большие языковые модели (БЯМ) демонстрируют впечатляющие возможности в решении широкого спектра задач обработки естественного языка. От автоматического перевода и генерации текста до ответов на вопросы и создания креативного контента, эти модели стали основополагающими инструментами во многих сферах применения. Они успешно применяются в разработке чат-ботов и виртуальных ассистентов, анализе тональности текста, извлечении информации из больших объемов данных, а также в автоматизации создания контента для маркетинга и образования. Благодаря своей способности понимать и генерировать человеческий язык, БЯМ открывают новые горизонты для взаимодействия человека и компьютера, упрощая доступ к информации и автоматизируя рутинные задачи.

Несмотря на впечатляющие достижения в обработке естественного языка, большие языковые модели (БЯМ) зачастую демонстрируют слабость в решении задач, требующих сложного логического мышления и анализа. Они могут генерировать тексты, кажущиеся правдоподобными, но содержащие фактические ошибки или неточности, что ставит под сомнение их надежность в критически важных приложениях. Кроме того, БЯМ склонны воспроизводить предвзятости, присутствующие в обучающих данных, и часто выдают однообразные ответы, лишенные разнообразия и оригинальности. Эта тенденция к монотонности ограничивает их способность к творчеству и адаптации к различным контекстам, подчеркивая необходимость дальнейших исследований в области улучшения логического мышления, повышения достоверности и обеспечения разнообразия генерируемого текста.

Преодоление существующих ограничений больших языковых моделей является первостепенной задачей для создания надежных и заслуживающих доверия систем искусственного интеллекта, способных решать практические задачи. Недостатки в сложных рассуждениях, точности предоставляемой информации и поддержании разнообразия генерируемого текста напрямую влияют на возможность применения этих моделей в критически важных областях, таких как здравоохранение, финансы и образование. Успешное решение этих проблем позволит не просто автоматизировать рутинные операции, но и предоставить инструменты для принятия обоснованных решений, повышения эффективности и стимулирования инноваций, гарантируя при этом, что результаты работы моделей будут предсказуемыми, этичными и полезными для общества. Разработка методов повышения надежности и достоверности этих систем — ключевой шаг на пути к широкому и ответственному внедрению искусственного интеллекта в повседневную жизнь.

По мере увеличения масштаба языковых моделей наблюдается закономерная тенденция к росту вычислительных затрат, что вызывает обоснованные опасения относительно их практической применимости. Несмотря на то, что увеличение числа параметров часто приводит к улучшению производительности, исследования показывают, что эта зависимость не является линейной. На определенном этапе прирост вычислительных ресурсов перестает приводить к соразмерному улучшению качества генерируемого текста или способности к решению сложных задач. Это явление, известное как убывающая отдача, ставит под вопрос целесообразность неограниченного увеличения масштаба моделей, поскольку затраты на обучение и эксплуатацию могут превысить получаемую выгоду. В связи с этим, активно ведутся исследования по разработке более эффективных архитектур и методов обучения, направленных на достижение оптимального баланса между производительностью и вычислительными ресурсами.

Сравнение стратегий Think, Think-not-thinking и Instruct показывает, что на протяжении различных этапов обучения, Think демонстрирует более высокую точность выполнения восьми проверяемых задач и более высокий процент побед в оценках, выставленных LLM-судьями по шести задачам.

Искусство Доводки: Методы Пост-Тренировки Больших Языковых Моделей

После предварительного обучения большие языковые модели (LLM) подвергаются дополнительной настройке с использованием методов, таких как контролируемая тонкая настройка (Supervised Fine-Tuning), оптимизация прямых предпочтений (Direct Preference Optimization) и обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback). Эти подходы направлены на приведение поведения LLM в соответствие с человеческими предпочтениями и повышение полезности генерируемых ответов. Контролируемая тонкая настройка использует размеченные наборы данных для обучения модели конкретным задачам, в то время как оптимизация прямых предпочтений и обучение с подкреплением используют сигналы обратной связи для улучшения качества и соответствия ответов ожиданиям пользователей. Эти методы позволяют повысить точность, релевантность и безопасность LLM.

Методы постобучения больших языковых моделей (LLM) включают в себя дальнейшее обучение на тщательно отобранных наборах данных или использование обратной связи от людей для направления процесса обучения. Курируемые наборы данных позволяют модели осваивать конкретные навыки или стили, а также корректировать выходные данные в соответствии с желаемыми критериями. Обратная связь от людей, предоставляемая в виде оценок или предпочтений, используется для обучения модели посредством таких методов, как обучение с подкреплением (Reinforcement Learning), что позволяет ей лучше соответствовать человеческим ожиданиям и предпочтениям в отношении полезности, безопасности и согласованности ответов.

Различные тренировочные линии модели Olmo 3, такие как Instruct Lineage, Think Lineage и RL-Zero, демонстрируют различные подходы к постобучению. Instruct Lineage фокусируется на обучении модели следовать инструкциям и предоставлять полезные ответы, используя размеченный набор данных, содержащий пары «инструкция-ответ». Think Lineage, в свою очередь, оптимизирована для решения сложных задач, требующих рассуждений и планирования, используя данные, стимулирующие последовательное мышление. RL-Zero представляет собой подход, основанный на обучении с подкреплением без использования явной обратной связи от человека, полагаясь на самообучение и внутренние вознаграждения для улучшения производительности.

Начальные возможности базовой модели, такой как Olmo 3, напрямую зависят от данных, используемых в процессе предварительного обучения. В частности, для Olmo 3 применялись два ключевых набора данных: Dolma 3 Mix и Dolmino Mix. Dolma 3 Mix представляет собой масштабный, разнообразный набор данных, состоящий из текстов из различных источников, обеспечивающий широкое покрытие тем и стилей. Dolmino Mix, в свою очередь, представляет собой дедуплицированную версию Dolma 3 Mix, что позволяет снизить влияние повторяющейся информации и повысить эффективность обучения. Объём и качество этих наборов данных критически важны для формирования способности модели к пониманию языка, генерации текста и выполнению различных задач.

В процессе постобучения модели, качество представлений Think (оранжевый) снижается на этапе SFT, а Instruct (синий) - на этапе DPO. — В процессе постобучения модели, качество представлений Think (оранжевый) снижается на этапе SFT, а Instruct (синий) — на этапе DPO.

Парадокс Совершенствования: Коллапс Разнообразия

Послетренировочные методы, направленные на повышение производительности языковых моделей по конкретным метрикам, зачастую приводят к нежелательному снижению разнообразия генерируемых результатов, что ограничивает их творческий потенциал и применимость в задачах, требующих непредсказуемых и вариативных ответов. Наблюдается тенденция к упрощению выходных данных и сужению спектра возможных режимов генерации. В ходе исследований установлено, что снижение разнообразия, измеряемое с помощью метрик, таких как Vendi Score, SBERT, EAD, NLI и GPT-4.1-mini, связано преимущественно с составом данных, используемых в процессе контролируемой тонкой настройки (SFT), а не с самим методом послетренировочной обработки.

Снижение разнообразия генерируемых результатов, известное как «коллапс разнообразия», является критической проблемой, поскольку ограничивает применимость модели в задачах, требующих непредсказуемых и вариативных выходных данных. Это особенно важно для приложений, где требуется генерация креативного контента, мозговой штурм или симуляция сложных сценариев, где монотонность или предсказуемость результатов снижают полезность модели. Уменьшение числа различных «мод» генерации, отражаемое снижением показателей, таких как Vendi Score, приводит к тому, что модель начинает выдавать более однородные и менее инновационные ответы, что существенно ограничивает ее функциональность в определенных областях применения.

Для количественной оценки разнообразия генерируемых текстов используются различные метрики, включая Vendi Score, который измеряет количество различных режимов вывода модели. Показатель SBERT оценивает семантическую близость между сгенерированными текстами, позволяя определить степень их отличия друг от друга. Дополнительно применяются EAD (Entailment-based Automatic Diversity), NLI (Natural Language Inference) и GPT-4.1-mini, которые позволяют оценить разнообразие сгенерированного контента с различных точек зрения, включая логическую связность и семантическую уникальность. Комбинированное использование этих метрик позволяет исследователям комплексно оценивать и сравнивать степень разнообразия моделей генерации текста.

Исследование количественно показало, что снижение разнообразия генерируемых текстов (так называемый “diversity collapse”) в процессе обучения больших языковых моделей обусловлено преимущественно составом данных, используемых при контролируемой тонкой настройке (SFT), а не самим методом пост-обучения. Изначальное значение разнообразия, измеренное с помощью метрики SBERT, составляло 0.32 для базовой модели. После применения SFT, это значение снизилось до 0.12 для модели Think и до 0.11 для модели Instruct, что свидетельствует о значительном сокращении вариативности генерируемых ответов на этапе тонкой настройки.

Анализ показывает, что в процессе обучения с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF) наблюдается снижение разнообразия генерируемых текстов. В частности, для модели Think (линейка Think) применение supervised fine-tuning (SFT) привело к потере 62% изначального разнообразия, в то время как для модели Instruct (линейка Instruct) применение Direct Preference Optimization (DPO) привело к потере 38%. Различия в степени потери разнообразия между этими двумя линейками моделей указывают на то, что траектории коллапса разнообразия могут зависеть от используемых методов обучения и состава обучающих данных.

Показатель Vendi Score, изначально составлявший 3.4 для базовой модели, снижается до 1.8 в пост-обученных моделях. Это указывает на значительное уменьшение эффективного числа режимов генерации, то есть, модель начинает выдавать более однообразные и предсказуемые ответы. Снижение Vendi Score свидетельствует о сужении диапазона генерируемых текстов и, как следствие, о потере разнообразия в выходных данных модели после этапа тонкой настройки.

Разнообразие естественного языкового вывода (NLI) демонстрирует способность модели генерировать широкий спектр логических заключений.

Строгая Оценка: Бенчмарки Производительности Больших Языковых Моделей

Для всесторонней оценки возможностей больших языковых моделей (LLM) необходимо проводить тестирование на разнообразных бенчмарках, охватывающих различные аспекты их функционирования. В частности, комплексы задач GSM8K и MATH направлены на проверку математических способностей, HumanEval и MBPP — на генерацию и корректность кода, а IFEval оценивает способность модели следовать инструкциям. Кроме того, WildBench позволяет проверить устойчивость и производительность LLM в условиях, приближенных к реальным задачам. Использование широкого спектра бенчмарков является ключевым для получения объективной картины сильных и слабых сторон каждой модели и обеспечения ее надежности в практических приложениях.

Разнообразные тестовые наборы, такие как GSM8K, MATH, HumanEval и другие, призваны оценить различные грани возможностей больших языковых моделей. Особое внимание уделяется проверке способности к математическому рассуждению, где модели решают задачи, требующие логических операций и численных вычислений. Не менее важна оценка навыков генерации кода, демонстрирующая умение создавать функциональные программные решения на основе заданных требований. Кроме того, проводится тестирование способности моделей следовать инструкциям, оценивая точность и полноту выполнения поставленных задач. Наконец, критически важным аспектом является проверка устойчивости моделей к различным входным данным, включая некорректные или неоднозначные запросы, что позволяет выявить их надежность и способность к адаптации в реальных условиях.

Исследование производительности больших языковых моделей (LLM) посредством специализированных тестов, таких как GSM8K, MATH, HumanEval и других, позволяет учёным не только выявить сильные и слабые стороны каждой модели, но и отслеживать динамику их развития во времени. Детальный анализ результатов по различным бенчмаркам предоставляет ценную информацию о прогрессе в конкретных областях, например, в математическом рассуждении или генерации кода. Это, в свою очередь, помогает определить, какие архитектуры и методы обучения наиболее эффективны, и направляет дальнейшие исследования в области искусственного интеллекта. В результате систематической оценки по ключевым параметрам становится возможным не только сравнение различных LLM, но и объективная оценка их готовности к решению реальных задач.

Комплексная оценка больших языковых моделей (LLM) является фундаментальным условием для гарантии их надежности, заслуживающего доверия поведения и способности эффективно решать практические задачи. Отдельные тесты, фокусирующиеся лишь на узком спектре навыков, недостаточны для выявления скрытых недостатков или предвзятостей. Именно поэтому необходим целостный подход, включающий широкий набор бенчмарков, охватывающих различные аспекты производительности — от математического рассуждения и генерации кода до следования инструкциям и устойчивости к нештатным ситуациям. Такая всесторонняя проверка позволяет не только объективно оценить текущий уровень развития LLM, но и выявить области, требующие дальнейших исследований и улучшений, что в конечном итоге способствует созданию более безопасных и полезных систем искусственного интеллекта.

Результаты WildBench демонстрируют производительность системы в различных рабочих нагрузках.

Исследование показывает, что коллапс разнообразия в больших языковых моделях после обучения определяется не столько методом пост-обучения, сколько составом обучающих данных. Это подтверждает, что понимание внутренней структуры системы, в данном случае — данных, является ключом к её взлому или, в данном случае, к управлению её поведением. Блез Паскаль заметил: “Люди обычно считают, что они знают, что такое, но на самом деле они не знают”. Именно незнание состава данных и приводит к непредсказуемым результатам. Изучение данных, как и вскрытие сложного механизма, позволяет выявить скрытые закономерности и контролировать выходные параметры модели, предотвращая монотонность и обеспечивая разнообразие генерируемого текста.

Куда ведет нас эта тропа?

Представленная работа намекает на извечную истину: алгоритм лишь зеркало, отражающее структуру данных, которыми его кормят. Наблюдаемый коллапс разнообразия в больших языковых моделях после обучения оказывается не столько следствием хитроумных методов пост-тренировки — будь то Supervised Fine-Tuning, Direct Preference Optimization или Reinforcement Learning — сколько прямым следствием однообразия исходного материала. Это напоминает, что настоящая безопасность — это прозрачность, а не обфускация, и объясняет, почему попытки «настроить» модель, игнорируя состав данных, обречены на провал.

Впрочем, не стоит впадать в фатализм. Проблема не в невозможности обучить модель генерировать разнообразные тексты, а в недостаточной разработанности методов анализа и оценки состава обучающих данных. Необходимо разработать метрики, позволяющие количественно оценить «информационное богатство» датасета и выявить скрытые корреляции, приводящие к генерации однотипных ответов. Попытки искусственного увеличения разнообразия данных, без понимания фундаментальных принципов, определяющих их структуру, лишь усугубят проблему.

Будущие исследования должны быть направлены на создание самообучающихся систем, способных автоматически анализировать и корректировать состав обучающих данных, выявляя и устраняя источники однообразия. Иначе, мы рискуем создать не интеллектуального помощника, а эхо-камеру, повторяющую заученные истины.

Оригинал статьи: https://arxiv.org/pdf/2604.16027.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-20 18:16

🚀 Квантовые новости