Языковое Разнообразие Вопросов и Знания Больших Моделей

Автор: Денис Аветисян


Новое исследование показывает, как вариативность формулировок запросов влияет на качество ответов открытых больших языковых моделей.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Крупные языковые модели демонстрируют склонность к генерации галлюцинаторных определений даже при прямом запросе примеров для редких терминов, что указывает на их уязвимость при работе со специализированными знаниями.
Крупные языковые модели демонстрируют склонность к генерации галлюцинаторных определений даже при прямом запросе примеров для редких терминов, что указывает на их уязвимость при работе со специализированными знаниями.

Анализ данных предварительного обучения позволяет выявить связь между частотой употребления терминов и точностью ответов, особенно в медицинской тематике.

Несмотря на впечатляющие успехи больших языковых моделей (LLM) в предоставлении фактических ответов, их способность к генерации разнообразных типов ответов, таких как примеры или перефразировки, остается ограниченной. В данной работе, представленной под названием ‘TrackList: Tracing Back Query Linguistic Diversity for Head and Tail Knowledge in Open Large Language Models’, предложен метод анализа влияния лингвистического разнообразия запросов на производительность LLM, с акцентом на корреляцию между частотой встречаемости терминов в обучающих данных и качеством ответов, особенно в медицинской области. Результаты исследования показали, что LLM демонстрируют наилучшую производительность при ответах на определения, и наихудшую — при предоставлении примеров, склонны к перефразированию популярных знаний, но испытывают трудности с технической информацией. Какие новые стратегии необходимо разработать для повышения гибкости и точности LLM при работе с разнообразными запросами и специализированными знаниями?


Параметрическое Знание: Вызов для Искусственного Интеллекта

Современные большие языковые модели, такие как OLMo-7b и Pythia-1b, принципиально отличаются от традиционных систем искусственного интеллекта тем, что хранят знания не в явном виде, а непосредственно в значениях своих параметров — миллионов и миллиардов чисел, определяющих поведение нейронной сети. Этот подход, известный как параметрическое знание, создает серьезные трудности с отслеживанием происхождения информации и контролем над её воспроизведением. В отличие от баз данных или экспертных систем, где знания представлены в структурированном формате, в параметрах языковой модели информация распределена неявно, что затрудняет определение того, откуда взялся тот или иной факт и как он влияет на генерируемые тексты. Это обстоятельство ставит перед исследователями задачу разработки новых методов анализа и управления знаниями, заключенными в параметрах моделей, для обеспечения их надежности и предсказуемости.

Параметрическая память, или распределенное запоминание, в больших языковых моделях проявляется в способности воспроизводить фрагменты обучающих данных. Это происходит не путем явного хранения информации, а благодаря тому, что знания распределены по миллиардам параметров сети. В процессе обучения модель не просто «запоминает» данные, а формирует статистические закономерности, позволяющие ей генерировать текст, схожий с тем, что она видела ранее. Однако, эта особенность может приводить к нежелательному воспроизведению конфиденциальной информации, содержавшейся в обучающем наборе, или к усилению существующих в данных предубеждений. Например, если обучающий корпус содержит стереотипные представления о каких-либо группах людей, модель с большой вероятностью воспроизведет эти стереотипы в сгенерированном тексте, что подчеркивает важность тщательной фильтрации и балансировки обучающих данных для обеспечения справедливости и надежности языковых моделей.

Понимание механизмов представления и извлечения информации в больших языковых моделях (LLM) является ключевым для снижения рисков, связанных с их использованием. Исследования показывают, что LLM хранят знания неявно, в своих параметрах, что затрудняет отслеживание происхождения информации и контроль над её воспроизведением. Изучение того, как именно модели кодируют и извлекают данные, позволяет выявлять потенциальные смещения и предвзятости, заложенные в обучающих данных. Разработка методов, позволяющих “заглянуть внутрь” LLM и понять логику их работы, необходима для повышения их надежности, предсказуемости и, в конечном итоге, для создания более безопасных и полезных инструментов на основе искусственного интеллекта. Улучшение интерпретируемости моделей является важным шагом к построению доверия к ним и к обеспечению ответственного использования технологий машинного обучения.

Анализ галлюцинаций на 100 терминах показал, что модель OLMo-1b демонстрирует наименьший уровень ошибок (33%).
Анализ галлюцинаций на 100 терминах показал, что модель OLMo-1b демонстрирует наименьший уровень ошибок (33%).

Трассировка LLM-Ответов с Помощью TrackList

Конвейер TrackList представляет собой структурированную систему, предназначенную для анализа, отслеживания и оценки ответов языковых моделей на разнообразные запросы. Данный конвейер обеспечивает возможность детального изучения процесса генерации ответов, начиная от исходного запроса и заканчивая финальным результатом. Он позволяет проводить анализ по различным параметрам, включая точность, релевантность и согласованность ответов, а также выявлять потенциальные ошибки или неточности. В основе TrackList лежит возможность трассировки каждого этапа генерации ответа, что облегчает понимание причин, лежащих в основе конкретного результата, и позволяет проводить целенаправленную оптимизацию языковой модели.

Платформа TrackList использует структурированные наборы данных, такие как RefoMed-EN, для классификации вопросов по типу, что позволяет более детально анализировать поведение больших языковых моделей (LLM). Разделение запросов на категории, например, вопросы-определения, вопросы, требующие рассуждений, или фактические вопросы, позволяет выявить специфические закономерности в ответах LLM и оценить их производительность в различных сценариях. Такая категоризация способствует более точному определению сильных и слабых сторон моделей и позволяет проводить целенаправленную оптимизацию и улучшение их ответов.

Анализ с использованием пайплайна TrackList показал, что при использовании модели OLMo-1b на запросах, требующих определения, существует корреляция между метрикой BERTScore и частотой встречаемости терминов, выраженная коэффициентом корреляции Пирсона, равным $0.27$. Данный результат указывает на связь между частотой использования определенных терминов в обучающих данных и качеством генерируемых моделью ответов на вопросы, требующие определения понятий. Более высокая частота встречаемости терминов в контексте определения, по-видимому, коррелирует с более высокими значениями BERTScore, что может свидетельствовать о более точных и релевантных ответах.

Наш метод состоит из пяти этапов, включающих определение частоты медицинских концепций RefoMed-EN, вычисление BERTScore между ответами модели и эталонными данными, расчет корреляции Пирсона и вычисление вероятностной метрики на основе CLS-встраиваний и частоты терминов в корпусе предварительного обучения.
Наш метод состоит из пяти этапов, включающих определение частоты медицинских концепций RefoMed-EN, вычисление BERTScore между ответами модели и эталонными данными, расчет корреляции Пирсона и вычисление вероятностной метрики на основе CLS-встраиваний и частоты терминов в корпусе предварительного обучения.

Раскрытие Распределения Знаний в LLM

Анализ с использованием TrackList показал, что большие языковые модели (LLM) демонстрируют различную степень зависимости от “головных знаний” — часто встречающейся информации в обучающем корпусе — и “хвостовых знаний” — менее распространенных фактов. Это означает, что при генерации ответов LLM склонны чаще использовать информацию, которая была представлена в большом количестве примеров во время обучения, и реже — редкие или специфические знания. Степень этой зависимости варьируется между различными моделями и может влиять на точность, полноту и обобщающую способность ответов, особенно в ситуациях, требующих доступа к нишевой или специализированной информации.

Анализ данных, полученных при обучении больших языковых моделей (LLM), демонстрирует прямую зависимость между частотой встречаемости слова в корпусе предварительного обучения, таком как DOLMA или The Pile, и вероятностью генерации этого слова моделью в ответ на запрос. Более часто встречающиеся слова и фразы, как правило, генерируются LLM с большей вероятностью, что указывает на то, что модель сильнее опирается на “головные” знания — информацию, представленную в большом количестве в обучающих данных. Этот эффект проявляется в различных моделях и корпусах, что подтверждает значимость частотности слов как ключевого фактора, влияющего на процесс генерации текста.

Для количественной оценки распределения знаний в больших языковых моделях (LLM) исследователи используют инструменты, такие как WIMBD и библиотеку infini-gram, позволяющие получить доступ к и анализировать предобучающие корпуса, например, DOLMA и The Pile. Анализ с использованием CLS n-gram embeddings на корпусе RefoMed-EN и модели OLMo-1b показал коэффициент корреляции Пирсона -0.44, что указывает на обратную зависимость между сходством эмбеддингов и частотой встречаемости знаний в корпусе. Данный показатель подтверждает, что более редкие факты, как правило, представлены менее сходными эмбеддингами, а часто встречающаяся информация — более консистентными представлениями в векторном пространстве.

Оценка Надежности LLM и Феномен Галлюцинаций

Исследования с использованием набора данных TrackList выявили склонность больших языковых моделей, включая OLMo-1b и OLMo-7b, к так называемым “галлюцинациям” — генерации информации, не соответствующей действительности или лишенной логической связности. Этот феномен проявляется в создании фактологически неверных утверждений или бессмысленных последовательностей слов, что подчеркивает необходимость тщательной оценки надежности и точности генерируемого текста. Подобные “галлюцинации” представляют собой серьезную проблему для практического применения этих моделей в задачах, требующих высокой степени достоверности, и стимулируют разработку методов для их обнаружения и смягчения.

Оценка качества генерируемого текста и выявление галлюцинаций в больших языковых моделях (LLM) требует применения метрик семантической близости, среди которых особое значение имеет BERTScore. Данная метрика, основанная на контекстуализированных векторных представлениях слов, позволяет оценивать, насколько близко по смыслу сгенерированный текст соответствует исходному, или «золотому стандарту». В отличие от традиционных метрик, фокусирующихся на совпадении отдельных слов, BERTScore учитывает семантические связи, что делает её более надежным инструментом для обнаружения случаев, когда модель генерирует фактически неверную или бессмысленную информацию, даже если формально текст выглядит связным. Эффективность BERTScore заключается в способности выявлять тонкие смысловые отклонения, которые могут указывать на «галлюцинации» модели и, следовательно, являются ключевым фактором при оценке надежности и точности генерируемого контента.

Исследования показали, что модель OLMo-1b демонстрирует наименьший уровень галлюцинаций — всего 33% — среди протестированных моделей, что свидетельствует о её повышенной способности генерировать фактические и логически связные ответы. В то время как модель OLMo-7b выявила слабую корреляцию Пирсона (0.15) между показателем семантической близости BERTScore и частотой употребления терминов в запросах, касающихся определений и наименований, что указывает на сложность оценки достоверности генерируемого текста исключительно на основе частоты слов. Полученные результаты подчеркивают важность использования комплексных метрик, включая семантический анализ, для выявления и минимизации галлюцинаций в больших языковых моделях и обеспечения надежности генерируемой информации.

Исследование, представленное в данной работе, демонстрирует, что эффективность открытых больших языковых моделей тесно связана с лингвистическим разнообразием запросов и частотой терминов в обучающих данных. Этот подход к анализу, позволяющий проследить влияние лингвистических особенностей на качество ответов, особенно в медицинской сфере, подчеркивает важность математической чистоты и доказуемости алгоритмов. Как однажды заметил Алан Тьюринг: «Существенное препятствие для развития искусственного интеллекта заключается в том, что большинство людей не понимают, что машины могут делать». Данное исследование, отслеживая корреляцию между данными претренировки и качеством ответов, подтверждает эту мысль, показывая, что машины способны выдавать осмысленные результаты, если их обучают на данных, отражающих реальное лингвистическое разнообразие.

Что Дальше?

Представленный анализ, хотя и демонстрирует корреляцию между частотой терминов в обучающих данных и качеством ответов больших языковых моделей, не снимает фундаментального вопроса: является ли эта корреляция причинно-следственной, или же существует некий скрытый инвариант, влияющий на оба параметра. Утверждать, что простое увеличение частоты определенных терминов гарантирует улучшение ответов — наивно. Необходимо строгое математическое доказательство, а не эмпирические наблюдения на ограниченном наборе данных.

Будущие исследования должны сосредоточиться на разработке метрик, способных измерять не просто частоту, но и распределение лингвистического разнообразия в обучающих данных. Простое суммирование токенов не отражает сложной структуры языка. Необходимо учитывать синтаксические связи, семантические роли и контекстуальную зависимость. Игнорирование этих аспектов приводит к неполной и, следовательно, бесполезной информации.

В конечном счете, истинный прогресс в области интерпретируемости больших языковых моделей требует не просто обнаружения корреляций, а построения формальной модели, способной предсказывать поведение модели на основе ее архитектуры и обучающих данных. Пока же мы имеем дело лишь с эвристиками и приближениями, которые, хотя и полезны, далеки от математической элегантности.


Оригинал статьи: https://arxiv.org/pdf/2511.21006.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-30 06:59