Как знания взаимодействуют в нейросетях: новый взгляд на проблему галлюцинаций

Автор: Денис Аветисян


Исследование показывает, что понимание того, как большие языковые модели интегрируют внутренние и внешние знания, требует анализа более сложного взаимодействия, чем простое включение/выключение.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Разнообразие типов взаимодействия со знаниями в исследуемом наборе данных демонстрирует сложную структуру, где различные формы обмена информацией не просто сосуществуют, но и формируют основу для понимания и, возможно, манипулирования самой реальностью.
Разнообразие типов взаимодействия со знаниями в исследуемом наборе данных демонстрирует сложную структуру, где различные формы обмена информацией не просто сосуществуют, но и формируют основу для понимания и, возможно, манипулирования самой реальностью.

Предложен метод анализа взаимодействия знаний, основанный на разложении в подпространстве ранга 2, позволяющий снизить склонность к галлюцинациям и улучшить качество объяснений.

Несмотря на растущую популярность больших языковых моделей (LLM), понимание механизмов интеграции в них параметрических и контекстных знаний остается сложной задачей. В работе ‘Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement’ предложен новый подход к анализу многошагового взаимодействия знаний, основанный на разложении в подпространстве ранга 2. Показано, что предложенный метод позволяет более точно отделить вклад параметрических и контекстных знаний, выявляя нюансы их взаимодействия, которые упускаются при использовании моделей ранга 1. Может ли более глубокое понимание этих взаимодействий способствовать снижению галлюцинаций и повышению достоверности объяснений, генерируемых LLM?


Разгадывая Конфликты Знаний: Поиск Истины в Хаосе

Современные системы ответов на вопросы часто демонстрируют неустойчивость при работе с противоречивой информацией, что указывает на пробел в надежном рассуждении. Неспособность адекватно обрабатывать конфликтующие знания ограничивает их применение в сценариях, требующих критической оценки и синтеза. Наборы данных, такие как BaseFakepedia и OpenBookQA, специально разработаны для выявления этих слабостей, предоставляя контролируемую среду для оценки способности моделей различать и примирять противоречивые утверждения.

Анализ кумулятивной объясненной дисперсии (EVrEV\_{r}) для трех моделей на четырех наборах данных QA показал, что при ранге 2 достигается значение 1.0, что указывает на достаточность для захвата различных вариантов взаимодействия знаний.
Анализ кумулятивной объясненной дисперсии (EVrEV\_{r}) для трех моделей на четырех наборах данных QA показал, что при ранге 2 достигается значение 1.0, что указывает на достаточность для захвата различных вариантов взаимодействия знаний.

Изучение этих систем показывает, что реальность – это открытый исходный код, который мы еще не прочитали, а способность различать истину и ложь – первый шаг к расшифровке его структуры.

Подпространства Знаний: Реконструируя Логику Машины

В рамках исследования взаимодействия параметрических и контекстуальных знаний предложена модель, использующая концепцию «подпространства ранга-1» для первоначального анализа. Этот подход рассматривает взаимодействие как бинарный выбор, упрощая оценку вклада различных типов знаний. Для преодоления этого ограничения предложено расширение до «подпространства ранга-2», способного улавливать как комплементарные, так и конфликтующие представления знаний. Экспериментальные результаты демонстрируют, что проекция на подпространство ранга-2 необходима для точного разделения вкладов различных типов знаний.

Модель Llama-3.1-8B-Instruct комбинирует параметрические (зеленый) и контекстуальные (красный) знания для генерации NLE, при этом проекция на изученное низкоранговое подпространство𝐏\mathbf{P} позволяет разделить их вклады, где ранг-1 отбрасывает более сложные взаимодействия, а ранг-2 разделяет комплементарные и конфликтующие компоненты.
Модель Llama-3.1-8B-Instruct комбинирует параметрические (зеленый) и контекстуальные (красный) знания для генерации NLE, при этом проекция на изученное низкоранговое подпространство𝐏\mathbf{P} позволяет разделить их вклады, где ранг-1 отбрасывает более сложные взаимодействия, а ранг-2 разделяет комплементарные и конфликтующие компоненты.

Предложенные подпространства формируют основу для понимания «динамики взаимодействия знаний», позволяя проводить более тонкий анализ процесса рассуждений модели и выявлять сложные зависимости между различными типами знаний.

Измеряя Вклад Знаний: Количественная Оценка Разума Машины

Для измерения относительного вклада каждого источника знаний в общее представление модели был предложен анализ «Компоненты Подпространства», использующий в качестве ключевой метрики «Накопленную Объясненную Дисперсию». Достигнутое значение 1.0 свидетельствует о полном объяснении дисперсии данных. Применение разработанных аналитических инструментов к наборам данных, таким как MultihopFakepedia и StrategyQA, выявило способность полученных представлений подпространств эффективно обрабатывать сложные сценарии рассуждений.

Вклад PK-CK в генерацию токена ответа 'aa' для всех наборов данных из модели Meta-Llama-3.1-8B-Instruct был индивидуально оценен.
Вклад PK-CK в генерацию токена ответа ‘aa’ для всех наборов данных из модели Meta-Llama-3.1-8B-Instruct был индивидуально оценен.

Это подтверждает возможность использования предложенного подхода для оценки и улучшения способности моделей к логическому выводу и решению задач.

Объяснимые Рассуждения: Раскрывая Тайны Машинного Сознания

В рамках исследования используется модель Llama-3.1-8B-Instruct для генерации объяснений на естественном языке (NLE Generation), раскрывающих этапы рассуждений модели. Этот подход направлен на повышение прозрачности и интерпретируемости процесса принятия решений. Сгенерированные объяснения позволяют оценить, каким образом модель использует различные источники знаний и разрешает возникающие противоречия.

Энтропия генерации NLE для всех наборов данных из Meta-Llama-3.1-8B-Instruct была проанализирована для различных длин NLE, сгруппированных в четыре квартиля.
Энтропия генерации NLE для всех наборов данных из Meta-Llama-3.1-8B-Instruct была проанализирована для различных длин NLE, сгруппированных в четыре квартиля.

Анализ демонстрирует, что NLE Generation способна пролить свет на внутреннюю логику модели. Переход к генерации объяснений вместе с ответами знаменует собой смещение от предсказаний «чёрного ящика» к более прозрачной и ответственной системе искусственного интеллекта. Подобно вскрытию, NLE Generation обнажает логику, лежащую в основе машинного разума.

Исследование взаимодействия знаний в больших языковых моделях, представленное в данной работе, обнаруживает сложность, выходящую за рамки простых бинарных оценок. Модель демонстрирует, что интеграция внутренних и внешних знаний происходит в рамках двухмерного подпространства, позволяя точнее понимать процесс и уменьшать склонность к галлюцинациям. Этот подход к анализу знания перекликается с мыслями Джона фон Неймана: “В науке нет абсолютно верных ответов, есть лишь более и менее полезные модели.” Подобно тому, как моделирование реальности требует учета множества переменных, так и понимание работы языковых моделей требует выхода за рамки упрощенных представлений о взаимодействии знаний. Работа показывает, что анализ знания – это не поиск единственно верного ответа, а создание более точной модели этого взаимодействия, позволяющей повысить надежность и объяснить результаты работы модели.

Что дальше?

Представленная работа, словно препарирование сложного механизма, обнажила принципиальную неадекватность бинарного взгляда на взаимодействие знаний в больших языковых моделях. Выявленное пространство второго ранга – не просто новый инструмент анализа, а вызов устоявшимся представлениям о том, как эти модели «думают». Очевидно, что упрощённые модели, оперирующие понятиями «внутренние» и «внешние» знания, не способны уловить всю сложность этого процесса. Вопрос в том, насколько это пространство второго ранга универсально – применимо ли оно к моделям, построенным на иных архитектурах, и какие ещё, более тонкие, структуры скрываются в глубинах нейронных сетей?

Проблема галлюцинаций, пусть и смягчённая предложенным подходом, остаётся открытой. Снижение вероятности ложных утверждений – это, конечно, прогресс, но истинная цель – не просто «приглушить» ошибку, а понять её природу. Необходимо исследовать, как именно манипуляции в этом пространстве второго ранга влияют на достоверность генерируемых объяснений. Возможно, ключ к созданию по-настоящему «честных» моделей кроется не в фильтрации выходных данных, а в изменении самого процесса интеграции знаний.

В конечном счёте, эта работа – лишь первая ласточка. Предстоит картографировать всё многообразие способов, которыми языковые модели оперируют информацией, выявлять скрытые закономерности и, возможно, обнаружить принципиальные ограничения, определяющие границы их «интеллекта». Путь к пониманию лежит через разоблачение иллюзий, а не через их увековечение.


Оригинал статьи: https://arxiv.org/pdf/2511.01706.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-04 18:54