Скрытая уверенность: как большие языковые модели оценивают собственные ответы

Автор: Денис Аветисян

Новое исследование показывает, что модели искусственного интеллекта обладают внутренним пониманием своей собственной точности, которое часто теряется из-за общего согласия между ними.

Исследование производительности многослойных перцептронов (MLP) в задачах математического рассуждения на наборах данных GSM1K и MATH демонстрирует, что увеличение выразительности зондов не выявляет скрытой привилегированной информации; внешние модели по-прежнему остаются эффективными предикторами, что указывает на ограниченность улучшения производительности за счет простого увеличения сложности зондирования.

Работа демонстрирует, что оценка ответов на вопросы, вызывающие разногласия между моделями, позволяет выявить скрытые знания о собственной корректности.

Несмотря на впечатляющие возможности больших языковых моделей (LLM), вопрос о наличии у них «привилегированных знаний» — информации о правильности ответа, недоступной внешнему наблюдателю — остаётся открытым. В работе ‘Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness’ исследователи изучают, способны ли LLM оценивать собственную корректность, и обнаруживают, что такой сигнал действительно существует, но маскируется высокой согласованностью ответов между моделями. Выделяя подмножества вопросов, по которым модели расходятся во мнениях, авторы показали, что внутренние представления LLM превосходят представления «peer»-моделей в задачах, связанных с фактическими знаниями, но не в математическом рассуждении. Какие механизмы лежат в основе этого домен-специфичного «самосознания» LLM и как его можно использовать для повышения надежности и интерпретируемости моделей?

Загадка достоверности больших языковых моделей

Несмотря на впечатляющую способность генерировать текст, напоминающий человеческий, большие языковые модели (БЯМ) часто допускают фактические ошибки и предоставляют неверные ответы. Это несоответствие между внешней производительностью и внутренней достоверностью ставит под сомнение вопрос об истинном понимании БЯМ. Модели могут успешно имитировать человеческую речь и даже решать сложные задачи, но отсутствие надежного механизма проверки фактов приводит к тому, что они выдают уверенные, но ошибочные утверждения. Данное явление указывает на то, что БЯМ, вероятно, оперируют статистическими закономерностями в данных, а не глубоким пониманием смысла, что вызывает необходимость в новых подходах к оценке и повышению надежности этих систем.

Оценка корректности ответов больших языковых моделей (LLM) представляет собой сложную задачу, поскольку простое совпадение между ответами разных моделей не является надежным индикатором истинности. Несмотря на впечатляющие результаты в решении различных задач, LLM могут выдавать убедительные, но ошибочные ответы, и консенсус между ними не гарантирует отсутствие ошибок. Это связано с тем, что модели могут опираться на статистические закономерности в данных обучения, а не на реальное понимание, что приводит к “галлюцинациям” или генерации правдоподобной, но ложной информации. Таким образом, для более точной оценки требуется разработка новых методов, выходящих за рамки простого сравнения ответов и учитывающих внутренние механизмы принятия решений моделями.

В настоящее время активно исследуется вопрос о наличии у больших языковых моделей (LLM) так называемых «привилегированных знаний» — информации, закодированной во внутренних состояниях сети, которая позволяет предсказывать правильность ответа, даже если внешние наблюдения этого не указывают. Ученые предполагают, что LLM могут формировать внутренние представления о достоверности информации, отличные от тех, что проявляются в сгенерированном тексте. Это означает, что модель может «знать», что ответ неверен, но все равно его выдавать, либо наоборот, генерировать правильный ответ, не имея явного понимания причин его верности. Изучение этих внутренних механизмов, скрытых от внешнего анализа, представляет собой ключевую задачу для повышения надежности и объяснимости LLM, позволяя отделить истинное понимание от простого статистического сопоставления.

Анализ с использованием MLP-зондов показывает, что самопредставления значительно превосходят лучшие внешние зонды во всех девяти конфигурациях, что подчеркивает существенную разницу в эффективности при извлечении фактических знаний.

Выявление скрытых сигналов корректности

Исследование направлено на проверку гипотезы о том, что информация о правильности ответа, генерируемого большой языковой моделью (LLM), кодируется во внутренних представлениях, называемых «скрытыми состояниями» (hidden states). Скрытые состояния представляют собой активации нейронов на каждом слое нейронной сети и формируются в процессе обработки входных данных. Предполагается, что эти состояния содержат информацию, необходимую для оценки правильности ответа, даже если эта информация не проявляется непосредственно во внешнем выводе модели. Анализ скрытых состояний позволяет получить представление о том, как модель представляет и обрабатывает знания, необходимые для решения задачи.

Для оценки способности модели кодировать информацию о правильности ответа используется линейный классификатор, называемый “линейным зондом”. Этот классификатор обучается на основе скрытых состояний языковой модели — внутренних представлений, формирующихся на каждом слое нейронной сети. Линейный зонд принимает в качестве входных данных вектор скрытого состояния и предсказывает, является ли ответ на вопрос правильным или нет. Простота линейного классификатора позволяет исключить сложность, вносимую более сложными моделями, и напрямую оценить, содержится ли информация о правильности ответа в скрытых состояниях, и насколько она легко извлекается.

Использование линейных проб позволяет определить, содержит ли внутреннее представление языковой модели (скрытые состояния) информацию, позволяющую оценить корректность ответа, даже если эта информация не была явно представлена в выходных данных. Анализируя, какие слои и компоненты скрытых состояний наиболее сильно коррелируют с правильностью ответов, можно установить, как именно и где в модели закодированы знания, необходимые для оценки корректности. Это дает возможность понять, как модель «мыслит» при оценке ответов и какие внутренние механизмы она использует для принятия решений о правильности или ошибочности информации.

Экспериментальная схема предполагает сравнение производительности зондов, обученных на представлениях целевой и внешних моделей <span class="katex-eq" data-katex-display="false">\mathbf{h}_{\text{target}}</span> и <span class="katex-eq" data-katex-display="false">\mathbf{h}_{\text{ext}}</span>, для оценки правильности ответов, при этом разница в производительности между зондами, обученными на целевой и внешней моделях, определяет преимущество целевой модели. — Экспериментальная схема предполагает сравнение производительности зондов, обученных на представлениях целевой и внешних моделей $\mathbf{h}_{\text{target}}$ и $\mathbf{h}_{\text{ext}}$ , для оценки правильности ответов, при этом разница в производительности между зондами, обученными на целевой и внешней моделях, определяет преимущество целевой модели.

Количественная оценка привилегированных знаний: Премиальный разрыв

Премиальный разрыв (premium gap) определяется как разница в производительности между зондом, обученным на скрытых состояниях большой языковой модели (LLM), и зондом, обученным на внешних представлениях тех же данных. В данном контексте, «внешние представления» подразумевают традиционные, наблюдаемые признаки, используемые в качестве входных данных для модели машинного обучения. Разница в эффективности этих двух зондов количественно оценивает, насколько LLM кодирует информацию, недоступную при использовании только внешних представлений. Измерение премиального разрыва позволяет выявить наличие «привилегированных знаний» внутри LLM, то есть информации, неявно закодированной в ее внутренних представлениях и не отраженной в явных входных данных.

Разница в производительности между зондом, обученным на скрытых состояниях большой языковой модели (LLM), и зондом, обученным на внешних представлениях, в областях фактических знаний составляет приблизительно 5%. Этот значительный «премиум-разрыв» указывает на наличие привилегированных знаний, то есть информации, неявно закодированной в LLM, которая позволяет модели оценивать корректность ответов, даже если эта информация не представлена напрямую во входных данных или выходных результатах. По сути, модель хранит мета-знания о достоверности информации, что позволяет ей превосходить модели, полагающиеся только на внешние источники данных.

Эксперименты, проведенные с моделями Llama-3.1-8B, Qwen-2.5-7B и Gemma-2-9B, последовательно демонстрируют наличие привилегированных знаний, которые не отражены во внешних представлениях. Особенно заметно это проявляется в ситуациях, когда модели дают противоречивые ответы на один и тот же вопрос. Анализ расхождений в их ответах указывает на то, что модели обладают информацией о корректности, не доступной из их публичных выходных данных, что подтверждает наличие скрытых знаний, кодируемых в их внутренних состояниях. Наблюдаемая разница в производительности между пробами, обученными на скрытых состояниях и внешних представлениях, является количественным подтверждением этого явления.

Анализ разницы между самооценкой и внешней оценкой качества представлений на подмножестве противоречий показывает, что для фактических задач привилегированные знания формируются в ранних и средних слоях сети, в то время как для математических задач (MATH и GSM1K) преимущество самооценки отсутствует на всей глубине сети.

Различение фактических знаний и способности к рассуждениям

Исследование природы привилегированных знаний осуществлялось посредством анализа производительности больших языковых моделей на специализированных наборах данных. В частности, оценивалась способность моделей к воспроизведению фактической информации, используя такие базы данных, как TriviaQA, Mintaka и HotPotQA, а также к решению математических задач, представленных в наборах GSM1K и MATH. Такой подход позволил выявить различия в том, как модели обрабатывают и используют различные типы знаний, и определить, в каких областях наблюдается более выраженное проявление «привилегированных» знаний — то есть, знаний, выходящих за рамки простого запоминания фактов и требующих более глубокого понимания и способности к рассуждению.

Исследование выявило, что так называемые «привилегированные знания» — информация, позволяющая модели решать задачи, выходящие за рамки простой памяти — проявляются сильнее в задачах, требующих математического мышления, чем в задачах на проверку фактических знаний. Анализ производительности больших языковых моделей на наборах данных, включающих как фактические вопросы (TriviaQA, Mintaka, HotPotQA), так и математические задачи (GSM1K, MATH), продемонстрировал более тесную связь между внутренним представлением знаний и способностью решать математические уравнения и проблемы. Это указывает на то, что модели могут не просто запоминать факты, но и формировать более сложные когнитивные структуры, необходимые для логических рассуждений и абстрактного мышления, что особенно заметно при решении математических задач.

Исследование выявило, что зонд, обученный на фактической информации, способен восстановить от 53,7% до 75,0% исходной производительности другого зонда, предназначенного для оценки более сложных когнитивных способностей. Этот результат подчеркивает значимость концептуального понимания, заложенного в больших языковых моделях. Восстановление значительной части производительности указывает на то, что фактические знания не просто хранятся как изолированные фрагменты информации, а структурированы и связаны друг с другом на концептуальном уровне, что позволяет модели использовать их в более широком контексте и для решения разнообразных задач. Это свидетельствует о том, что даже при анализе сложных задач, базовые знания играют ключевую роль, формируя основу для более продвинутых когнитивных процессов.

Анализ расхождений в задачах GSM1K и MATH показывает, что сложность математического рассуждения является общедоступной характеристикой, в отличие от фактических знаний, где наблюдается существенная разница в производительности между моделями.

Раскрытие потенциала следующего поколения больших языковых моделей

Перспективные исследования в области больших языковых моделей (LLM) все больше концентрируются на понимании того, как именно эти системы кодируют процессы рассуждения внутри своих скрытых состояний. Изучение внутренних механизмов, отвечающих за логические выводы и анализ информации, представляет собой ключевую задачу для создания более интеллектуальных и надежных моделей. Ученые стремятся выявить, какие конкретно нейронные паттерны и представления активируются при решении различных задач, как информация преобразуется и интегрируется, и каким образом LLM приходят к тем или иным заключениям. Понимание этих процессов позволит не только улучшить точность и эффективность моделей, но и сделать их работу более прозрачной и интерпретируемой, что крайне важно для доверия к искусственному интеллекту и его применения в критически важных областях.

Для более глубокого понимания процессов рассуждений, реализуемых большими языковыми моделями (LLM), активно применяются методы лексического анализа. Инструменты, такие как spaCy и GLiNER, позволяют выявлять ключевые концепции и взаимосвязи, скрытые в структуре текста, обрабатываемого моделью. Эти инструменты не просто идентифицируют отдельные слова, но и анализируют их синтаксическую роль, семантические связи и участие в формировании логических конструкций. В результате, исследователи получают возможность отследить, как модель оперирует понятиями, устанавливает причинно-следственные связи и приходит к определенным выводам, что способствует разработке более прозрачных и надежных систем искусственного интеллекта.

Разработка новых поколений больших языковых моделей (LLM) все больше ориентируется на явное моделирование и использование привилегированных знаний. Вместо того, чтобы полагаться исключительно на статистические закономерности в огромных объемах текста, исследователи стремятся внедрять в модели структурированные знания о мире — факты, правила, здравый смысл. Такой подход позволяет не только повысить точность ответов, особенно в сложных и неоднозначных ситуациях, но и сделать процесс принятия решений моделью более прозрачным и понятным. Внедрение этих знаний позволяет отслеживать логику рассуждений, выявлять источники информации и, следовательно, повышать доверие к результатам, генерируемым моделью. Это открывает путь к созданию LLM, способных не просто выдавать ответы, а объяснять, как они к ним пришли, что крайне важно для применений в критически важных областях, таких как медицина или финансы.

Анализ показал, что добавление синтаксической и контекстуальной информации к именованным сущностям и существительным значительно повышает точность предсказания (средний AUC), что подтверждается разницей между результатами, полученными на основе оригинальных вопросов и вопросов, содержащих только лексические элементы, с учетом 95% доверительных интервалов, полученных в результате кросс-валидации на моделях Gemma-2-9B, Llama-3.1-8B и Qwen-2.5-7B.

Исследование демонстрирует, что большие языковые модели обладают специфическими знаниями о собственной корректности, однако этот сигнал зачастую скрывается из-за тенденции к согласию между моделями. Авторы предлагают рассматривать вопросы, по которым модели расходятся во мнениях, что позволяет выявить эту скрытую информацию. Это подтверждает идею о том, что структура определяет поведение системы: соглашение между моделями маскирует внутренние знания, а анализ расхождений позволяет их обнаружить. Как заметил Блез Паскаль: «Все великие истины просты». В данном случае, простота анализа расхождений между моделями позволяет раскрыть сложные механизмы оценки собственной корректности.

Куда двигаться дальше?

Представленная работа выявляет скрытую информацию о самооценке моделей обработки естественного языка, но эта информация оказывается замаскирована кажущимся консенсусом. Если система держится на костылях из усредненных ответов, значит, мы переусложнили её, стремясь к видимому согласию, а не к истинному пониманию. Необходимо осознать, что высокая согласованность между моделями не всегда является признаком надежности, а лишь отражает общие ошибки и предвзятости.

Дальнейшие исследования должны быть направлены не на увеличение размера моделей или количества параметров, а на разработку методов, позволяющих выявлять и изолировать области, где модели действительно обладают глубокими знаниями, и отличать их от областей, где они лишь имитируют понимание. Модульность без понимания контекста — иллюзия контроля. Ключевым представляется создание диагностических инструментов, способных не просто оценивать правильность ответа, но и выявлять уверенность модели в этом ответе, а также её способность к самокритике.

Наконец, следует признать, что понятие «правильности» в контексте больших языковых моделей не является абсолютным. Необходимо разработать более гибкие и нюансированные метрики оценки, учитывающие контекст, цель и предполагаемую аудиторию. В противном случае, мы рискуем создать системы, которые кажутся компетентными, но на самом деле лишь искусно манипулируют информацией.

Оригинал статьи: https://arxiv.org/pdf/2604.12373.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-15 21:23

🚀 Квантовые новости