Автор: Денис Аветисян
Новое исследование показывает, что модели искусственного интеллекта обладают внутренним пониманием своей собственной точности, которое часто теряется из-за общего согласия между ними.

Работа демонстрирует, что оценка ответов на вопросы, вызывающие разногласия между моделями, позволяет выявить скрытые знания о собственной корректности.
Несмотря на впечатляющие возможности больших языковых моделей (LLM), вопрос о наличии у них «привилегированных знаний» — информации о правильности ответа, недоступной внешнему наблюдателю — остаётся открытым. В работе ‘Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness’ исследователи изучают, способны ли LLM оценивать собственную корректность, и обнаруживают, что такой сигнал действительно существует, но маскируется высокой согласованностью ответов между моделями. Выделяя подмножества вопросов, по которым модели расходятся во мнениях, авторы показали, что внутренние представления LLM превосходят представления «peer»-моделей в задачах, связанных с фактическими знаниями, но не в математическом рассуждении. Какие механизмы лежат в основе этого домен-специфичного «самосознания» LLM и как его можно использовать для повышения надежности и интерпретируемости моделей?
Загадка достоверности больших языковых моделей
Несмотря на впечатляющую способность генерировать текст, напоминающий человеческий, большие языковые модели (БЯМ) часто допускают фактические ошибки и предоставляют неверные ответы. Это несоответствие между внешней производительностью и внутренней достоверностью ставит под сомнение вопрос об истинном понимании БЯМ. Модели могут успешно имитировать человеческую речь и даже решать сложные задачи, но отсутствие надежного механизма проверки фактов приводит к тому, что они выдают уверенные, но ошибочные утверждения. Данное явление указывает на то, что БЯМ, вероятно, оперируют статистическими закономерностями в данных, а не глубоким пониманием смысла, что вызывает необходимость в новых подходах к оценке и повышению надежности этих систем.
Оценка корректности ответов больших языковых моделей (LLM) представляет собой сложную задачу, поскольку простое совпадение между ответами разных моделей не является надежным индикатором истинности. Несмотря на впечатляющие результаты в решении различных задач, LLM могут выдавать убедительные, но ошибочные ответы, и консенсус между ними не гарантирует отсутствие ошибок. Это связано с тем, что модели могут опираться на статистические закономерности в данных обучения, а не на реальное понимание, что приводит к “галлюцинациям” или генерации правдоподобной, но ложной информации. Таким образом, для более точной оценки требуется разработка новых методов, выходящих за рамки простого сравнения ответов и учитывающих внутренние механизмы принятия решений моделями.
В настоящее время активно исследуется вопрос о наличии у больших языковых моделей (LLM) так называемых «привилегированных знаний» — информации, закодированной во внутренних состояниях сети, которая позволяет предсказывать правильность ответа, даже если внешние наблюдения этого не указывают. Ученые предполагают, что LLM могут формировать внутренние представления о достоверности информации, отличные от тех, что проявляются в сгенерированном тексте. Это означает, что модель может «знать», что ответ неверен, но все равно его выдавать, либо наоборот, генерировать правильный ответ, не имея явного понимания причин его верности. Изучение этих внутренних механизмов, скрытых от внешнего анализа, представляет собой ключевую задачу для повышения надежности и объяснимости LLM, позволяя отделить истинное понимание от простого статистического сопоставления.

Выявление скрытых сигналов корректности
Исследование направлено на проверку гипотезы о том, что информация о правильности ответа, генерируемого большой языковой моделью (LLM), кодируется во внутренних представлениях, называемых «скрытыми состояниями» (hidden states). Скрытые состояния представляют собой активации нейронов на каждом слое нейронной сети и формируются в процессе обработки входных данных. Предполагается, что эти состояния содержат информацию, необходимую для оценки правильности ответа, даже если эта информация не проявляется непосредственно во внешнем выводе модели. Анализ скрытых состояний позволяет получить представление о том, как модель представляет и обрабатывает знания, необходимые для решения задачи.
Для оценки способности модели кодировать информацию о правильности ответа используется линейный классификатор, называемый “линейным зондом”. Этот классификатор обучается на основе скрытых состояний языковой модели — внутренних представлений, формирующихся на каждом слое нейронной сети. Линейный зонд принимает в качестве входных данных вектор скрытого состояния и предсказывает, является ли ответ на вопрос правильным или нет. Простота линейного классификатора позволяет исключить сложность, вносимую более сложными моделями, и напрямую оценить, содержится ли информация о правильности ответа в скрытых состояниях, и насколько она легко извлекается.
Использование линейных проб позволяет определить, содержит ли внутреннее представление языковой модели (скрытые состояния) информацию, позволяющую оценить корректность ответа, даже если эта информация не была явно представлена в выходных данных. Анализируя, какие слои и компоненты скрытых состояний наиболее сильно коррелируют с правильностью ответов, можно установить, как именно и где в модели закодированы знания, необходимые для оценки корректности. Это дает возможность понять, как модель «мыслит» при оценке ответов и какие внутренние механизмы она использует для принятия решений о правильности или ошибочности информации.

Количественная оценка привилегированных знаний: Премиальный разрыв
Премиальный разрыв (premium gap) определяется как разница в производительности между зондом, обученным на скрытых состояниях большой языковой модели (LLM), и зондом, обученным на внешних представлениях тех же данных. В данном контексте, «внешние представления» подразумевают традиционные, наблюдаемые признаки, используемые в качестве входных данных для модели машинного обучения. Разница в эффективности этих двух зондов количественно оценивает, насколько LLM кодирует информацию, недоступную при использовании только внешних представлений. Измерение премиального разрыва позволяет выявить наличие «привилегированных знаний» внутри LLM, то есть информации, неявно закодированной в ее внутренних представлениях и не отраженной в явных входных данных.
Разница в производительности между зондом, обученным на скрытых состояниях большой языковой модели (LLM), и зондом, обученным на внешних представлениях, в областях фактических знаний составляет приблизительно 5%. Этот значительный «премиум-разрыв» указывает на наличие привилегированных знаний, то есть информации, неявно закодированной в LLM, которая позволяет модели оценивать корректность ответов, даже если эта информация не представлена напрямую во входных данных или выходных результатах. По сути, модель хранит мета-знания о достоверности информации, что позволяет ей превосходить модели, полагающиеся только на внешние источники данных.
Эксперименты, проведенные с моделями Llama-3.1-8B, Qwen-2.5-7B и Gemma-2-9B, последовательно демонстрируют наличие привилегированных знаний, которые не отражены во внешних представлениях. Особенно заметно это проявляется в ситуациях, когда модели дают противоречивые ответы на один и тот же вопрос. Анализ расхождений в их ответах указывает на то, что модели обладают информацией о корректности, не доступной из их публичных выходных данных, что подтверждает наличие скрытых знаний, кодируемых в их внутренних состояниях. Наблюдаемая разница в производительности между пробами, обученными на скрытых состояниях и внешних представлениях, является количественным подтверждением этого явления.

Различение фактических знаний и способности к рассуждениям
Исследование природы привилегированных знаний осуществлялось посредством анализа производительности больших языковых моделей на специализированных наборах данных. В частности, оценивалась способность моделей к воспроизведению фактической информации, используя такие базы данных, как TriviaQA, Mintaka и HotPotQA, а также к решению математических задач, представленных в наборах GSM1K и MATH. Такой подход позволил выявить различия в том, как модели обрабатывают и используют различные типы знаний, и определить, в каких областях наблюдается более выраженное проявление «привилегированных» знаний — то есть, знаний, выходящих за рамки простого запоминания фактов и требующих более глубокого понимания и способности к рассуждению.
Исследование выявило, что так называемые «привилегированные знания» — информация, позволяющая модели решать задачи, выходящие за рамки простой памяти — проявляются сильнее в задачах, требующих математического мышления, чем в задачах на проверку фактических знаний. Анализ производительности больших языковых моделей на наборах данных, включающих как фактические вопросы (TriviaQA, Mintaka, HotPotQA), так и математические задачи (GSM1K, MATH), продемонстрировал более тесную связь между внутренним представлением знаний и способностью решать математические уравнения и проблемы. Это указывает на то, что модели могут не просто запоминать факты, но и формировать более сложные когнитивные структуры, необходимые для логических рассуждений и абстрактного мышления, что особенно заметно при решении математических задач.
Исследование выявило, что зонд, обученный на фактической информации, способен восстановить от 53,7% до 75,0% исходной производительности другого зонда, предназначенного для оценки более сложных когнитивных способностей. Этот результат подчеркивает значимость концептуального понимания, заложенного в больших языковых моделях. Восстановление значительной части производительности указывает на то, что фактические знания не просто хранятся как изолированные фрагменты информации, а структурированы и связаны друг с другом на концептуальном уровне, что позволяет модели использовать их в более широком контексте и для решения разнообразных задач. Это свидетельствует о том, что даже при анализе сложных задач, базовые знания играют ключевую роль, формируя основу для более продвинутых когнитивных процессов.

Раскрытие потенциала следующего поколения больших языковых моделей
Перспективные исследования в области больших языковых моделей (LLM) все больше концентрируются на понимании того, как именно эти системы кодируют процессы рассуждения внутри своих скрытых состояний. Изучение внутренних механизмов, отвечающих за логические выводы и анализ информации, представляет собой ключевую задачу для создания более интеллектуальных и надежных моделей. Ученые стремятся выявить, какие конкретно нейронные паттерны и представления активируются при решении различных задач, как информация преобразуется и интегрируется, и каким образом LLM приходят к тем или иным заключениям. Понимание этих процессов позволит не только улучшить точность и эффективность моделей, но и сделать их работу более прозрачной и интерпретируемой, что крайне важно для доверия к искусственному интеллекту и его применения в критически важных областях.
Для более глубокого понимания процессов рассуждений, реализуемых большими языковыми моделями (LLM), активно применяются методы лексического анализа. Инструменты, такие как spaCy и GLiNER, позволяют выявлять ключевые концепции и взаимосвязи, скрытые в структуре текста, обрабатываемого моделью. Эти инструменты не просто идентифицируют отдельные слова, но и анализируют их синтаксическую роль, семантические связи и участие в формировании логических конструкций. В результате, исследователи получают возможность отследить, как модель оперирует понятиями, устанавливает причинно-следственные связи и приходит к определенным выводам, что способствует разработке более прозрачных и надежных систем искусственного интеллекта.
Разработка новых поколений больших языковых моделей (LLM) все больше ориентируется на явное моделирование и использование привилегированных знаний. Вместо того, чтобы полагаться исключительно на статистические закономерности в огромных объемах текста, исследователи стремятся внедрять в модели структурированные знания о мире — факты, правила, здравый смысл. Такой подход позволяет не только повысить точность ответов, особенно в сложных и неоднозначных ситуациях, но и сделать процесс принятия решений моделью более прозрачным и понятным. Внедрение этих знаний позволяет отслеживать логику рассуждений, выявлять источники информации и, следовательно, повышать доверие к результатам, генерируемым моделью. Это открывает путь к созданию LLM, способных не просто выдавать ответы, а объяснять, как они к ним пришли, что крайне важно для применений в критически важных областях, таких как медицина или финансы.

Исследование демонстрирует, что большие языковые модели обладают специфическими знаниями о собственной корректности, однако этот сигнал зачастую скрывается из-за тенденции к согласию между моделями. Авторы предлагают рассматривать вопросы, по которым модели расходятся во мнениях, что позволяет выявить эту скрытую информацию. Это подтверждает идею о том, что структура определяет поведение системы: соглашение между моделями маскирует внутренние знания, а анализ расхождений позволяет их обнаружить. Как заметил Блез Паскаль: «Все великие истины просты». В данном случае, простота анализа расхождений между моделями позволяет раскрыть сложные механизмы оценки собственной корректности.
Куда двигаться дальше?
Представленная работа выявляет скрытую информацию о самооценке моделей обработки естественного языка, но эта информация оказывается замаскирована кажущимся консенсусом. Если система держится на костылях из усредненных ответов, значит, мы переусложнили её, стремясь к видимому согласию, а не к истинному пониманию. Необходимо осознать, что высокая согласованность между моделями не всегда является признаком надежности, а лишь отражает общие ошибки и предвзятости.
Дальнейшие исследования должны быть направлены не на увеличение размера моделей или количества параметров, а на разработку методов, позволяющих выявлять и изолировать области, где модели действительно обладают глубокими знаниями, и отличать их от областей, где они лишь имитируют понимание. Модульность без понимания контекста — иллюзия контроля. Ключевым представляется создание диагностических инструментов, способных не просто оценивать правильность ответа, но и выявлять уверенность модели в этом ответе, а также её способность к самокритике.
Наконец, следует признать, что понятие «правильности» в контексте больших языковых моделей не является абсолютным. Необходимо разработать более гибкие и нюансированные метрики оценки, учитывающие контекст, цель и предполагаемую аудиторию. В противном случае, мы рискуем создать системы, которые кажутся компетентными, но на самом деле лишь искусно манипулируют информацией.
Оригинал статьи: https://arxiv.org/pdf/2604.12373.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Магнитные туннельные переходы: новый путь к квантовым вычислениям?
- Оптимизация без квантов: новый алгоритм превосходит QAOA
- Взгляд в будущее нейрорадиологии: тандем человека и искусственного интеллекта
- Искажение Красоты: Как AI Учит Нас, Что Есть ‘Правильное’ Искусство
- Ускорение нейросетей: новый подход для процессоров AMD
- Музыка, созданная ИИ: кто мы есть, когда слушаем?
- Грань Разума и Вычислений: Анализ Эффективности Больших Языковых Моделей
- Серебро и медь: новый взгляд на наноаллои
- Ускорение обучения языковых моделей: новый подход к передаче знаний
2026-04-15 21:23