Автор: Денис Аветисян
Новое исследование показывает, что основная проблема точности больших языковых моделей заключается не в недостатке знаний, а в трудностях с их извлечением из памяти.
Ключевым ограничением для фактической точности больших языковых моделей является не кодирование знаний, а их последующий поиск и извлечение.
Несмотря на впечатляющий прогресс больших языковых моделей (LLM) в хранении знаний, остается неясным, ограничивает ли их фактическую точность нехватка информации или трудности с ее извлечением. В работе «Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality» предложен новый подход к профилированию фактических знаний, который позволяет отделить проблемы с кодированием информации от проблем с ее доступом. Исследование показывает, что современные LLM, такие как GPT-5 и Gemini-3, демонстрируют почти полное кодирование фактов, однако основным препятствием к повышению фактической точности является именно способность к извлечению закодированных знаний, а не их отсутствие. Смогут ли будущие разработки в области LLM сместить акцент с масштабирования моделей на совершенствование механизмов доступа к уже накопленным знаниям?
Парадокс Знания: Кодирование и Извлечение
Современные языковые модели демонстрируют впечатляющую способность к хранению огромных объемов информации, однако часто выдают неточные ответы, что указывает на разрыв между простым запоминанием и эффективным извлечением знаний. Эти модели, по сути, подобны обширным библиотекам, где книги хранятся в идеальном порядке, но поиск нужной информации оказывается затруднен. Несмотря на способность удерживать факты, языковые модели испытывают трудности в решении задач, требующих логических рассуждений и применения накопленных знаний к новым ситуациям. Этот парадокс ставит вопрос о том, достаточно ли просто хранить информацию, или же необходимы более сложные механизмы организации и обработки знаний для достижения истинного интеллекта.
Несмотря на впечатляющую способность к хранению фактов, передовые языковые модели, такие как GPT-5 и Gemini-3, демонстрируют ограниченные возможности в решении элементарных задач, требующих логических рассуждений. Исследования показывают, что даже при достижении почти полного насыщения в плане фактического кодирования — до 95-98% — это не гарантирует точного извлечения и применения закодированной информации. Модели способны запоминать огромные объемы данных, однако испытывают трудности с установлением связей между фактами и их использованием для ответов на вопросы, требующие не простого поиска, а анализа и синтеза информации. Этот парадокс указывает на фундаментальные ограничения в способе представления знаний и их последующего извлечения, подчеркивая, что простое увеличение объема хранимых данных не является достаточным условием для создания действительно интеллектуальных систем.
Исследования показали, что, несмотря на впечатляющую способность к хранению информации, современные большие языковые модели (LLM) демонстрируют значительный пробел в производительности при ответах на вопросы, требующие не простого поиска данных, а логического вывода и применения знаний. Установлено, что модели не способны напрямую воспроизвести от 26 до 34% зафиксированной информации, даже при практически полном охвате фактических данных (95-98%). Этот феномен указывает на более глубокую проблему, связанную не с объемом хранимой информации, а с тем, как она структурирована и представлена внутри модели, что препятствует эффективному доступу и использованию накопленных знаний для решения сложных задач и формирования логически обоснованных ответов.
Профилирование Знаний: Разложение Сложного
Профилирование знаний представляет собой методологию, позволяющую характеризовать фактические знания в больших языковых моделях (LLM) посредством систематического анализа процессов хранения и извлечения фактов. Данный подход включает в себя оценку способности модели запоминать информацию и успешно воспроизводить её по запросу. Анализ осуществляется путем подачи модели известных фактов и оценки её ответа, что позволяет определить, как конкретный факт представлен в её параметрах и насколько эффективно он может быть извлечен. Результаты профилирования позволяют оценить надёжность и полноту фактической базы знаний LLM, а также выявить области, требующие улучшения в процессе обучения и хранения информации.
В рамках профилирования знаний, предложенная методика выделяет четыре ключевых профиля, характеризующих способы хранения и воспроизведения фактов в больших языковых моделях. Неудачное кодирование (Encoding Failure) означает, что факт отсутствует в базе знаний модели. Прямой вызов (Direct Recall) указывает на успешное хранение факта и его непосредственное воспроизведение по запросу. Ошибка вызова (Recall Failure) свидетельствует о том, что факт закодирован, но не может быть воспроизведен напрямую, требуя дополнительной обработки. Наконец, Вызов с рассуждением (Recall with Thinking) обозначает успешное кодирование факта, требующее логических операций или рассуждений для его извлечения и представления в ответ на запрос.
Классификация знаний на профили — неспособность к кодированию, прямое извлечение, сбой извлечения и извлечение с рассуждением — позволяет точно определить слабые места в фактической базе знаний больших языковых моделей (LLM) и целенаправленно улучшать их. Анализ современных LLM показывает, что уровень прямого извлечения фактов составляет от 66% до 74%, что свидетельствует о значительном разрыве между успешным сохранением информации и способностью к ее непосредственному воспроизведению. Это указывает на необходимость оптимизации не только процессов кодирования знаний, но и механизмов извлечения, чтобы обеспечить более эффективный доступ к сохраненной информации.
WikiProfile: Эталон для Оценки Знаний
WikiProfile — это эталонный набор данных (benchmark), разработанный для оценки возможностей языковых моделей в области профилирования знаний. Его ключевой особенностью является построение на базе автоматизированного конвейера (Automated Pipeline), что обеспечивает масштабируемость и эффективность процесса создания и обновления набора данных. Автоматизация позволяет оперативно расширять WikiProfile новыми фактами и вопросами, а также поддерживать его актуальность, что критически важно для объективной оценки быстро развивающихся языковых моделей. Использование конвейера также минимизирует ручной труд и потенциальные ошибки, связанные с человеческим фактором.
В основе WikiProfile лежит использование различных типов вопросов для оценки как способности к кодированию информации, так и к её извлечению из памяти. Прямые вопросы (Direct Questions) требуют от модели непосредственного воспроизведения известного факта. В то же время, обратные вопросы (Reverse Questions) требуют логического вывода и переформулировки знания, что позволяет оценить способность модели к гибкому использованию информации и решению задач, требующих не только запоминания, но и понимания взаимосвязей между фактами. Использование обоих типов вопросов позволяет получить более полную картину возможностей языковой модели в области профилирования знаний.
Анализ данных, полученных в ходе тестирования, выявил значимый феномен, названный “Проклятием Обращения” (Reversal Curse). Большие языковые модели (LLM) демонстрируют существенные затруднения при ответах на вопросы, требующие обращения фактов (например, “Кто является автором книги X?” после того, как модель знает, что “Книга X написана автором Y”), несмотря на то, что соответствующие прямые факты им известны. Применение методов, стимулирующих обдумывание ответа (thinking), позволило повысить точность ответов на обратные вопросы на 19%, в то время как для прямых вопросов аналогичное улучшение составило лишь 12%. Это указывает на специфический дефицит в механизмах извлечения информации при изменении формулировки вопроса, требующий дальнейшего исследования.
За Пределами Общеизвестного: Длинный Хвост Знаний
Исследования показали, что большие языковые модели (LLM) демонстрируют заметные трудности при воспроизведении так называемых “фактов из длинного хвоста” — редких, специфических знаний, в отличие от широко распространенной информации. Этот феномен указывает на неравномерность процесса извлечения информации, поскольку модели значительно лучше справляются с воспроизведением общеизвестных фактов. Неспособность эффективно оперировать редкими данными свидетельствует о том, что хранилище знаний LLM не является однородным и доступ к информации в нем зависит от частоты ее появления в обучающих данных. Данное ограничение подчеркивает необходимость разработки новых методов, направленных на улучшение способности моделей запоминать и извлекать менее распространенные, но потенциально важные знания.
Исследования показали, что применение методов, стимулирующих рассуждения, таких как цепочка мыслей (chain-of-thought prompting), способно улучшить извлечение информации из памяти больших языковых моделей, однако эффект этот неравномерный. В частности, при работе с редкими, малоизвестными фактами, подобные методы демонстрируют прирост точности вспоминания на 20.1%, в то время как для широко распространенных фактов улучшение составляет лишь 11.3%. Это указывает на то, что существующие подходы не решают проблему кодирования и извлечения редких знаний в полном объеме, и требуется разработка более совершенных механизмов для эффективной работы с информацией, находящейся за пределами общедоступного домена.
Исследования показали, что современные языковые модели испытывают трудности с извлечением и воспроизведением редких фактов, в отличие от общеизвестных данных. В частности, применение метода “мышления” (chain-of-thought prompting) позволяет восстановить 40-65% фактов, которые были занесены в память модели, но ранее не были ей известны. Однако, если факты не были предварительно закодированы в системе, процент восстановления резко падает до 5-15%. Эти результаты указывают на необходимость разработки усовершенствованных механизмов как для кодирования информации, так и для ее последующего извлечения, что является ключевым направлением для дальнейших исследований в области искусственного интеллекта и машинного обучения. Улучшение этих процессов позволит языковым моделям более эффективно использовать весь объем доступных знаний, а не ограничиваться лишь наиболее распространенными данными.
Исследование показывает, что современные большие языковые модели не страдают от недостатка фактической информации, а испытывают трудности с её извлечением. Этот феномен, названный авторами ‘узким местом при извлечении’, указывает на то, что способность к вспоминанию является критическим фактором, определяющим точность ответов. Как однажды заметил Г.Х. Харди: «Математика — это не просто набор фактов, а способ мышления». Аналогично, языковые модели могут обладать обширным объёмом знаний, но без эффективного механизма поиска и применения этих знаний, их потенциал остаётся нереализованным. Очевидно, что развитие алгоритмов, направленных на улучшение фактического вспоминания, является ключевой задачей для повышения надёжности и полезности этих систем.
Куда смотрит горизонт?
Представленные данные указывают на парадоксальную ситуацию. Мощность современных языковых моделей растёт, но это, по сути, лишь расширение хранилища. Проблема не в объёме, а в организации доступа. Словно построили огромную библиотеку, но забыли про каталог. Увеличение параметров, вероятно, продолжит давать прирост в способности кодировать факты, однако это лишь усугубит проблему, если не будет найдено эффективных методов извлечения необходимой информации. По сути, мы наблюдаем не интеллектуальный взрыв, а накопление потенциальной энергии, которая остаётся нереализованной.
Будущие исследования должны сместить фокус с расширения объёма знаний на оптимизацию механизмов поиска и извлечения. Необходимо изучать, как организовать «внутреннюю архитектуру» моделей, чтобы минимизировать «шум» и максимизировать скорость доступа к релевантным фактам. Интересным направлением представляется исследование мета-когнитивных процессов — способности модели оценивать собственную уверенность в ответе и корректировать поиск при необходимости. Иначе, рискуем создать гигантские машины, способные хранить всё, но забывающие, где что лежит.
В конечном счёте, успех будет зависеть не от количества закодированных фактов, а от способности модели находить именно тот факт, который нужен в данный момент. Это напоминает старую истину: красота — в простоте. Или, в данном случае, — в эффективности. Сложность — это роскошь, которую интеллект не может себе позволить.
Оригинал статьи: https://arxiv.org/pdf/2602.14080.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовое программирование: Карта развивающегося мира
- Предел возможностей: где большие языковые модели теряют разум?
- Временная запутанность: от хаоса к порядку
- Улучшение точности квантовых сенсоров: новый подход к подавлению шумов
- ЭКГ-анализ будущего: От данных к цифровым биомаркерам
- Резонансы в тандеме: Управление светом в микрорезонаторах
- Сердце музыки: открытые модели для создания композиций
- Искусственный разум и квантовые данные: новый подход к синтезу табличных данных
- Моделирование спектроскопии электронного пучка: новый подход
- За пределами стандартной точности: новая структура эффективной теории
2026-02-20 05:11