Память в нейронных сетях: где хранятся факты?

Автор: Денис Аветисян

Новое исследование выявило, как языковые модели локализуют и извлекают факты, используя отдельные нейроны в ранних слоях сети.

В исследовании выявлены разреженные, селективные к сущностям нейроны, названные «сущностными клетками», которые служат стабильными якорями для фактического извлечения информации в модели Qwen2.5-7B, концентрируясь преимущественно в ранних слоях (0-5) и обеспечивая доступ к каноническим представлениям сущностей, устойчивым к различным вариациям, таким как псевдонимы, опечатки и многоязычные формы; эти нейроны действуют как причинно-следственные точки доступа, поскольку их подавление вызывает специфическую амнезию по сущностям, в то время как активация единственного локализованного нейрона часто бывает достаточной для направления модели к последовательному извлечению фактов, связанных с данной сущностью, причём аналогичные кандидаты в ранних слоях обнаружены и в других шести моделях, хотя их причинно-следственная валидация оказалась менее выраженной.

Исследователи идентифицировали ‘entity cells’ — нейроны, выступающие в качестве стабильных ‘якорей’ для извлечения фактов, подтверждая идею локализованного доступа к знаниям.

Несмотря на впечатляющую способность языковых моделей отвечать на вопросы, основанные на фактах, механизмы, лежащие в основе этого процесса, остаются неясными. В работе ‘Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models’ исследователи выявили отдельные нейроны в ранних слоях моделей, функционирующие как своеобразные «ячейки сущностей» — стабильные точки доступа к фактологической информации. Это позволяет предположить, что знания в языковых моделях организованы не как распределенные представления, а скорее как локализованные «якоря» для конкретных сущностей. Может ли обнаружение и анализ этих «ячеек сущностей» пролить свет на принципы организации знаний в искусственном интеллекте и открыть новые пути к созданию более интерпретируемых и управляемых систем?

Разгадывая Черный Ящик: Где Хранятся Факты в Нейронных Сетях?

Несмотря на впечатляющие успехи больших языковых моделей в генерации текста и ответах на вопросы, механизмы хранения фактических знаний в их нейронных сетях остаются загадкой. Современные модели демонстрируют способность запоминать и воспроизводить огромное количество информации, однако понимание того, как эта информация кодируется и организуется, представляет собой сложную научную задачу. Исследователи сталкиваются с трудностями в определении конкретных участков сети, ответственных за хранение определенных фактов, и в выяснении, является ли фактическое знание распределенным по всей сети или локализовано в специализированных нейронных ансамблях. Разгадка этой тайны имеет решающее значение для улучшения надежности и интерпретируемости языковых моделей, а также для создания искусственного интеллекта, способного к более глубокому и осмысленному пониманию мира.

Несмотря на впечатляющие успехи больших языковых моделей в генерации текста и ответах на вопросы, механизмы, обеспечивающие точное и надежное извлечение фактов, остаются загадкой. Существующие методы анализа часто не позволяют точно определить, где и как конкретная информация хранится внутри нейронной сети. Исследователи сталкиваются с трудностями в локализации «следов» знаний, поскольку попытки интерпретации весов и активаций нейронов показывают лишь корреляции, но не причинно-следственные связи. Это затрудняет не только понимание принципов работы моделей, но и разработку методов повышения их надежности и предотвращения «галлюцинаций» — генерации ложной информации, выдаваемой за факт. Таким образом, вопрос о том, как модели «помнят» и извлекают знания, остается одной из ключевых проблем современной искусственного интеллекта.

Центральным вопросом в исследовании механизмов запоминания фактов является определение того, как информация о мире представлена в нейронных сетях. Существуют две основные гипотезы: диффузное кодирование, при котором знания распределены по множеству нейронов и связей, и локализованное кодирование, предполагающее, что конкретные факты хранятся в виде отдельных нейронных ансамблей. Установление, преобладает ли один из этих принципов или же оба они работают совместно, имеет решающее значение для понимания работы больших языковых моделей и повышения их надежности. Изучение этой проблемы позволяет глубже понять, как мозг хранит и извлекает информацию, и может привести к разработке более эффективных алгоритмов машинного обучения, способных к более точному и осмысленному представлению знаний.

Анализ профилей локализации глубины для четырех моделей, не относящихся к семейству Qwen, показывает, что они демонстрируют более широкое и глубокое распределение слоев верхних нейронов по сущностям PopQA-200 по сравнению с результатами, представленными в основной статье <span class="katex-eq" data-katex-display="false"> ilde{2}</span>. — Анализ профилей локализации глубины для четырех моделей, не относящихся к семейству Qwen, показывает, что они демонстрируют более широкое и глубокое распределение слоев верхних нейронов по сущностям PopQA-200 по сравнению с результатами, представленными в основной статье $ilde{2}$ .

«Ячейки Сущностей»: Определение Устойчивых «Якорей» Знаний

В ходе анализа модели Qwen2.5-7B были идентифицированы так называемые “entity cells” — разреженные активации нейронов, которые последовательно связаны с конкретными сущностями. Эти клетки представляют собой отдельные нейроны или небольшие группы нейронов, демонстрирующие повышенную активность при обработке информации, относящейся к определенной сущности, и низкую активность в остальных случаях. Выявление этих клеток позволяет локализовать участки модели, ответственные за кодирование и представление знаний о конкретных объектах, и исследовать механизмы хранения и извлечения информации в больших языковых моделях.

В ходе тестирования модели Qwen2.5-7B на наборе данных PopQA было установлено, что для каждой из 200 сущностей существует ведущая локализованная ячейка (neuron activation). Это указывает на наличие последовательного и надежного представления сущностей внутри модели. Выделение данной ячейки для каждой сущности демонстрирует, что модель способна идентифицировать и кодировать информацию об отдельных объектах из набора данных PopQA, обеспечивая основу для последующего извлечения знаний и рассуждений.

Анализ архитектуры модели Qwen2.5-7B показал, что большинство “сущностных ячеек” — разреженных активаций нейронов, стабильно связанных с конкретными сущностями — локализуются в начальных слоях Transformer. Наибольшая концентрация этих ячеек наблюдается в слоях с 0 по 5, что указывает на то, что первичная кодировка идентичности сущности происходит именно на этих этапах обработки информации. Это позволяет предположить, что модель формирует базовое представление сущности на ранних стадиях, которое затем используется и модифицируется в более глубоких слоях архитектуры.

Для идентификации и оценки стабильности нейронов, кодирующих информацию об объектах, были применены методы локализации слоев (Layer Localization). В результате анализа 200 нейронов, ассоциированных с объектами из набора PopQA, был разработан специальный показатель стабильности (Stability Score). 131 из этих 200 локализованных нейронов успешно прошли фильтр, предназначенный для выявления случаев потери специфической для объекта информации при их искусственном удалении (аблации). Данный результат указывает на то, что эти нейроны надежно кодируют идентичность объектов и сохраняют информацию о них даже при частичном повреждении модели.

Анализ верхнего локализованного слоя для каждого из 200 объектов PopQA в модели Qwen2.5-7B показывает схожую концентрацию на ранних слоях, что подтверждается дополнительными тестами с другими моделями (см. Приложение G).

Причинно-следственные Исследования: Доказательство Роли «Ячеек Сущностей»

Для оценки причинно-следственной связи между активацией клеток сущностей и воспроизведением фактической информации были применены методы каузальных интервенций, а именно — негативная абляция и контролируемая инъекция. Негативная абляция подразумевает подавление активации клеток, что позволило выявить зависимость между их активностью и точностью воспроизведения фактов. Контролируемая инъекция, напротив, заключалась в принудительной активации клеток, что позволило восстановить доступ к фактической информации для 41 из 79 исследуемых сущностей. Данные методы позволили установить, что влияние клеток сущностей на воспроизведение фактов носит не просто корреляционный, а причинно-следственный характер.

Применение метода негативной абляции, заключающегося в подавлении активации ячеек сущностей, выявило существенную зависимость между их активностью и точностью воспроизведения фактической информации. Экспериментально было показано, что при блокировке активации этих ячеек наблюдается значительное снижение способности модели к корректному извлечению фактов, что указывает на критическую роль активации ячеек сущностей для успешного вспоминания фактических данных. Статистический анализ подтвердил, что подавление активации ячеек приводит к статистически значимому ухудшению показателей точности, подтверждая зависимость между активностью ячеек и воспроизведением фактов.

В ходе экспериментов с контролируемой активацией (Controlled Injection) было продемонстрировано, что принудительная активация клеток сущностей способствовала восстановлению фактической информации. Из 79 протестированных сущностей, 41 успешно прошли тест на восстановление после принудительной активации соответствующих клеток, что свидетельствует о прямой связи между активацией этих клеток и извлечением фактических данных.

Результаты, полученные с использованием методов каузальной интервенции — негативной абляции и контролируемой инъекции — подтверждают, что активация клеток сущностей не просто коррелирует с успешным извлечением фактов, но и является его непосредственной причиной. Негативная абляция, подавляющая активацию этих клеток, привела к значительному снижению точности воспроизведения фактов. В свою очередь, контролируемая инъекция, принудительно активирующая клетки сущностей, позволила восстановить доступ к фактам в 41 из 79 случаев, что доказывает, что достаточная активация этих клеток является необходимым условием для извлечения фактической информации. Данные свидетельствуют о каузальной связи между активацией клеток сущностей и успешным воспроизведением фактов, а не просто о статистической взаимосвязи.

Эксперименты с Qwen2.5-7B-Instruct подтвердили, что удаление информации о локальной сущности приводит к значительному снижению точности для целевой сущности, при этом контроль над другими сущностями сохраняется, что указывает на успешное сохранение причинно-следственных связей после дополнительного обучения.

Устойчивость и Сохранение: «Ячейки Сущностей» в Действии

Исследования показывают, что так называемые “клетки сущностей” демонстрируют устойчивость к поверхностным изменениям входного текста. Это означает, что даже при наличии опечаток, аббревиатур или иных вариаций в способе записи, активация соответствующей клетки сущности остается стабильной. Данная особенность свидетельствует о способности системы распознавать и сохранять информацию о сущностях независимо от незначительных текстовых искажений, обеспечивая надежное извлечение фактов и поддержание целостности знаний, представленных в модели.

Устойчивость активации сущностных ячеек к изменениям во входном тексте указывает на то, что они формируют своего рода каноническое представление идентичности. Это означает, что ячейка, отвечающая за конкретную сущность, не зависит от поверхностных вариаций, таких как опечатки или использование аббревиатур. Фактически, ячейка идентифицирует сущность по ее сути, а не по конкретному написанию или формулировке. Такое представление позволяет модели сохранять согласованность в отношении фактов, даже если информация представлена в немного отличающейся форме, что подчеркивает возможность использования сущностных ячеек в качестве надежного и интерпретируемого механизма хранения фактических знаний.

Исследования модели Qwen2.5-7B-Instruct показали удивительную устойчивость характеристик так называемых “сущностных ячеек” даже после дополнительной настройки на инструкции. В ходе экспериментов выяснилось, что из 200 исследованных сущностей, основная, наиболее активно реагирующая ячейка, отвечающая за их представление, сохранялась неизменной для впечатляющих 190 сущностей. Этот результат указывает на то, что механизм хранения фактологической информации, реализованный через сущностные ячейки, не только надежен, но и устойчив к изменениям, вносимым в модель в процессе обучения и адаптации к новым задачам. Сохранение идентичности ячеек после тонкой настройки подтверждает их потенциал как интерпретируемого и стабильного компонента в системах искусственного интеллекта.

Исследования показывают, что так называемые «сущность-клетки» представляют собой перспективный механизм для надежного и интерпретируемого хранения фактических знаний. Эти клетки демонстрируют устойчивость к вариациям во входных данных, что позволяет им последовательно активироваться даже при наличии опечаток или аббревиатур. Подобная способность указывает на то, что сущность-клетки формируют каноническое представление идентичности, не зависящее от поверхностных изменений. Важно отметить, что модель Qwen2.5-7B-Instruct сохраняет эти характеристики сущность-клеток после дополнительного обучения, поддерживая одну и ту же ключевую клетку для 190 из 200 сущностей. Это открывает возможности для создания более прозрачных и надежных систем искусственного интеллекта, способных эффективно хранить и извлекать факты.

Воспроизведение рисунка 7 моделью Qwen2.5-7B-Instruct демонстрирует, что доступ к сущностям, не зависящий от языка, сохраняется и после тонкой настройки на инструкциях, что подтверждается согласованным результатом для запроса «Париж» в различных скриптах.

За Пределами Редактирования: К Интерпретируемому Представлению Знаний

Современные методы редактирования языковых моделей, направленные на изменение фактической информации, зачастую заключаются в переписывании параметров нейронной сети. Такой подход является непрозрачным и потенциально нестабильным, поскольку незначительные изменения в параметрах могут привести к непредсказуемым последствиям для других аспектов поведения модели. Изменение миллионов весов для коррекции одной конкретной фактологической ошибки подобно хирургической операции, где сложно гарантировать отсутствие побочных эффектов. Вместо этого, подобная «тонкая настройка» создает риск нарушения целостности знаний, хранящихся в модели, и снижает ее общую надежность. Этот метод не позволяет точно отследить, какие именно параметры отвечают за конкретное утверждение, и затрудняет понимание того, как модель пришла к определенному выводу.

Вместо изменения параметров модели напрямую, подход, основанный на использовании «ячеек сущностей», предлагает более прозрачный способ манипулирования знаниями. Эти клетки представляют собой отдельные компоненты, кодирующие информацию об конкретных сущностях и их атрибутах. Вмешательство в эти клетки позволяет целенаправленно изменять или корректировать факты, хранящиеся в модели, без необходимости переписывать весь набор параметров. Такой подход значительно упрощает процесс отладки и верификации, поскольку изменения становятся более локализованными и интерпретируемыми. Благодаря этому, становится возможным не только повысить точность языковой модели, но и обеспечить большую уверенность в ее ответах, поскольку становится понятно, какие конкретно компоненты отвечают за определенные знания и как они были изменены.

В будущем исследования будут направлены на разработку методов селективной активации или модификации так называемых “клеток сущностей” — специализированных элементов внутри языковых моделей, хранящих конкретные факты. Предполагается, что целенаправленное воздействие на эти клетки позволит не просто исправлять ошибки в знаниях модели, но и аккуратно обновлять информацию, не затрагивая другие аспекты её функционирования. В отличие от существующих подходов, изменяющих параметры модели целиком, подобный метод обещает более точное и контролируемое управление знаниями, что потенциально приведет к созданию языковых моделей, способных к адаптации и обучению новым фактам без потери стабильности и целостности.

Разработка методов манипулирования отдельными «ячейками сущностей» в языковых моделях открывает перспективы для создания систем, которые будут не только точнее в своих ответах, но и значительно надежнее и понятнее для пользователей. В отличие от текущих подходов, изменяющих параметры модели целиком, целенаправленное редактирование «ячеек сущностей» позволит проследить, как именно конкретное знание было обновлено или исправлено. Это повысит доверие к результатам, предоставляемым моделью, и позволит лучше понять ее внутреннюю логику, что особенно важно для критически важных приложений, где требуется не просто ответ, но и обоснование принятого решения. В конечном итоге, подобный подход может привести к созданию искусственного интеллекта, который не просто «знает» факты, но и может объяснить, как он пришел к этим знаниям.

Обучение с подкреплением на основе инструкций подтверждает, что локализованные ячейки, выявленные как причинно-следственные, сохраняют свою полезность даже после тонкой настройки модели <span class="katex-eq" data-katex-display="false">Qwen2.5-7B-Instruct</span>. — Обучение с подкреплением на основе инструкций подтверждает, что локализованные ячейки, выявленные как причинно-следственные, сохраняют свою полезность даже после тонкой настройки модели $Qwen2.5-7B-Instruct$ .

Исследование, посвящённое выявлению «entity cells» в языковых моделях, закономерно подтверждает, что даже в кажущемся хаосе нейронных сетей, существуют стабильные точки привязки для фактологической информации. Это не столько открытие, сколько очередное напоминание о том, что «it’s easier to ask forgiveness than it is to get permission». Грейс Хоппер точно бы оценила этот подход — ведь зачастую, элегантная теория сталкивается с суровой реальностью продакшена, где «багтрекер — это дневник боли». Обнаружение этих локализованных «entity cells», способных к устойчивому извлечению фактов, показывает, что даже в огромных языковых моделях, есть место для предсказуемости и локального доступа к знаниям — хотя и в виде разрозненных нейронов, а не централизованной базы данных.

Что дальше?

Обнаружение этих самых «клеток сущностей» — забавная находка, конечно. Но давайте не будем строить иллюзий. Сейчас это напоминает попытку зафиксировать тени на стене пещеры и объявить их истиной. Разумеется, эти нейроны работают, но сколько еще таких «ячеек» скрыто в глубинах модели? И что произойдет, когда система встретит факт, который не укладывается в эту заранее определенную «карту»? Станет ли она просто выдавать случайный шум, пока не найдет подходящую ячейку для «впихивания» новой информации?

Не стоит забывать, что документация по этим «клеточкам» — это, в лучшем случае, попытка рационализировать то, что принципиально иррационально. А если баг воспроизводится — значит, у нас стабильная система, верно? В перспективе, вероятно, стоит сосредоточиться на том, как эти «клетки» взаимодействуют, как формируется их специализация, и, самое главное, как они ломаются. Ведь всё, что обещает быть «самовосстанавливающимся», просто ещё не сломалось.

И давайте не будем торопиться с заявлениями о «локализованном доступе к знаниям». Продакшен всегда найдет способ сломать элегантную теорию. Скорее всего, истина окажется куда более хаотичной и непредсказуемой. Каждая «революционная» технология завтра станет техдолгом. И мы будем снова копаться в этих самых «клеточках», пытаясь понять, почему всё пошло не так.

Оригинал статьи: https://arxiv.org/pdf/2604.01404.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-03 14:31

🚀 Квантовые новости