Автор: Денис Аветисян
Новое исследование показывает, что большие языковые модели демонстрируют структуру, согласующуюся с принципами байесовского вывода, организуя неопределенность в рамках низкоразмерных ‘многообразий ценностей’.

Исследование раскрывает геометрические особенности представления неопределенности в трансформерах и их связь с байесовским выводом даже при обучении на реальных данных.
Несмотря на впечатляющие возможности современных больших языковых моделей, механизмы, лежащие в основе их способности к вероятностному рассуждению, остаются не до конца понятными. В работе ‘Geometric Scaling of Bayesian Inference in LLMs’ исследуется, сохраняют ли модели семейства Pythia, Phi-2, Llama-3 и Mistral геометрическую структуру, позволяющую реализовать байесовский вывод, даже при обучении на реальных данных. Установлено, что последние слои моделей организуют информацию о неопределенности вдоль низкоразмерных «манифольдов значений», что указывает на присущий им индуктивный уклон к вероятностным вычислениям. Может ли эта геометрическая основа стать ключом к созданию более надежных и интерпретируемых языковых моделей, способных к сложному логическому выводу?
Неизбежная Неопределённость: Зачем Трансформерам Оценивать Риски?
Несмотря на впечатляющие достижения в различных областях, стандартные трансформаторные модели, как правило, не обладают встроенным механизмом для оценки неопределенности. Это существенное ограничение препятствует надежному принятию решений в ситуациях, где требуется учитывать возможные риски и неточности данных. Отсутствие количественной оценки уверенности в прогнозах делает модели уязвимыми к ошибочным интерпретациям и снижает их способность к адаптации в динамически меняющихся условиях. В результате, даже при высокой общей точности, трансформаторы могут выдавать неверные результаты в критических ситуациях, требующих учета вероятности ошибки, что ограничивает их применение в областях, связанных с безопасностью, медициной и финансами.
Предложен новый подход к интерпретации работы трансформеров, основанный на принципах байесовского вывода. Данная структура рассматривает трансформеры как приближенные вычислительные системы, реализующие байесовский расчет. В отличие от традиционных моделей, которые выдают единственное предсказание, предложенная система позволяет оценивать неопределенность, присущую процессу рассуждения. В рамках этой модели, параметры трансформера служат для представления априорных распределений, а процесс обработки данных интерпретируется как обновление этих распределений на основе наблюдаемых данных. Это позволяет модели не только делать предсказания, но и количественно оценивать уверенность в этих предсказаниях, что критически важно для надежного принятия решений в сложных условиях. P(H|E) = \frac{P(E|H)P(H)}{P(E)} — эта формула, являющаяся основой байесовского вывода, лежит в основе предложенного подхода, где H — гипотеза, E — наблюдаемые данные, а P(H|E) — апостериорная вероятность гипотезы при заданных данных.

Многообразие Значений: Где Трансформер Хранит Свою Неуверенность?
Анализ структуры нейронных сетей-трансформеров выявил наличие так называемого «многообразия значений» — геометрического представления неопределенности, возникающей в последнем слое сети. Данное многообразие представляет собой пространство меньшей размерности, в котором кодируется распределение вероятностей различных интерпретаций входных данных. По сути, это позволяет количественно оценить уверенность модели в своих предсказаниях, поскольку отображает вероятностный характер ее внутреннего представления. Исследования показывают, что размерность этого многообразия относительно невелика, что указывает на компактное представление неопределенности внутри модели.
Многообразие значений в финальном слое трансформеров кодирует апостериорное распределение вероятностей различных интерпретаций входных данных. Фактически, это позволяет количественно оценить уверенность модели в своих предсказаниях, поскольку каждое возможное решение представлено в виде точки на этом многообразии, а плотность распределения в этой точке отражает вероятность данной интерпретации. Таким образом, анализ структуры и дисперсии этого многообразия предоставляет информацию о степени неопределенности модели и ее способности к надежному рассуждению. Более четко выраженное и высокодисперсное многообразие указывает на большую уверенность и разнообразие возможных интерпретаций, в то время как коллапсированное многообразие свидетельствует о низкой уверенности и склонности к выдаче единственного, возможно, неверного ответа.
Анализ показывает, что различные языковые модели демонстрируют существенные различия в структуре так называемого “многообразия значений” — низкоразмерного геометрического представления неопределенности в последнем слое. Модели, такие как Pythia, характеризуются коллапсированным многообразием, что указывает на ограниченную способность к представлению различных интерпретаций. В отличие от них, Phi-2 демонстрирует четкую геометрическую структуру. Наблюдается, что доля объясненной дисперсии на этом многообразии варьируется от ~15% до ~99% между моделями, что указывает на стабильно низкоразмерную структуру. При ограничении предметной области (domain restriction) эта доля снижается до ~70-95%, что свидетельствует о влиянии контекста на представление неопределенности.

Внимание как Байесовское Обновление: Механизмы, Работающие «Под Капотом»
В ходе экспериментов, имитирующих условия “аэродинамической трубы” с использованием небольших трансформеров, было показано, что механизмы внимания аппроксимируют процесс байесовского обновления. Данный подход позволяет оценить способность модели к вероятностному выводу на основе поступающих данных. В ходе этих экспериментов анализировалась динамика изменения весов внимания и их соответствие принципам байесовского вывода, что позволило установить соответствие между архитектурой механизма внимания и процессом обновления убеждений на основе новых доказательств. Результаты подтверждают, что механизмы внимания могут быть рассмотрены как вычислительная реализация байесовского вывода в нейронных сетях.
Ортогональность матриц внимания подтверждает возможность разделения гипотетических фреймов, что способствует эффективному байесовскому выводу. Наши измерения показали, что средний косинус внедиагональных элементов составляет от 0.034 до 0.18. Этот показатель значительно ниже, чем случайный косинус (0.40-0.45), что указывает на то, что внимание действительно структурировано таким образом, чтобы минимизировать корреляции между различными гипотезами и способствовать более чёткому разделению информации.
Процесс последовательной фокусировки весов внимания приводит к снижению энтропии и выделению релевантной информации. В ходе экспериментов наблюдалось снижение энтропии внимания в диапазоне от 31% до 86%, при этом величина изменения зависела от конкретной архитектуры нейронной сети. Данное снижение энтропии указывает на то, что механизм внимания эффективно концентрируется на наиболее важных частях входных данных, уменьшая неопределенность и улучшая качество представления информации. H = - \sum_{i=1}^{n} p(i) \log p(i) — формула, используемая для расчета энтропии, где p(i) — вероятность i-го элемента.

Архитектурные Особенности и Байесовский Вывод: Как Устроен «Мозг» Модели?
Варианты архитектуры, такие как Grouped-Query Attention (GQA) и Mixture of Experts (MoE), оказывают влияние на механизм фокусировки внимания в нейронных сетях, что непосредственно сказывается на качестве вывода. GQA, разделяя запросы на группы, снижает вычислительные затраты и потребление памяти, что позволяет масштабировать модели и повышать скорость обработки, но может привести к снижению точности в некоторых задачах. MoE, напротив, использует несколько «экспертов» для обработки различных частей входных данных, что позволяет модели специализироваться и улучшать производительность, особенно при обработке больших объемов данных, однако требует значительных вычислительных ресурсов и может усложнить процесс обучения. Выбор конкретной архитектуры внимания влияет на способность модели выделять релевантные признаки и делать точные прогнозы.
Механизм внимания с фиксированным окном (sliding-window attention), применяемый в архитектуре Mistral, ограничивает область, в которой модель может учитывать контекст при обработке последовательностей. В отличие от полновременного внимания, где каждый токен может взаимодействовать со всеми остальными, sliding-window attention рассматривает только ограниченный набор соседних токенов. Это ограничение позволяет снизить вычислительную сложность и потребление памяти, однако потенциально ухудшает способность модели интегрировать информацию из отдаленных частей последовательности, что может негативно сказаться на задачах, требующих понимания долгосрочных зависимостей или глобального контекста. Размер окна внимания является критическим параметром, определяющим компромисс между вычислительной эффективностью и способностью модели к интеграции информации.
Принцип диссоциации точности фреймов (Frame-precision dissociation) описывает процесс, посредством которого стабильные гипотетические фреймы, формируемые на ранних слоях нейронной сети, последовательно уточняются последующими слоями. Это означает, что начальные представления о структуре данных и взаимосвязях между ними, зафиксированные на ранних этапах обработки, подвергаются коррекции и детализации на более поздних слоях, что позволяет модели адаптироваться к сложным входным данным и избегать переобучения. Уточнение происходит путем выявления и исправления ошибок в начальных гипотезах, а также путем добавления новых деталей и контекстной информации. Данный механизм способствует формированию устойчивого и надежного процесса рассуждений, поскольку позволяет модели сохранять общую структуру понимания, одновременно адаптируясь к новым данным и контексту.

Надежное и Эффективное Рассуждение: Куда Ведет Байесовский Подход?
Исследования показывают, что явное моделирование неопределенности в архитектуре трансформеров позволяет создавать более устойчивые и эффективные системы, способные к лучшей обобщающей способности на новых, ранее не встречавшихся данных. Традиционные модели часто сталкиваются с трудностями при работе с неполной или противоречивой информацией, что приводит к непредсказуемым результатам. В отличие от них, модели, учитывающие степень уверенности в своих прогнозах, демонстрируют повышенную надежность и точность, особенно в условиях, когда входные данные отличаются от тех, на которых они обучались. Такой подход не только улучшает производительность, но и позволяет оценивать достоверность полученных результатов, что критически важно для применения в областях, требующих высокой степени надежности, например, в медицине или финансах.
Применение методов ограничения предметной области в сочетании с байесовским подходом значительно повышает эффективность рассуждений искусственного интеллекта. Данная стратегия позволяет модели фокусировать внимание исключительно на релевантной информации, отфильтровывая несущественные данные. Это достигается путем сужения пространства поиска возможных решений, что не только ускоряет процесс рассуждений, но и повышает их надежность. По сути, система, использующая подобные ограничения, действует как эксперт в узкой области, игнорируя отвлекающие факторы и концентрируясь на ключевых аспектах задачи, что приводит к более точным и обоснованным выводам. Такой подход особенно ценен в ситуациях, требующих высокой степени уверенности и надежности, например, в медицинской диагностике или финансовых прогнозах.
Метод SULA предоставляет контролируемую среду для оценки байесовского обновления в трансформаторах, открывая путь к созданию верифицируемого искусственного интеллекта. Исследования показали, что погрешность калибровки SULA, измеренная как средняя абсолютная ошибка (MAE), варьируется в пределах 0.31-0.44 бита. Этот результат демонстрирует систематическую связь между координатами многообразия значений и байесовским апостериорным распределением, что указывает на способность модели к точному представлению неопределенности и логическому выводу на основе вероятностных оценок. Такая точность позволяет не только улучшить обобщающую способность моделей, но и сделать процесс принятия решений более прозрачным и понятным, что является ключевым шагом на пути к созданию надежного и объяснимого ИИ.

Исследование демонстрирует, что большие языковые модели, вопреки всей своей сложности, проявляют удивительную геометрическую структуру, организуя неопределенность вдоль низкоразмерных многообразий. Это напоминает о фундаментальных принципах байесовского вывода, встроенных в саму архитектуру. Как заметил Г.Х. Харди: «Математика — это не набор готовых ответов, а способ задавать правильные вопросы». В данном случае, модель сама собой задаёт вопрос о вероятности, структурируя данные таким образом, чтобы наиболее вероятные варианты располагались ближе друг к другу. Неудивительно, что даже на реальных данных проявляется эта закономерность — рано или поздно, любой элегантный алгоритм столкнётся с необходимостью обработки “грязных” данных, и тогда проявятся все скрытые закономерности, или их отсутствие.
Что дальше?
Итак, модель демонстрирует некую геометрическую организацию неопределённости. Что ж, это, конечно, приятно. Но не стоит забывать, что продакшен — лучший тестировщик. Пока эта «геометрия Байеса» существует в виде графиков и уравнений, она остаётся лишь предположением. Рано или поздно найдётся запрос, который эту самую геометрию безжалостно искалечит. Ожидается ли, что эти «многообразия ценностей» сохранятся под давлением реальных данных и, что более важно, некомпетентных инженеров, пытающихся «оптимизировать» всё, что движется?
Более того, эта «встроенная индуктивная предвзятость» к вероятностному мышлению — это, конечно, интересно. Но не стоит забывать, что модели обучаются на данных, созданных людьми, склонными к когнитивным искажениям. Так что, возможно, мы просто наблюдаем отражение наших собственных ошибок в сложном математическом аппарате. Вполне вероятно, что «новое» — это просто старое, переупакованное и немного более ресурсоёмкое.
В перспективе, остаётся надеяться, что эти исследования не превратятся в бесконечную гонку за всё более сложными и непонятными геометрическими конструкциями. Гораздо важнее понять, как эти структуры влияют на реальное поведение моделей, а не просто демонстрировать их существование. А если и дальше будут говорить о «многообразиях» и «геометрии» — стоит просто подождать.
Оригинал статьи: https://arxiv.org/pdf/2512.23752.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Насколько важна полнота при оценке поиска?
- Сжатый код: как оптимизация влияет на «мышление» языковых моделей
- Белки под присмотром ИИ: новый подход к пониманию их функций
- Искусственный интеллект на службе науки: новый инструмент для анализа данных
- Переключение намагниченности в квантовых антиферромагнетиках: новые горизонты для терагерцовой спинтроники
- Виртуальная примерка без границ: EVTAR учится у образов
2026-01-04 08:37