Нейронные сети без слотов: к биологически правдоподобной памяти и вниманию

Автор: Денис Аветисян


Новый подход к построению нейронных сетей, вдохновленный принципами работы мозга, для улучшения обработки информации и повышения устойчивости к экстремальным событиям.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В архитектурах трансформеров и рекуррентных нейронных сетях, обратное распространение градиентов через агрегированные слоты или рекурсивные скрытые состояния эффективно представляет собой обратное распространение во времени, где обновления весов вычисляются и суммируются итеративно по всем временным шагам как внешние произведения между градиентами и паттернами активности, демонстрируя фундаментальную связь между этими, казалось бы, разными подходами к обработке последовательностей.
В архитектурах трансформеров и рекуррентных нейронных сетях, обратное распространение градиентов через агрегированные слоты или рекурсивные скрытые состояния эффективно представляет собой обратное распространение во времени, где обновления весов вычисляются и суммируются итеративно по всем временным шагам как внешние произведения между градиентами и паттернами активности, демонстрируя фундаментальную связь между этими, казалось бы, разными подходами к обработке последовательностей.

В статье представлены теоретические основы, математические выкладки и расширенный анализ сетевых моделей и динамики обучения, с акцентом на свойства сходимости и моделирование экстремальных событий.

Современные модели искусственного интеллекта часто полагаются на дискретные «слоты» памяти, структура которых не соответствует принципам работы биологических нейронных сетей. В статье ‘Neural Computation Without Slots: Steps Towards Biologically Plausible Memory and Attention in Natural and Artificial Intelligence’ предлагается подход к реализации памяти и внимания, основанный на расширенной версии нейронной сети Хопфилда, где информация хранится в синаптических весах. Показано, что использование ансамблей нейронов для хранения памяти повышает устойчивость к забыванию, а предложенные модификации позволяют моделировать ключевые преимущества слотовой памяти в современных языковых моделях. Возможно ли создание принципиально новых алгоритмов обучения, вдохновленных биологическими механизмами, которые позволят достичь человекоподобного интеллекта без использования дискретных структур памяти?


Выпуклость и Оптимизация: Основа Стабильности

Многие задачи машинного обучения базируются на минимизации функций, что делает алгоритмы оптимизации критически важными. Эффективность этих алгоритмов напрямую зависит от свойств оптимизируемой функции, в частности, от её выпуклости. Выпуклость упрощает оптимизацию, гарантируя, что любой локальный минимум является глобальным, обеспечивая стабильность и предсказуемость. Анализ выпуклости требует исследования матрицы Гессе.

Figure 5:A.A visual description of the Case Sequence Task for a sample input sequence.B.A diagram of the
Figure 5:A.A visual description of the Case Sequence Task for a sample input sequence.B.A diagram of the «minimal» transformer architecture, in which the context window consists of two inputs (for simplicity). The dot products between the embedded queryqqand the contextual keysktk\_{t}are computed, and the softmax of these values is computed by applying an exponential nonlinearity to eachktT​qk\_{t}term and subsequently normalizing (illustrated in the purple shading). The resulting attention scores are used to modulate the linear combination of the valuesvtv\_{t}that is produced as the output. The supervisory training signal for gradient descent only arrives at this final output.

Связь дифференциального исчисления и оптимизации позволяет не только определить выпуклость, но и разработать эффективные алгоритмы. Отсутствие строгого анализа может привести к ошибкам, особенно в сложных моделях.

Градиентный Спуск: Рабочая Лошадка Оптимизации

Метод градиентного спуска – широко используемый итеративный алгоритм для поиска минимума функции, последовательно двигаясь в направлении наискорейшего убывания. Его успешное применение зависит от выполнения функцией условия Липшиц-непрерывности, предотвращающего неограниченные шаги и обеспечивающего устойчивость. Скорость сходимости критически зависит от параметров, таких как размер шага и начальное расстояние до минимума, что формализовано в Лемме 9.

Теория Экстремальных Значений: Анализ Редких Событий

Теория экстремальных значений (TEV) предоставляет основу для моделирования хвостов распределений, фокусируясь на редких, но значимых событиях. Этот подход позволяет анализировать вероятности событий, выходящих за пределы обычных статистических моделей, что критически важно при оценке рисков. Центральным элементом TEV является теорема Фишера-Типпетта-Гнеденко, определяющая предельные распределения экстремумов. Обобщенное экстремальное распределение (GEV) является ключевым инструментом для моделирования широкого спектра экстремальных событий, объединяя три типа предельных распределений в единую модель.

Математический Инструментарий: Точность и Детерминированность

Дополнение Шура – ценный инструмент матричного анализа, используемый для исследования положительной определенности, особенно в задачах оптимизации и анализа устойчивости. Оно позволяет эффективно выявлять свойства матриц, что критически важно для решения прикладных задач. Применение дополнения Шура к матрице Гессе позволяет определить выпуклость функции, подтверждая предпосылки для корректной работы метода градиентного спуска. Метод градиентного спуска, будучи фундаментальным, находит применение даже в более сложных архитектурах, таких как сети Хопфилда. В конечном счете, надежность любой системы определяется детерминированностью её результатов: если результат нельзя воспроизвести, он лишен истинной ценности.

Представленные материалы углубленно исследуют сходимость моделей и динамику обучения, опираясь на строгий математический аппарат. Особое внимание уделяется анализу экстремальных событий, что критически важно для обеспечения надежности и предсказуемости сложных систем. В этом контексте, слова Джона Маккарти, «Каждый дурак может посчитать, но мало кто умеет думать», особенно актуальны. Подобно тому, как необходимо строго доказывать корректность алгоритма, а не полагаться на эмпирические наблюдения, так и понимание предельных случаев и обеспечение сходимости моделей требует глубокого математического анализа, а не просто констатации «работы на тестах». Строгость и доказательность, представленные в работе, подтверждают, что истинная элегантность и надежность достигаются через математическую чистоту и формальную верификацию.

Что дальше?

Представленная работа, с её акцентом на строгую выпуклость и непрерывность Липшица, лишь обозначает границы известного. Утверждать, что достигнута «биологическая правдоподобность» — это, мягко говоря, преждевременно. Природа, как известно, редко следует наиболее элегантным математическим решениям. Настоящая сложность, вероятно, кроется в тех областях, где эти условия нарушаются, в тех самых «неудобных» случаях, которые мы склонны отбрасывать ради упрощения анализа.

Особое внимание следует уделить исследованию поведения систем вблизи границ устойчивости, в тех точках, где градиентный спуск может привести к неожиданным результатам. Теория экстремальных значений, хотя и представлена здесь, нуждается в значительном расширении, чтобы адекватно описывать динамику сложных нейронных сетей. Необходимо разработать инструменты для анализа и контроля этих «экстремальных событий», чтобы предотвратить непредсказуемые сбои и обеспечить надежность систем.

И, наконец, следует признать, что концепция «внимания», как она здесь понимается, лишь приближение к истинному механизму, который, вероятно, намного сложнее и многограннее. Поиск математической модели, которая бы адекватно описывала эту когнитивную функцию, остаётся открытой проблемой. Полагаться лишь на анализ гессианской матрицы и дополнений Шур — это всё равно, что пытаться понять симфонию, изучая лишь отдельные ноты.


Оригинал статьи: https://arxiv.org/pdf/2511.04593.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-09 16:10