Разумные нейросети: извлечение формул из данных

Автор: Денис Аветисян

Новая архитектура нейронных сетей позволяет автоматически восстанавливать компактные аналитические выражения из данных и ограничений, сочетая масштабируемость глубокого обучения с интерпретируемостью символьной регрессии.

Представлена архитектура Symbolic-KAN, объединяющая сети Kolmogorov-Arnold с дискретной символической структурой для интерпретируемого обучения и открытия уравнений.

Поиск управляющих уравнений из данных долгое время сталкивается с компромиссом между интерпретируемостью и масштабируемостью. В работе ‘Symbolic—KAN: Kolmogorov-Arnold Networks with Discrete Symbolic Structure for Interpretable Learning’ представлена архитектура Symbolic-KAN, объединяющая эффективность глубокого обучения с возможностью получения компактных аналитических выражений. Symbolic-KAN внедряет дискретную символьную структуру непосредственно в обучаемую нейронную сеть, позволяя извлекать аналитические компоненты и восстанавливать управляющие структуры из данных и ограничений. Открывает ли это путь к созданию масштабируемых, интерпретируемых и механически обоснованных методов обучения фундаментальным законам?

Пределы Традиционного Открытия Уравнений

Традиционные методы выявления управляющих уравнений из данных часто опираются на жесткие предположения относительно функциональной формы этих уравнений, что существенно ограничивает их применимость. Например, при моделировании динамических систем исследователи нередко заранее задают конкретный вид уравнения, такой как $\frac{dx}{dt} = ax + bx^2$ , и затем подгоняют параметры a и b под экспериментальные данные. Однако, если истинная функция, описывающая систему, значительно отличается от заданного вида, то полученные результаты будут неточными или вовсе неверными. Это особенно проблематично в сложных системах, где взаимосвязи между переменными нелинейны и неизвестны, а предположения о функциональной форме могут привести к грубым упрощениям и искажению реальности. В таких случаях, жесткие априорные ограничения на вид уравнений могут полностью заблокировать возможность обнаружения истинных закономерностей, скрытых в данных.

Традиционные методы выявления управляющих уравнений сталкиваются со значительными трудностями при анализе сложных, многомерных систем, где получение аналитических решений практически невозможно. В областях, таких как гидродинамика и материаловедение, это ограничение препятствует прогрессу, поскольку существующие подходы зачастую не способны адекватно описать нелинейные взаимодействия и сложные зависимости. Например, моделирование турбулентных потоков или поведения новых материалов требует учета огромного числа переменных и нелинейных эффектов, что выходит за рамки возможностей классических методов. В результате, исследователи вынуждены полагаться на упрощенные модели или дорогостоящие численные симуляции, что ограничивает понимание фундаментальных принципов и замедляет разработку новых технологий. Преодоление этих ограничений требует разработки новых, более гибких и адаптивных подходов к выявлению уравнений непосредственно из данных.

Необходимость в более гибком и основанном на данных подходе к открытию уравнений становится первостепенной для понимания сложных явлений. Традиционные методы часто ограничены предположениями о функциональной форме, что препятствует их применению к системам с нелинейными взаимодействиями и высокой размерностью. По мере развития науки и техники, исследователи сталкиваются с задачами, требующими анализа данных, полученных из экспериментов и симуляций, где аналитические решения недоступны. В связи с этим, алгоритмы машинного обучения, способные выявлять скрытые закономерности и строить уравнения непосредственно из данных, открывают новые возможности для моделирования сложных процессов в таких областях, как гидродинамика, материаловедение и биология. Использование данных для определения структуры уравнений позволяет преодолеть ограничения традиционных подходов и получить более точные и адекватные модели, что, в свою очередь, способствует углублению понимания фундаментальных принципов, управляющих окружающим миром. $\frac{d^2y}{dt^2} + \omega^2 y = 0$ — даже для простых систем, поиск соответствующих уравнений становится непростой задачей, требующей инновационных методов.

Символический KAN: Новый Подход к Интерпретируемому Обучению

Symbolic-KAN представляет собой новую архитектуру нейронных сетей, отличающуюся встраиванием дискретной символической структуры непосредственно в обучаемую глубокую сеть. В отличие от традиционных “черных ящиков”, Symbolic-KAN стремится к созданию моделей, которые могут быть представлены в виде интерпретируемых уравнений. Это достигается за счет интеграции символических представлений, что позволяет не только предсказывать результаты, но и понимать логику, лежащую в основе этих предсказаний. Архитектура позволяет эффективно представлять сложные функции, сохраняя при этом возможность анализа и интерпретации ее компонентов, что особенно важно для задач, требующих прозрачности и объяснимости, таких как научное моделирование и анализ данных.

Архитектура Symbolic-KAN использует теорему Колмогорова-Арнольда для параметризации многомерных функций как суперпозиции одномерных функций. Это позволяет представить сложную функцию в виде комбинации более простых, независимых компонентов. Такой подход способствует разреженности (sparsity) модели, уменьшая количество необходимых параметров и снижая риск переобучения. В результате, модель демонстрирует улучшенную способность к обобщению (generalization) на новые, ранее не виденные данные, поскольку она фокусируется на наиболее значимых компонентах функции, а не на запоминании конкретных примеров.

Подход Symbolic-KAN позволяет выявлять управляющие уравнения, представляя их в виде комбинаций более простых и интерпретируемых примитивов. Вместо прямого обучения сложной функции, Symbolic-KAN параметризует многомерные функции как суперпозицию одномерных, что приводит к разреженным представлениям. Это облегчает идентификацию основных функциональных блоков, формирующих уравнение, поскольку сложные зависимости раскладываются на более простые составляющие. Такое представление способствует как интерпретируемости модели, позволяя анализировать вклад каждого примитива, так и обобщающей способности, за счет использования небольшого числа ключевых функций. Выявленные примитивы могут быть представлены в виде аналитических выражений, что позволяет получить явные уравнения, описывающие изучаемую систему или процесс.

Раскрытие Интерпретируемости посредством Целенаправленного Обучения

Обучение с использованием гейтов (Gated Training) играет ключевую роль в преобразовании “мягких” комбинаций примитивов в дискретный выбор, что существенно повышает интерпретируемость полученных уравнений. В процессе обучения, гейты функционируют как переключатели, определяющие, какие примитивы будут активированы для формирования конечного решения. Изначально, модель генерирует взвешенную комбинацию примитивов, где каждый примитив имеет определенную степень участия. Гейты, используя функцию сигмоиды или подобные механизмы, преобразуют эти веса в бинарные значения (0 или 1), отбирая только наиболее релевантные примитивы. Это позволяет модели представлять решение в виде четкой суммы дискретных компонентов, что упрощает анализ и понимание логики работы модели. В результате, интерпретируемость модели значительно возрастает, поскольку становится возможным четко определить, какие примитивы вносят вклад в конкретное решение и как они взаимодействуют друг с другом.

Регуляризация энтропии способствует разреженности (sparsity) в выборе примитивов, что означает, что модель склонна использовать лишь небольшое подмножество доступных примитивов для решения задачи. Это достигается путем добавления к функции потерь члена, пропорционального энтропии распределения вероятностей выбора примитивов. Уменьшение энтропии стимулирует более четкое и определенное выделение наиболее релевантных примитивов, упрощая модель и снижая риск переобучения. В результате модель становится более обобщающей, поскольку она меньше полагается на конкретные комбинации примитивов, а больше на их основные, наиболее значимые компоненты. Разреженность также облегчает интерпретацию модели, поскольку становится легче понять, какие именно примитивы оказывают наибольшее влияние на результат. $H = - \sum_{i} p_i \log p_i$ — формула энтропии, где $p_i$ — вероятность выбора i-го примитива.

Немаксимальное подавление (NonMaximumSuppression, NMS) является ключевым этапом в процессе обучения, обеспечивающим разнообразие выбранных примитивов. Алгоритм NMS работает путем последовательного отбрасывания избыточных или сильно пересекающихся примитивов, основываясь на оценке их релевантности. Это предотвращает сходимость модели к тривиальным решениям, когда несколько примитивов описывают одно и то же явление, и способствует генерализации, поскольку модель вынуждена выбирать наиболее информативные и независимые примитивы для описания данных. Без NMS модель может сосредоточиться на небольшом подмножестве примитивов, игнорируя другие потенциально полезные, что снижает ее способность к обобщению и интерпретации.

Подтверждение Подхода на Физических Системах

Подход Symbolic-KAN, в сочетании с нейронными сетями, обученными с учетом физических законов (Physics-Informed Neural Networks), продемонстрировал способность успешно выявлять управляющие уравнения для сложных физических явлений. Исследования показали, что данная комбинация эффективно решает задачи, описываемые уравнениями Лапласа и реакционно-диффузионными уравнениями, позволяя определить ключевые параметры и взаимосвязи в сложных системах. Это достигается за счет сочетания символического анализа и возможностей нейронных сетей в моделировании физических процессов, что открывает перспективы для автоматического обнаружения и анализа физических законов на основе наблюдаемых данных и позволяет создавать более точные и эффективные модели в различных областях науки и техники.

В ходе исследований продемонстрирована высокая эффективность разработанного подхода в идентификации параметров осциллятора Ван дер Поля. Точность оценки параметров достигает значений ниже 1%, что свидетельствует о значительном улучшении в сравнении с существующими методами. Осциллятор Ван дер Поля, являясь нелинейной динамической системой, представляет собой сложную задачу для идентификации, однако предложенный метод успешно справляется с этой проблемой, обеспечивая высокую степень соответствия между смоделированным и реальным поведением системы. Такая точность открывает возможности для более детального анализа и прогнозирования поведения нелинейных систем в различных областях науки и техники, включая электронику, биологию и физику.

Исследования показали значительное повышение точности идентификации уравнений, описывающих физические процессы, при использовании Symbolic-KAN в сочетании с физически-обоснованными нейронными сетями. В частности, применительно к уравнению реакции-диффузии, данный подход позволил снизить ошибку валидации на 59% по сравнению со стандартными PINN. Еще более впечатляющие результаты получены для уравнения Лапласа, где точность валидации улучшилась на 87% относительно cPIKAN. При этом, максимальная абсолютная ошибка снизилась на 70% и 92% по сравнению с PINN и cPIKAN соответственно, что демонстрирует превосходство Symbolic-KAN в решении задач идентификации уравнений в различных физических системах и открывает новые возможности для моделирования и анализа сложных процессов.

Представленное исследование демонстрирует стремление к созданию алгоритмов, обладающих не только высокой производительностью, но и внутренней логикой, доступной для понимания. Как заметил Джон фон Нейманн: «В науке не бывает случайных открытий, бывают лишь подготовленные умы». В данном контексте, Symbolic-KANs стремятся к выявлению аналитических выражений из данных, что является воплощением принципа детерминизма — если результат алгоритма можно воспроизвести и объяснить, его достоверность значительно возрастает. Использование дискретной символической структуры внутри сети позволяет не просто предсказывать значения, но и извлекать компактные математические модели, что соответствует стремлению к математической чистоте и доказуемости алгоритмов.

Что Дальше?

Представленная работа, несмотря на свою элегантность, лишь намекает на истинную сложность задачи извлечения знаний из данных. Авторы, безусловно, сделали шаг в направлении создания алгоритмов, способных не просто аппроксимировать функцию, но и выразить её в понятной, символьной форме. Однако, необходимо признать, что универсального решения, способного автоматически открывать «законы природы» в произвольных данных, скорее всего, не существует. Любая модель, даже самая изящная, ограничена предположениями, заложенными в её архитектуру.

Будущие исследования, вероятно, будут сосредоточены на преодолении этих ограничений. Необходимо разработать методы, позволяющие более эффективно интегрировать априорные знания и физические ограничения в процесс обучения. Важно также исследовать возможности создания гибридных систем, сочетающих символьные и численные методы, чтобы использовать сильные стороны каждого из них. При этом, следует помнить, что простое решение не обязательно короткое, оно непротиворечивое и логически завершённое.

В конечном итоге, успех в области «научного машинного обучения» будет зависеть не столько от создания всё более сложных алгоритмов, сколько от глубокого понимания природы данных и ограничений, накладываемых на них. Иначе, мы рискуем построить красивые, но бессмысленные конструкции, лишенные истинной ценности.

Оригинал статьи: https://arxiv.org/pdf/2603.23854.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-26 19:09

🚀 Квантовые новости