Интеллектуальное моделирование: от телеметрии к точным уравнениям

Автор: Денис Аветисян

Новый подход, основанный на машинном обучении, позволяет автоматически выявлять и калибровать физические модели, используя данные телеметрии.

Обученная диада UDE продемонстрировала способность к прогнозированию на ранее не виденных данных, достигнув улучшения в 3% по функции потерь, что указывает на её обобщающую способность и эффективность алгоритма.

В статье представлен полуавтоматизированный процесс обнаружения и калибровки моделей, использующий универсальные дифференциальные уравнения, анализ чувствительности и символьную регрессию для повышения точности тепло-жидкостных моделей в системах рефрижерации.

Построение адекватных динамических моделей часто затруднено из-за упрощающих допущений, приводящих к неточностям в прогнозировании поведения сложных систем. В статье ‘Scientific Machine Learning-assisted Model Discovery from Telemetry Data’ предложен полуавтоматизированный подход Dyad Model Discovery, использующий методы машинного обучения, в частности Universal Differential Equations и символьную регрессию, для автоматического расширения физических уравнений модели на основе данных телеметрии. Данный метод позволяет повысить точность моделей тепло-жидкостных систем, продемонстрировано на примере цифрового двойника транспортного холодильного агрегата, предлагая инженерно-ориентированный рабочий процесс с обратной связью от пользователя. Каковы перспективы применения подобных методов для создания самообучающихся цифровых двойников в других областях промышленности и энергетики?

Разрушая границы: От физических моделей к данным

Многие реальные системы, такие как системы охлаждения при транспортировке грузов, функционируют на основе сложных физических принципов. Эти принципы включают в себя термодинамику, теплопередачу и гидродинамику, взаимодействующие на различных масштабах. Например, поддержание стабильной температуры внутри рефрижераторного контейнера требует точного баланса между теплом, выделяемым грузом, теплом, поступающим из внешней среды, и эффективностью работы холодильной установки. Учет всех этих факторов, а также влияния таких переменных, как влажность, распределение груза и скорость движения транспортного средства, представляет собой значительную задачу. Сложность обусловлена нелинейностью процессов и взаимосвязанностью различных параметров, что делает точное моделирование исключительно трудоемким, но необходимым для оптимизации энергоэффективности и сохранения качества перевозимых продуктов.

Традиционные методы моделирования, несмотря на свою теоретическую точность, часто сталкиваются с трудностями при работе с реальными данными, которые неизбежно содержат шум и неполноту. Это связано с тем, что классические подходы полагаются на идеально известные параметры и условия, что редко встречается на практике. Неспособность учесть неточности измерений и пропуски в данных приводит к снижению предсказательной силы модели, особенно в сложных системах, где даже незначительные отклонения могут накапливаться и приводить к существенным ошибкам. В результате, несмотря на все усилия по созданию точных физических моделей, их эффективность в реальных приложениях может быть ограничена, что требует поиска альтернативных подходов, способных эффективно обрабатывать неполную и зашумленную информацию.

Несоответствие между теоретической точностью физических моделей и их практической эффективностью в реальных условиях, особенно при наличии неполных или зашумленных данных, обуславливает необходимость применения методов, основанных на анализе данных. Исследования показали, что интеграция данных в процесс моделирования позволяет существенно повысить точность прогнозирования. В частности, в рамках изучения температурных режимов двухзонного рефрижераторного контейнера, применение методов уточнения моделей на основе данных привело к снижению значения функции потерь на 3%, что демонстрирует ощутимый прирост в предсказательной способности и открывает перспективы для оптимизации логистических процессов и снижения энергопотребления.

Обнаружение моделей: Гибридный подход к идентификации систем

Метод обнаружения моделей (Model Discovery) представляет собой полуавтоматизированный подход к уточнению существующих физических моделей на основе наблюдаемых данных. В отличие от полностью автоматического моделирования, данный метод требует от пользователя предварительного определения базовой структуры модели, которая затем корректируется и дополняется с использованием данных. Этот процесс позволяет объединить априорные знания о системе с информацией, извлеченной из экспериментальных наблюдений, что приводит к повышению точности и надежности прогнозов. Полуавтоматизированный характер метода позволяет экспертам контролировать процесс уточнения модели, обеспечивая физическую согласованность результатов и избегая нереалистичных предсказаний, которые могут возникнуть при использовании чисто «черных ящиков».

Процесс открытия моделей использует методы универсальных дифференциальных уравнений (УДУ) для расширения динамических систем с помощью компонентов машинного обучения. УДУ позволяют интегрировать данные, полученные в результате наблюдений, непосредственно в структуру дифференциальных уравнений, описывающих систему. Это достигается путем добавления функций, параметризованных нейронными сетями, к стандартным уравнениям, что позволяет модели адаптироваться к новым данным и улучшать свою точность. Фактически, УДУ преобразуют задачу идентификации системы в задачу обучения нейронной сети, где входными данными являются состояния системы и их производные, а выходными — дополнительные члены дифференциального уравнения. $\frac{dx}{dt} = f(x) + \epsilon N(x, t)$ , где ε — параметр, регулирующий вклад машинного обучения, а $N(x, t)$ — нейронная сеть.

Метод обнаружения моделей направлен на повышение точности прогнозирования и обобщающей способности путем комбинирования преимуществ физических моделей и методов машинного обучения. В ходе тестирования, применение данного подхода позволило добиться улучшения в 3% по функции потерь на контрольном наборе данных, что свидетельствует о повышении эффективности модели в предсказании новых, ранее не встречавшихся данных. Это достигается за счет адаптации существующих физических моделей на основе наблюдаемых данных, что позволяет учесть нелинейности и сложности, не охваченные традиционными подходами.

Модель «Диада» объединяет ручное управление инженером и автоматизированные процедуры, предоставляя инженеру возможность подтверждать или отклонять предложенные системой изменения.

Символьная регрессия: В поисках интерпретируемости и эффективности

В процессе обучения моделей, использующих UDE (Uncertainty Decomposition Estimators), для повышения точности часто применяются корректировки, реализуемые посредством нейронных сетей. Однако, в отличие от явных математических формул, логика работы этих нейронных сетей, и, следовательно, причины вносимых корректировок, остаются непрозрачными. Это затрудняет понимание того, какие факторы оказывают наибольшее влияние на предсказания модели и как именно они взаимодействуют, что снижает доверие к результатам и усложняет процесс отладки и верификации.

Символьная регрессия позволяет заменить корректировки, вносимые в модели УДЕ (Uncertainty-aware Deep Ensembles), на аналитические выражения. Вместо числовых поправок, модель генерирует математические формулы, описывающие взаимосвязь между входными параметрами и корректировками. Это позволяет не только понять, как именно УДЕ вносит изменения, но и выявить лежащие в основе закономерности, которые ранее были скрыты в числовых значениях. Полученные символьные выражения представляют собой явное, интерпретируемое описание поведения модели, в отличие от «черного ящика» нейронной сети, и позволяют получить более глубокое понимание процессов принятия решений.

Уменьшение сложности модели, достигнутое за счет применения символьной регрессии и анализа чувствительности, позволило сохранить предсказательную способность без увеличения погрешности. Данный подход предполагает замену сложных корректировок, вносимых нейронными сетями, на более простые символьные выражения, что снижает вычислительные затраты и улучшает обобщающую способность модели. В результате проведенных тестов, применение данной стратегии привело к снижению функции потерь на тестовом наборе данных на 3%, что подтверждает эффективность упрощения модели без существенного влияния на ее точность.

Символьная регрессия позволила получить финальные аналитические выражения, используя лишь пять входных переменных и два параметра.

Dyad: Интегрированная среда для акаузального моделирования и машинного обучения

Система Dyad представляет собой интегрированную среду для построения моделей, не ограниченных причинно-следственными связями, и объединяет возможности системного моделирования с методами машинного обучения, такими как унитарные дифференциальные уравнения (UDE). В отличие от традиционных подходов, Dyad позволяет исследовать динамику систем, где влияние одного элемента не обязательно предшествует изменению другого, открывая новые возможности для анализа сложных процессов. Это достигается за счет гибкой архитектуры, позволяющей объединять символьные вычисления и численные методы, что позволяет исследователям не только разрабатывать модели, но и эффективно их анализировать и оптимизировать. Интеграция UDE в Dyad способствует созданию компактных и точных представлений динамических систем, расширяя возможности моделирования в различных областях науки и техники.

В основе функциональности Dyad лежит процедура структурного упрощения, позволяющая символически снизить сложность модели перед проведением численного анализа. Этот подход позволяет автоматически выявлять и устранять избыточные элементы в структуре модели, что значительно повышает эффективность и скорость расчетов. Вместо непосредственного применения численных методов к сложной модели, система сначала выполняет символическое преобразование, упрощая ее без потери существенных характеристик. Данная оптимизация особенно важна при работе с крупномасштабными системами, где снижение вычислительной нагрузки может существенно сократить время моделирования и повысить точность получаемых результатов. В ходе исследований было продемонстрировано, что применение структурного упрощения в Dyad позволяет достичь улучшения в 3% при оценке функции потерь, подтверждая его значимость для повышения производительности и надежности моделей.

Язык JSML, встроенный в среду Julia и предназначенный для акаузального декларативного моделирования, играет ключевую роль в структурировании и определении моделей в рамках Dyad. Этот язык позволяет исследователям описывать взаимосвязи между системами, не опираясь на традиционную причинно-следственную логику, что открывает возможности для моделирования сложных процессов. Внедрение JSML в рабочий процесс позволило добиться улучшения в 3% в значении функции потерь, что свидетельствует о его эффективности в оптимизации и повышении точности моделей, разработанных в среде Dyad. Такой подход к моделированию, основанный на декларативном описании, позволяет автоматизировать сложные вычисления и существенно упростить процесс разработки.

Модель Dyad UDE обучалась на конфигурациях B и E, а затем тестировалась на собственной, нестандартной конфигурации прицепа в двухзонной коробчатой модели.

Преодолевая артефакты и обеспечивая достоверность моделей

В процессе компиляции математической модели нередко возникают так называемые “ложные производные” — символические члены, не имеющие физического смысла и являющиеся артефактами вычислений. Эти фиктивные производные могут возникнуть из-за особенностей алгоритмов символьной регрессии или упрощения выражений, и, хотя они формально присутствуют в модели, не отражают реальные физические взаимосвязи. Наличие таких артефактов способно исказить результаты моделирования и привести к неверным прогнозам, поэтому критически важно выявлять и устранять их на этапе проверки адекватности модели. Игнорирование «ложных производных» может привести к неверной интерпретации данных и ошибочным выводам о контролируемых процессах.

Анализ чувствительности играет ключевую роль в выявлении и устранении артефактов, возникающих в процессе построения моделей. Данный подход позволяет оценить, насколько сильно изменения входных параметров влияют на выходные значения модели, и таким образом определить, какие компоненты уравнения являются физически значимыми, а какие — следствием математических особенностей алгоритма. Выявление “ложных” производных, не отражающих реальные физические процессы, критически важно для обеспечения адекватности и точности конечной модели. Устранение этих артефактов гарантирует, что модель корректно описывает исследуемую систему и позволяет делать достоверные прогнозы, что особенно важно для приложений, требующих высокой степени надежности и физической интерпретируемости результатов.

В будущем планируется автоматизировать процесс выявления и устранения артефактов в моделях, что позволит повысить эффективность и надежность открытия моделей. Наблюдаемое улучшение функции потерь на 3% служит отправной точкой для разработки алгоритмов, способных самостоятельно идентифицировать и корректировать ошибочные компоненты в символьных выражениях. Автоматизация позволит значительно сократить время, необходимое для валидации моделей, и снизить вероятность включения в итоговую модель физически бессмысленных терминов, что особенно важно для приложений, требующих высокой точности и интерпретируемости результатов. Разработка таких алгоритмов позволит перейти к более эффективному и масштабируемому процессу открытия моделей, способствуя более глубокому пониманию сложных систем.

Тепловая карта якобиана, полученная в ходе анализа чувствительности, показывает влияние семи наиболее значимых входных параметров, включая фиктивные производные, сгенерированные компиляцией модели.

Исследование демонстрирует стремление к взлому устоявшихся подходов к моделированию тепловых процессов. Авторы не просто принимают существующие модели, но и подвергают их ревизии, используя методы символьной регрессии и анализа чувствительности для повышения точности. Это напоминает слова Марвина Мински: «Способность учиться — это способность обнаруживать закономерности». Подобно тому, как система выявляет паттерны в данных, представленная методология позволяет обнаруживать скрытые закономерности в телеметрических данных, лежащих в основе транспортного холодильного оборудования. Таким образом, исследование не только улучшает существующие модели, но и расширяет границы понимания самих систем, открывая возможности для дальнейшей оптимизации и инноваций.

Куда же дальше?

Представленная работа, по сути, лишь первый шаг к автоматизированному реверс-инжинирингу физических систем. Автоматическое извлечение уравнений из телеметрических данных — это, конечно, удобно, но истинный вопрос заключается в том, насколько глубоко можно автоматизировать сам процесс постановки задачи. Каждый эксплойт начинается с вопроса, а не с намерения, и здесь мы видим ту же закономерность: успешное моделирование требует не только поиска “правильных” уравнений, но и понимания, какие уравнения вообще стоит искать.

Ограничения текущего подхода очевидны. Универсальные дифференциальные уравнения — мощный инструмент, но они требуют достаточного количества и качества данных. Что происходит, когда данные скудны или зашумлены? Необходимы методы, позволяющие экстраполировать знания из схожих систем, использовать априорные знания о физике процессов, и, возможно, даже генерировать гипотезы о структуре системы, которые затем можно проверить экспериментально.

В конечном счёте, задача заключается не в создании идеальной модели, а в создании системы, способной адаптироваться к изменяющимся условиям и непредсказуемым явлениям. Простое обнаружение уравнений — это лишь часть уравнения. Истинный прогресс требует взлома самой парадигмы моделирования, перехода от статических описаний к динамическим, самообучающимся системам.

Оригинал статьи: https://arxiv.org/pdf/2603.15943.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-19 00:12

🚀 Квантовые новости