Глубокое обучение и решение уравнений: в чем секрет надежности?

Новое исследование показывает, что успех гибридных методов, использующих нейросети для решения дифференциальных уравнений, зависит не столько от архитектуры сети, сколько от стратегии обучения и выбора парадигмы.


![Исследование архитектурных вариантов Transformer с использованием «песочных часов» (hourglass) FFN, состоящих из [latex]K[/latex] подблоков, демонстрирует возможность оптимизации количества слоев [latex]L[/latex] и параметров [latex]d_{\text{model}}[/latex], [latex]d_h[/latex] для достижения различных характеристик производительности, в отличие от традиционных Transformer-блоков с узко-широко-узким MLP и фиксированным количеством слоев [latex]L^{\prime}[/latex].](https://arxiv.org/html/2602.06471v1/figures/260113_hourglass_LLM.png)
![Система InSWIRL, основанная на итеративном обучении с подкреплением, расширяет возможности моделирования мира для базовых моделей, используя совместно оптимизируемые прямую ([latex]P\_{\theta}(y\mid x,z)[/latex]) и обратную ([latex]Q\_{\phi}(z\mid x,y)[/latex]) динамические модели, где первая определяет предсказание следующего состояния, а вторая - действия, необходимые для достижения этого состояния, при этом, в ходе двухфазного процесса обучения, прямая модель выступает в роли стратегии, а обратная - в роли награды для обеспечения идентифицируемости, и наоборот, что обеспечивает соответствие данных последовательностям состояний.](https://arxiv.org/html/2602.06130v1/x1.png)


![Оценка кандидатов решений посредством [latex]U(C^{1})>U(C^{2})[/latex] позволяет выявить наиболее вероятный ответ, используя в качестве решателя модель GPT-OSS-120B и измеряя точность предложений на соседних вопросах [latex]Q^{\*}[/latex].](https://arxiv.org/html/2602.06291v1/x1.png)