Баланс между исследованием и использованием: Новый взгляд на обучение с подкреплением

В статье рассматриваются способы оптимизации процесса обучения с подкреплением за счет регулирования стратегий исследования и использования, с акцентом на методы обрезки, энтропии и устранения ложных сигналов.

![При увеличении уровня шума в данных, вычисленные коэффициенты $\boldsymbol{\gamma}$ отклоняются от истинных значений $[1, 1, 0]^T$, что демонстрирует сложность выявления безразмерных групп из зашумленных экспериментальных данных, несмотря на использование ансамблевых методов для оценки неопределенности.](https://arxiv.org/html/2512.15760v1/Figures/noise_effect_gamma.png)





