Пределы Оптимизации: Почему SGD Застревает в Многоиндексных Моделях
Новое исследование показывает, что стандартный алгоритм стохастического градиентного спуска (SGD) сталкивается с трудностями в обучении многоиндексных моделей не из-за статистической сложности данных, а из-за особенностей его шума.




![Исследование демонстрирует, что новый алгоритм BBTN, в сочетании с методом нарезки, значительно превосходит традиционные методы ветвей и границ при подсчете основного состояния спиновых стёкол на двумерных решётках [latex]N \times N[/latex] и случайных регулярных графах, а также при решении задач максимального независимого множества (MIS) и максимального взвешенного независимого множества (MWIS) на графах RKSG, при этом среднее время выполнения для всех классов задач составляет секунды, что подтверждается калибровкой на основе теоретической сложности и производительности графического процессора NVIDIA A100.](https://arxiv.org/html/2602.05470v1/x2.png)