Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов

Автор: Денис Аветисян

В новой работе исследователи продемонстрировали, что метод имитации отжига превосходит традиционные методы оптимизации при выборе наиболее перспективных кандидатов в задачах многоцелевой байесовской оптимизации.

Для кампании по оптимизации материалов с пятью целями, параллельная реализация имитации отжига демонстрирует превосходную сходимость по сравнению с последовательным подходом, достигая более высоких конечных значений гиперобъема и ускоряя процесс за счет оценки кандидатов с использованием GPU.

Предлагается эффективный алгоритм на основе имитации отжига для оптимизации партийных функций приобретения, особенно в задачах с дискретными наборами кандидатов и большими размерами партий.

Оптимизация кандидатов в задачах многокритериальной байесовской оптимизации часто сталкивается с проблемой локальных оптимумов, особенно при работе со сложными функциями и большими объемами данных. В данной работе, посвященной ‘Simulated Annealing-based Candidate Optimization for Batch Acquisition Functions’, предлагается альтернативный подход, основанный на алгоритме имитации отжига, для оптимизации функций приобретения в пакетном режиме. Экспериментальные результаты на стандартных тестовых задачах демонстрируют, что предложенный метод превосходит традиционные градиентные методы, такие как SLSQP, по показателю гиперобъема. Может ли применение метаэвристических алгоритмов, подобных имитации отжига, стать новым стандартом в задачах многокритериальной байесовской оптимизации?

Вызов Дорогостоящей Оптимизации «Черных Ящиков»

Многие задачи в реальном мире, от разработки новых материалов до оптимизации финансовых портфелей и обучения сложных нейронных сетей, требуют поиска оптимального решения для функций, вычисление значения которых связано со значительными затратами времени или ресурсов. Например, моделирование аэродинамических свойств нового самолета в вычислительной гидродинамике может занимать часы или даже дни на каждую конфигурацию, а проведение лабораторных экспериментов для определения свойств нового химического соединения — требовать дорогостоящих реагентов и оборудования. В подобных ситуациях, традиционные методы оптимизации, требующие множества вычислений функции, становятся непрактичными, а эффективность алгоритма напрямую зависит от способности находить хорошее решение, используя минимальное количество оценок функции.

Традиционные методы оптимизации, такие как градиентный спуск или методы Ньютона, зачастую оказываются неэффективными при работе с так называемыми “черными ящиками” — функциями, внутреннее устройство которых неизвестно, а вычисление каждого значения требует значительных затрат времени или ресурсов. В сложных сценариях, где функция может быть недифференцируемой или иметь множество локальных оптимумов, эти методы могут застревать в неоптимальных решениях или требовать непомерного количества вычислений. Например, оптимизация параметров сложной инженерной системы, моделирование поведения финансовых рынков или разработка новых материалов — все это задачи, где каждый “запуск” функции — это дорогостоящий эксперимент или симуляция, делающий классические подходы практически неприменимыми. В таких случаях требуется разработка альтернативных стратегий, способных эффективно исследовать пространство поиска, используя лишь информацию о значениях функции, а не о ее производных или внутренней структуре.

Эффективное исследование пространства поиска является ключевым аспектом оптимизации, особенно когда оценка целевой функции требует значительных ресурсов. Успешные алгоритмы должны умело балансировать между использованием уже известных, перспективных решений — эксплуатацией — и поиском новых, потенциально лучших вариантов — исследованием. Слишком сильный акцент на эксплуатации может привести к застреванию в локальном оптимуме, в то время как чрезмерное исследование замедляет сходимость к глобальному решению. Поэтому современные методы оптимизации стремятся к динамическому управлению этим балансом, адаптируясь к особенностям исследуемой функции и обеспечивая эффективное использование доступных вычислительных ресурсов для достижения оптимального результата.

Байесовская Оптимизация и Эффективный Пакетный Выбор

Байесовская оптимизация использует вероятностные суррогатные модели, такие как гауссовские процессы (ГП), для эффективного моделирования целевой функции. Гауссовский процесс определяет распределение вероятностей над функциями, позволяя оценить не только значение целевой функции в конкретной точке, но и неопределенность этой оценки. Это особенно важно при оптимизации сложных, “черных ящиков”, где вычисление целевой функции ресурсоемко или занимает много времени. Используя ГП, алгоритм может строить модель целевой функции на основе ограниченного числа наблюдений и затем использовать эту модель для предсказания производительности новых кандидатов, избегая дорогостоящих вычислений на каждом шаге. $\mathbb{G}(x) \sim \mathcal{GP}(\mu(x), k(x, x'))$ , где $\mu(x)$ — среднее значение, а $k(x, x')$ — ковариационная функция, определяющая гладкость модели.

В основе байесовской оптимизации лежит функция приобретения (acquisition function), определяющая, какие точки пространства параметров следует исследовать на следующем шаге. Эта функция комбинирует предсказания суррогатной модели (например, гауссовского процесса) о значении целевой функции в данной точке и неопределенность этих предсказаний. Функция приобретения максимизируется для выбора наиболее перспективной точки для оценки, балансируя между исследованием (exploration) областей с высокой неопределенностью и использованием (exploitation) областей, где модель предсказывает высокие значения целевой функции. Различные типы функций приобретения, такие как Probability of Improvement (PI), Expected Improvement (EI) и Upper Confidence Bound (UCB), используют разные стратегии для этого баланса, влияя на скорость сходимости и надежность оптимизации.

Пакетные функции приобретения (Batch Acquisition Functions) позволяют выбирать несколько кандидатов для параллельной оценки, что существенно ускоряет процесс оптимизации. В отличие от последовательного выбора, при котором каждый новый кандидат оценивается после получения результата для предыдущего, пакетный подход позволяет одновременно оценивать несколько точек. Это особенно важно при дорогостоящих вычислениях целевой функции, поскольку снижает общее время, необходимое для достижения оптимального решения. Эффективность пакетной оптимизации зависит от корректного учета корреляции между кандидатами при определении функции приобретения, чтобы избежать избыточности в оценках и обеспечить эффективное исследование пространства параметров.

Имитация Отжига для Оптимизированного Пакетного Выбора

Имитация отжига, являясь мощным метаэвристическим алгоритмом, эффективно применяется для оптимизации функций приобретения пакетов данных, особенно в дискретных пространствах поиска. В отличие от детерминированных методов, имитация отжига позволяет исследовать широкое множество решений, избегая застревания в локальных оптимумах. Это достигается за счет вероятностного принятия худших решений на ранних этапах алгоритма, что позволяет исследовать пространство решений более эффективно. В контексте выбора пакетов, дискретное пространство поиска обусловлено конечным числом возможных комбинаций данных, что делает имитацию отжига особенно подходящим инструментом для нахождения оптимального подмножества данных, максимизирующего заданную функцию приобретения.

Способность алгоритма имитации отжига избегать локальных оптимумов обусловлена вероятностным принятием худших решений на каждой итерации. В отличие от детерминированных методов оптимизации, которые застревают в локальном минимуме при обнаружении ухудшения целевой функции, имитация отжига допускает переход к менее выгодному состоянию с определенной вероятностью, зависящей от текущей “температуры” и разницы в значениях целевых функций. Эта вероятность экспоненциально убывает с увеличением разницы и уменьшением температуры, что позволяет алгоритму исследовать более широкое пространство решений и, с большей вероятностью, находить глобальный оптимум, особенно в сложных ландшафтах функций приобретения, характеризующихся множеством локальных минимумов и максимумов.

Эффективная реализация алгоритма имитации отжига требует внимательного подхода к формированию температурного графика и представлению дискретных наборов кандидатов. Температурный график определяет скорость снижения температуры в процессе поиска, влияя на баланс между исследованием новых решений и эксплуатацией уже найденных. Слишком быстрое снижение температуры может привести к застреванию в локальном оптимуме, в то время как слишком медленное — к излишним вычислительным затратам. Представление дискретных наборов кандидатов, определяющих пространство поиска, должно быть оптимизировано для эффективного вычисления целевой функции и минимизации объема требуемой памяти. Некорректное представление может существенно замедлить процесс поиска и снизить качество получаемых решений. Выбор конкретной стратегии температурного графика и представления кандидатов зависит от специфики решаемой задачи и характеристик целевой функции.

Метод имитации отжига демонстрирует превосходную сходимость гиперобъема и формирует плотное распределение Парето (видно по диаграммам рассеяния и маргинальным гистограммам), значительно превосходя SLSQP.

Оценка и Расширение до Многокритериальных Фронтов

Эффективность предложенного комбинированного подхода была всесторонне продемонстрирована на стандартных задачах оптимизации, таких как ZDT1 и DTLZ2. Результаты показывают, что достигнутый гиперобъем составил $6.75 \times 10^1$ для ZDT1 и $2.97 \times 10^2$ для DTLZ2. Эти показатели свидетельствуют о способности метода эффективно исследовать пространство решений и находить оптимальные компромиссы между различными целями, что подтверждается высокой производительностью на широко используемых тестовых функциях. Достигнутые значения гиперобъема указывают на превосходство подхода в поиске наилучшего набора Парето-оптимальных решений, представляющих собой компромиссы между конкурирующими целями.

Предложенная методология успешно расширена для решения задач многокритериальной оптимизации, позволяя одновременно оптимизировать несколько конфликтующих целей. В качестве примеров рассматривались задачи Курсаве и Latent-Aware Function, демонстрирующие возможность достижения сбалансированных решений в сложных пространствах параметров. В частности, применение данного подхода к задаче Latent-Aware Function позволило получить значение гиперобъема, равное $2.7 \times 10^3$ , что свидетельствует о высокой эффективности метода в поиске оптимальных решений, учитывающих множество взаимосвязанных критериев.

Применение параллельных вычислений значительно увеличивает скорость алгоритма имитации отжига, позволяя эффективно решать многокритериальные задачи высокой размерности и требующие больших вычислительных ресурсов. В ходе кампании по проектированию материалов наблюдалось приблизительное улучшение гиперобъема на 2% по сравнению с базовыми методами, а в некоторых случаях удавалось достичь прироста гиперобъема до 2%. Это свидетельствует о том, что оптимизация с использованием параллельных вычислений позволяет находить более качественные решения в сложных задачах, требующих одновременной оптимизации нескольких конфликтующих целей.

Метод имитации отжига (оранжевый) превосходит SLSQP (синий) в задаче оптимизации ZDT1 (D=30, O=2), обеспечивая более высокие значения гиперъема и стабильный прогресс в процессе оптимизации, что подтверждается анализом Парето и маргинальными гистограммами.

Исследование, представленное в статье, демонстрирует, что алгоритм имитации отжига превосходит градиентные методы в оптимизации пакетных функций приобретения, особенно при работе с дискретными наборами кандидатов и большими размерами пакетов. Это подчеркивает важность стохастических подходов в сложных задачах оптимизации. Клод Шеннон однажды заметил: «Информация — это не количество, а различие». В контексте данной работы, именно способность имитации отжига эффективно исследовать пространство решений, находя различия между кандидатами, обеспечивает его превосходство. Стабильность, в данном случае, действительно является иллюзией, кэшированной временем, поскольку стохастический характер алгоритма позволяет ему адаптироваться к изменениям и избегать застревания в локальных оптимумах.

Куда Ведет Этот Путь?

Представленная работа демонстрирует, что алгоритм имитации отжига превосходит градиентные методы в оптимизации пакетных функций приобретения в многоцелевой байесовской оптимизации, особенно при работе с дискретными наборами кандидатов и большими размерами пакетов. Однако, подобно любому инструменту, его эффективность ограничена контекстом. Вопрос не в том, насколько быстро система достигает «оптимума», а в том, как она справляется с неизбежной деградацией, с шумом, присущим любому процессу поиска.

Очевидным направлением дальнейших исследований представляется адаптация алгоритма к динамически меняющимся ландшафтам оптимизации. Реальные системы редко остаются статичными; их цели, ограничения и даже сама структура пространства поиска претерпевают изменения. Как имитация отжига может быть модифицирована, чтобы не просто находить локальные минимумы, но и предвидеть и адаптироваться к этим изменениям — это вопрос, требующий пристального внимания.

Не менее важным представляется изучение взаимодействия между алгоритмом и структурой самого пространства поиска. Каждый алгоритм, как и любая система, несет в себе следы своей конструкции. Важно понимать, как эти следы влияют на процесс оптимизации, и как их можно смягчить, чтобы система не просто «решала» задачу, но и училась на своих ошибках, становясь более устойчивой и надежной.

Оригинал статьи: https://arxiv.org/pdf/2601.07258.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-13 09:58

🚀 Квантовые новости