Ускорение атак на основе жёстких меток: новый подход к поиску уязвимостей

Автор: Денис Аветисян


В статье представлен метод повышения эффективности атак на системы машинного обучения, основанных на жёстких метках, за счёт оптимизации скорости сходимости и снижения числа запросов.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Предложены алгоритмы ARS-OPT и PARS-OPT, использующие импульс, перспективные направления и перенос знаний для более точной оценки градиента и повышения эффективности атак.

Несмотря на значительный прогресс в области атак на основе состязательных примеров, эффективность атак с жесткой меткой остается серьезной проблемой из-за высокой сложности запросов. В данной работе, посвященной ‘Improving the Convergence Rate of Ray Search Optimization for Query-Efficient Hard-Label Attacks’, предложены алгоритмы ARS-OPT и PARS-OPT, оптимизирующие поиск оптимального направления луча для минимизации возмущения, необходимого для создания состязательного изображения. Предложенные методы, использующие импульс, прогнозирование направлений и перенос знаний, демонстрируют ускоренную сходимость и повышенную эффективность запросов. Смогут ли эти подходы существенно снизить вычислительные затраты и расширить возможности практического применения атак с жесткой меткой в реальных системах?


Математическая Уязвимость: Постановка Проблемы

Несмотря на впечатляющие успехи в различных областях, глубокие нейронные сети демонстрируют уязвимость к так называемым «атакам противника». Суть этих атак заключается в намеренном внесении незначительных, едва заметных изменений во входные данные, которые приводят к ошибочной классификации модели. Данная проблема вызывает серьезные опасения в критически важных приложениях, таких как автономное вождение, медицинская диагностика и системы безопасности, где даже небольшая ошибка может иметь катастрофические последствия. Уязвимость к таким атакам подрывает доверие к надежности и предсказуемости глубокого обучения, стимулируя поиск новых методов защиты и повышения устойчивости этих систем к преднамеренным искажениям.

Традиционные методы защиты нейронных сетей от атак, основанные на градиентах, сталкиваются с серьезными ограничениями в реальных сценариях. Эти подходы требуют доступа к информации о производных функции потерь по отношению к входным данным, что практически невозможно в так называемых “черных ящиках” — системах, где внутреннее устройство и градиенты недоступны. В таких ситуациях, например, при взаимодействии с проприетарными моделями или при анализе аппаратного обеспечения, злоумышленник может манипулировать входными данными, не зная, как именно эти изменения повлияют на выходные значения модели. Это значительно усложняет разработку эффективных стратегий защиты, поскольку стандартные методы, направленные на сглаживание градиентов или маскировку важных признаков, становятся неэффективными. В связи с этим, активно ведутся исследования в области разработки методов, не требующих доступа к градиентам, чтобы обеспечить надежную защиту в условиях ограниченной информации.

Суть уязвимости глубоких нейронных сетей кроется в специфике их границы принятия решений. Даже незначительные изменения во входных данных, практически незаметные для человеческого глаза, способны сместить точку данных через эту границу, приводя к ошибочной классификации. Представьте себе идеально сбалансированные весы: достаточно минимального веса, чтобы чаша перевесила. Аналогично, небольшие возмущения в структуре входного сигнала могут кардинально изменить вывод модели, демонстрируя её чувствительность и подверженность атакам. Это связано с тем, что модели учатся на ограниченном наборе данных, и экстраполяция за пределы этого набора может приводить к непредсказуемым результатам, особенно когда данные подвергаются целенаправленным искажениям.

Атака Нулевого Порядка: Обход Градиентных Ограничений

Оптимизация нулевого порядка (Zeroth-Order Optimization) представляет собой метод поиска состязательных примеров в ситуациях, когда информация о градиенте недоступна или ее вычисление затруднено. В отличие от традиционных атак, полагающихся на вычисление градиента функции потерь для определения направления внесения изменений в входные данные, данный подход использует только значения функции потерь для оценки качества текущего решения и направления поиска. Это достигается путем итеративного изменения входных данных и оценки полученного результата, что позволяет находить состязательные примеры без прямого доступа к градиенту. Метод особенно полезен при работе с «черными ящиками» (black-box models), где внутренняя структура и градиенты модели неизвестны или скрыты.

Метод ARS-OPT представляет собой эффективный подход к реализации атак нулевого порядка, основанный на использовании ускоренного случайного поиска. В отличие от традиционных методов, требующих вычисления градиентов, ARS-OPT генерирует возмущения путем случайного изменения входных данных и оценки полученных результатов. Ускорение достигается за счет применения методов, имитирующих динамику ускоренного градиентного спуска, что позволяет быстрее находить эффективные возмущения, даже при отсутствии информации о градиенте целевой функции. Этот подход позволяет существенно сократить время поиска по сравнению с наивным случайным поиском, обеспечивая высокую эффективность атак в сценариях, где градиент недоступен или ненадежен.

В основе эффективности алгоритма ARS-OPT лежит использование методов ускоренного градиентного спуска Нестерова (Nesterov Accelerated Gradient) и импульса (Momentum) для направления процесса поиска. Нестеровский ускоренный градиент позволяет оценить градиент в точке, куда переместится решение на следующем шаге, что обеспечивает более точное направление поиска. Использование импульса, в свою очередь, позволяет накапливать информацию о предыдущих шагах, тем самым сглаживая колебания и ускоряя сходимость к оптимальному решению, даже при отсутствии информации о градиенте функции потерь. Комбинация этих техник позволяет ARS-OPT эффективно исследовать пространство входных данных и находить антагонистические возмущения, несмотря на ограничения, связанные с атаками нулевого порядка.

Метод поиска состязательных примеров, основанный на анализе границ принятия решений, позволяет идентифицировать небольшие возмущения, приводящие к неверной классификации, даже при отсутствии информации о градиенте функции потерь. Вместо вычисления градиента, алгоритм исследует окрестность точки данных, оценивая изменения в выходных данных модели при небольших изменениях входных данных. Анализ поведения модели вблизи границы принятия решений позволяет определить направления, в которых даже незначительные возмущения могут привести к переклассификации, эффективно обходя необходимость в прямом вычислении градиента и делая возможным проведение состязательных атак в сценариях, где градиент недоступен.

PARS-OPT: Усиление Атаки через Перенос и Оценку

PARS-OPT усовершенствует алгоритм ARS-OPT путем интеграции суррогатной модели для повышения точности оценки градиента. В ARS-OPT оценка градиента осуществлялась непосредственно через возмущения входных данных, что приводило к значительным шумам и замедляло процесс сходимости. PARS-OPT использует обученную суррогатную модель — нейронную сеть, аппроксимирующую целевую функцию — для получения более гладкой и точной оценки градиента. Это позволяет снизить дисперсию оценки и, как следствие, ускорить поиск оптимальных возмущений, необходимых для генерации состязательных примеров. Вместо прямой оценки градиента через возмущения, PARS-OPT вычисляет градиент суррогатной модели, что является значительно более эффективным процессом.

Алгоритм PARS-OPT использует перенос знаний (transfer learning) для сужения пространства поиска при генерации противных примеров. В частности, предварительно обученные модели, полученные на других наборах данных или задачах, служат основой для инициализации процесса оптимизации. Это позволяет значительно сократить количество итераций, необходимых для нахождения минимального возмущения, приводящего к ошибочной классификации, поскольку алгоритм стартует с более обоснованной начальной точки, а не с произвольного значения. Использование таких априорных знаний, полученных в результате переноса, существенно ускоряет идентификацию противных примеров, особенно в задачах, где вычислительные ресурсы ограничены.

Для обеспечения незаметности создаваемых атак, алгоритм PARS-OPT использует бинарный поиск для определения минимального возмущения, измеряемого как ℓ_2-норма. Этот метод позволяет эффективно находить наименьшее возможное изменение входных данных, которое приводит к неправильной классификации, сохраняя при этом визуальное сходство с исходным примером. Бинарный поиск итеративно сужает диапазон возможных значений нормы возмущения, пока не будет достигнута заданная точность, гарантируя, что созданные атак-примеры будут практически неотличимы от оригинальных изображений для человеческого глаза.

Комбинация используемых в PARS-OPT методов — суррогатного моделирования, переноса знаний и бинарного поиска — значительно повышает эффективность и результативность атак с жесткой меткой (hard-label attacks). Экспериментальные данные демонстрируют, что PARS-OPT превосходит существующие алгоритмы по скорости сходимости и качеству генерируемых антагонистических примеров. Достигнутые результаты позволяют значительно сократить время, необходимое для генерации атак, сохраняя при этом их эффективность и незаметность для человека, что подтверждается метриками ℓ_2-нормы возмущений.

Валидация и Последствия для Надежного Искусственного Интеллекта

Исследования, проведенные на широко используемых наборах данных, таких как CIFAR-10 и ImageNet, продемонстрировали универсальность предложенного метода PARS-OPT применительно к различным архитектурам современных нейронных сетей. Эксперименты с моделями Swin Transformer и CLIP подтвердили эффективность подхода в различных задачах компьютерного зрения. Данные результаты указывают на то, что PARS-OPT не является специфичным для конкретной модели или набора данных, а представляет собой обобщенный инструмент для анализа и повышения устойчивости систем искусственного интеллекта к состязательным атакам. Способность метода успешно работать с различными типами архитектур делает его ценным активом для разработчиков и исследователей, стремящихся создавать более надежные и безопасные ИИ-системы.

Исследования показали, что разработанный алгоритм PARS-OPT превосходит тринадцать современных методов атак на изображения в задачах классификации, демонстрируя повышенную эффективность на широко используемых наборах данных ImageNet и CIFAR-10. Достигнутое улучшение в показателях успешности атак указывает на существенные уязвимости в существующих моделях машинного обучения, даже тех, которые используют передовые методы защиты. Этот результат подчеркивает необходимость разработки более надежных систем искусственного интеллекта, способных противостоять целенаправленным атакам и обеспечивать стабильную работу в реальных условиях, особенно в критически важных приложениях, где надежность имеет первостепенное значение.

В ходе исследований, алгоритм PARS-OPT продемонстрировал передовые результаты в минимизации ℓ₂-искажений при генерации состязательных примеров, превосходя существующие методы как для моделей, не имеющих защиты, так и для моделей, защищенных посредством состязательного обучения (AT) и MIMIR. Это означает, что PARS-OPT способен создавать более реалистичные и незаметные состязательные примеры, что делает его особенно эффективным в обходе механизмов защиты. Достигнутое среднее ℓ₂-искажение является новым стандартом в данной области, подчеркивая уязвимость современных моделей искусственного интеллекта и необходимость разработки более надежных систем защиты, способных противостоять подобным атакам.

Исследования показали, что разработанный алгоритм PARS-OPT демонстрирует значительно более высокую скорость сходимости по сравнению с существующим методом Sign-OPT. В то время как Sign-OPT характеризуется скоростью сходимости, пропорциональной O((\ln T)/T), где T — количество итераций, PARS-OPT достигает скорости O(1/T^2). Это означает, что PARS-OPT сходится к оптимальному решению гораздо быстрее, особенно при увеличении числа итераций. Данное теоретическое преимущество было подтверждено экспериментальными данными, указывающими на более эффективное нахождение оптимальных возмущений для проведения атак на модели машинного обучения. Более быстрая сходимость алгоритма не только повышает эффективность атак, но и предоставляет ценную информацию для разработки более надежных методов защиты, направленных на снижение уязвимости моделей к состязательным воздействиям.

Данное исследование подчеркивает необходимость разработки более надежных систем защиты для искусственного интеллекта, выходящих за рамки традиционного состязательного обучения. Уязвимость современных моделей к специально разработанным возмущениям указывает на то, что простая адаптация к существующим атакам недостаточна для обеспечения реальной безопасности. Вместо этого, представляется перспективным изучение принципиально новых архитектурных решений, которые изначально проектируются с учетом устойчивости к враждебным воздействиям. Такой подход может включать в себя использование принципов робастности, заимствованных из других областей науки, или разработку новых методов обучения, направленных на создание более устойчивых представлений данных. В конечном итоге, повышение надежности систем ИИ является критически важным для их безопасного и эффективного использования в различных областях, особенно в тех, где ошибки могут иметь серьезные последствия.

Понимание уязвимостей систем искусственного интеллекта имеет первостепенное значение при их внедрении в приложения, критичные к безопасности. Неспособность адекватно защитить модели от целенаправленных атак может привести к катастрофическим последствиям в таких областях, как автономное вождение, диагностика заболеваний и системы финансового контроля. Выявление и устранение этих слабых мест позволяет создавать более надежные и предсказуемые системы, способные функционировать безопасно и эффективно даже в условиях враждебной среды. Проведение тщательного анализа устойчивости и разработка эффективных методов защиты — это не просто академическая задача, а насущная необходимость для обеспечения безопасности и доверия к технологиям искусственного интеллекта в критически важных областях применения.

Исследование, представленное в данной работе, стремится к повышению эффективности алгоритмов поиска, что находит отклик в словах Давида Гильберта: «Мы должны знать. Мы должны знать, что мы можем знать». Авторы предлагают методы ARS-OPT и PARS-OPT, направленные на ускорение сходимости в задачах генерации атак на основе жестких меток. В основе этих методов лежит идея использования импульса и направлений поиска, что позволяет более эффективно оценивать градиент и приближаться к оптимальному решению. Эта работа демонстрирует стремление к детерминированному и доказуемому результату, что особенно важно в контексте безопасности и надежности алгоритмов.

Куда Далее?

Представленные методы, ARS-OPT и PARS-OPT, несомненно, демонстрируют улучшение скорости сходимости в задачах генерации adversarial примеров с использованием hard-label атак. Однако, триумф скорости не должен затмевать фундаментальную проблему: гарантии корректности. Ускорение алгоритма бессмысленно, если оно достигается за счет увеличения вероятности получения неверного результата. Необходимы строгие математические доказательства, подтверждающие не только сходимость, но и асимптотическую корректность предложенных модификаций. Иначе, это лишь иллюзия прогресса, красивая на графиках, но сомнительная в реальности.

Особое внимание следует уделить оценке влияния surrogate моделей на устойчивость полученных adversarial примеров. Улучшение оценки градиента, основанное на transfer-based priors, может привести к созданию примеров, эффективных лишь против конкретной архитектуры surrogate модели, но бесполезных против целевой сети. Следующим шагом видится разработка методов, позволяющих оценить степень transferability полученных атак и минимизировать зависимость от конкретной surrogate модели.

Наконец, не стоит забывать о вычислительной сложности. Ускорение сходимости — это хорошо, но если стоимость каждой итерации возрастает, то общий выигрыш может быть незначительным. Будущие исследования должны быть направлены на разработку методов, сочетающих в себе высокую скорость сходимости и минимальные вычислительные затраты, чтобы сделать hard-label атаки практически реализуемыми в реальных условиях.


Оригинал статьи: https://arxiv.org/pdf/2512.21241.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-27 03:55