Скрытые уязвимости: Как железо взламывает нейросети

Автор: Денис Аветисян


Новое исследование показывает, что незначительные отклонения в аппаратном обеспечении могут создавать незаметные бэкдоры в моделях машинного обучения, приводя к ошибочной классификации на конкретных устройствах.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Аппаратные триггеры, использующие числовые отклонения в арифметике с плавающей точкой, позволяют внедрять бэкдоры в модели машинного обучения без ухудшения их общей производительности.

Несмотря на кажущуюся детерминированность вычислений, различия в аппаратном обеспечении могут приводить к незначительным числовым отклонениям в работе моделей машинного обучения. В работе ‘Hardware-Triggered Backdoors’ показано, что эти отклонения могут быть использованы для создания «аппаратно-зависимых бэкдоров», приводящих к ошибочной классификации на определенных устройствах без изменения общей производительности модели. Суть подхода заключается в локальном смещении границы принятия решений и усилении числовых расхождений для манипулирования предсказаниями на целевом оборудовании. Не открывает ли это новые векторы атак на сторонние модели и какие эффективные меры защиты можно разработать для противодействия этой угрозе?


Раскрывая Уязвимость: Аппаратная Зависимость в Машинном Обучении

Современные модели машинного обучения демонстрируют растущую уязвимость к атакам, использующим незначительные различия в исполнении на различном аппаратном обеспечении. Это связано с тем, что алгоритмы, разработанные и обученные на конкретной платформе, могут давать непредсказуемые результаты при переносе на другое устройство, даже если архитектура кажется идентичной. Незначительные вариации в микроархитектуре, тактовой частоте или даже производственных допусках полупроводников могут влиять на точность вычислений с плавающей точкой и, следовательно, на итоговые предсказания модели. В результате, злоумышленники могут создавать атаки, которые успешно обходят стандартные меры безопасности, эксплуатируя эти аппаратные особенности для манипулирования поведением модели без изменения её весов или структуры.

Существующие меры безопасности, как правило, ориентированы на защиту от атак, направленных на программное обеспечение и данные, и часто упускают из виду зависимость моделей машинного обучения от конкретного аппаратного обеспечения. Это создает значительную уязвимость, поскольку незначительные различия в реализации аппаратной части — от особенностей Floating-Point Arithmetic до вариаций в микроархитектуре процессоров и графических ускорителей — могут приводить к изменениям в поведении модели. В результате, атаки, эксплуатирующие эти аппаратные нюансы, способны обходить традиционные системы защиты, оставаясь незамеченными и представляя серьезную угрозу для надежности и безопасности алгоритмов машинного обучения. Данное пренебрежение аппаратной составляющей формирует лазейку для появления принципиально новых типов угроз, способных эффективно обходить существующие барьеры.

Уязвимость моделей машинного обучения часто коренится в присущей вычислениям с плавающей точкой неточности. Вместо абсолютно точных значений, \mathbb{R} представляются в виде конечного числа битов, что неизбежно приводит к ошибкам округления. Эти ошибки, хоть и кажутся незначительными, могут накапливаться в процессе сложных вычислений, существенно изменяя поведение модели на разных аппаратных платформах. Различные процессоры и графические ускорители реализуют арифметику с плавающей точкой по-разному, что приводит к небольшим, но критичным различиям в результатах. Таким образом, модель, обученная на одной платформе, может демонстрировать совершенно иное поведение на другой, делая её предсказуемой для злоумышленников и открывая возможности для атак, использующих эти аппаратные несоответствия.

Появление атак с использованием аппаратных «бэкдоров» знаменует собой существенную эскалацию рисков в области безопасности машинного обучения. В отличие от традиционных методов, эксплуатирующих уязвимости в программном обеспечении или данных, эти атаки напрямую зависят от характеристик аппаратного обеспечения, на котором выполняется модель. Исследования демонстрируют, что злоумышленники способны внедрять скрытые триггеры, активирующие вредоносное поведение исключительно при определенных условиях, определяемых физическими параметрами процессора или графического ускорителя. При этом, успешность таких атак, по результатам проведенных экспериментов, превышает 94% на различных моделях, графических процессорах и типах данных, что подчеркивает серьезность угрозы и необходимость разработки новых методов защиты, учитывающих аппаратную специфику.

Механизм Воздействия: Численные Отклонения и Функции Принятия Решений

Незначительные численные отклонения, возникающие из-за различий в аппаратном обеспечении, накапливаются и распространяются по слоям нейронной сети. Эти отклонения обусловлены конечной точностью представления чисел с плавающей точкой в различных процессорах и графических ускорителях. В процессе прямого и обратного распространения, даже небольшие различия в арифметических операциях (сложение, умножение и т.д.) могут суммироваться, приводя к заметным расхождениям в выходных данных каждого слоя. Чем глубже архитектура сети (например, ResNet, EfficientNet, Vision Transformer), тем сильнее эффект накопления, поскольку каждый слой вносит свой вклад в общее отклонение. Данные отклонения не являются случайным шумом, а представляют собой детерминированные различия, зависящие от конкретной аппаратной конфигурации, используемой для вычислений.

Незначительные отклонения в вычислениях, возникающие из-за различий в аппаратном обеспечении, оказывают прямое влияние на функцию принятия решений нейронной сети. Эти отклонения изменяют значения, передаваемые между слоями, что приводит к изменению конечных предсказаний модели. В частности, функция принятия решений, определяющая выходной класс или значение, становится чувствительной к аппаратной платформе, на которой она выполняется. Это означает, что одна и та же модель, работающая на разных устройствах с небольшими различиями в вычислительных компонентах, может выдавать разные результаты, даже при использовании одинаковых входных данных. Изменение выходных данных происходит не случайным образом, а определяется спецификой аппаратных отклонений и структурой сети.

Несмотря на высокую производительность и широкое применение, архитектуры нейронных сетей, такие как ResNet, EfficientNet и Vision Transformer, подвержены манипуляциям, основанным на накоплении незначительных числовых отклонений. Исследования показывают, что даже небольшие аппаратные различия могут приводить к кумулятивным погрешностям в вычислениях, которые, проходя через слои сети, оказывают влияние на итоговую функцию принятия решений. Это означает, что одна и та же модель, развернутая на различном оборудовании, может выдавать разные результаты, что делает её уязвимой к целенаправленным атакам, использующим эти аппаратные особенности для изменения предсказаний.

Атаки, использующие незначительные числовые отклонения в нейронных сетях, не являются случайным шумом, а представляют собой целенаправленное воздействие. Злоумышленники могут стратегически усиливать эти отклонения, возникающие из-за различий в аппаратном обеспечении, для инициирования вредоносного поведения. Экспериментальные данные демонстрируют, что при целенаправленной атаке на конкретные аппаратные конфигурации, вероятность успешной эксплуатации достигает не менее 60%, что подтверждает возможность использования данной уязвимости для обхода механизмов защиты и выполнения несанкционированных действий.

Выявление Источника: Анализ по Слоям и Коррекция Активаций

Анализ причинно-следственных связей на уровне слоев позволяет отследить происхождение отклонений, зависящих от аппаратного обеспечения, и выявить слои, вносящие наибольший вклад в различия в предсказаниях. Данный подход предполагает последовательное сравнение выходных данных каждого слоя модели при работе на различных аппаратных платформах. Путем измерения степени расхождения между этими выходами, можно количественно оценить вклад каждого слоя в общую разницу в предсказаниях. Слои, демонстрирующие значительные расхождения, указывают на области, где аппаратные особенности оказывают наибольшее влияние на поведение модели, что позволяет сосредоточить усилия по оптимизации и смягчению этих эффектов. Этот метод позволяет установить, какие конкретно части нейронной сети наиболее чувствительны к различиям в аппаратном обеспечении и, следовательно, требуют особого внимания при развертывании на различных платформах.

Метод кросс-аппаратного сопоставления активаций представляет собой эффективную технику для выявления и устранения расхождений в работе моделей, возникающих при переносе с одной аппаратной платформы на другую. Суть метода заключается в сравнении значений активаций нейронов на различных аппаратных конфигурациях при обработке одних и тех же входных данных. Выявляя значительные расхождения в активациях между платформами, можно определить конкретные слои или операции, наиболее чувствительные к аппаратным особенностям. Далее, эти расхождения могут быть скорректированы посредством адаптации весов или использования техник, повышающих устойчивость модели к числовым отклонениям, что позволяет добиться сопоставимых результатов на разных аппаратных платформах.

Методы, такие как топологическая перестановка (Topological Permutation) и изменение битов (Bit Flipping), позволяют намеренно вносить контролируемые числовые отклонения в процесс вычислений модели. Топологическая перестановка изменяет порядок активаций в слоях, а изменение битов вносит незначительные изменения в отдельные значения. Анализ влияния этих изменений на выходные данные модели позволяет оценить её чувствительность к числовым погрешностям и определить, какие части сети наиболее подвержены влиянию небольших отклонений. Данные техники используются для выявления слоев и операций, критичных к точности вычислений, и помогают понять, как незначительные аппаратные различия могут приводить к заметным изменениям в предсказаниях модели.

Анализ выявляет, что отклонения в работе модели на различном оборудовании обусловлены сложным взаимодействием между аппаратной платформой, архитектурой нейронной сети и точностью представления чисел. Незначительные различия в реализации операций с плавающей точкой на разных процессорах, в сочетании с особенностями структуры сети и ее чувствительностью к числовым отклонениям, могут приводить к заметным расхождениям в предсказаниях. Влияние каждого из этих факторов варьируется в зависимости от конкретной модели и оборудования, и их совместное воздействие требует детального изучения для обеспечения воспроизводимости результатов и надежной работы системы.

Повышение Устойчивости: Стратегии Защиты и Методы Смягчения

Для противодействия атакам, использующим зависимость моделей машинного обучения от аппаратных особенностей, применяются различные защитные стратегии. Методы, такие как намеренное внесение небольших возмущений во входные данные (Input Perturbation), варьирование размера пакета обрабатываемых данных (Batch Size Variation) и использование вычислений со смешанной точностью (Mixed-Precision Inference), эффективно нарушают способность злоумышленника эксплуатировать незначительные отклонения, возникающие из-за различий в аппаратном обеспечении. Эти стратегии создают дополнительный шум и неопределенность в процессе вычислений, затрудняя точное воспроизведение аппаратных ошибок, необходимых для успешной атаки, и, таким образом, повышают устойчивость системы к манипуляциям.

Дополнительная настройка моделей машинного обучения с использованием данных, учитывающих особенности конкретного аппаратного обеспечения, значительно повышает их устойчивость к атакам, направленным на эксплуатацию аппаратных отклонений. Этот подход позволяет модели адаптироваться к специфическим нюансам вычислительной платформы, тем самым снижая вероятность успешной реализации вредоносного кода. Исследования показывают, что применение аппаратного осведомления в процессе обучения позволяет существенно уменьшить вероятность успешной атаки, сохраняя при этом высокую точность и надежность работы системы даже при внедрении скрытых уязвимостей.

Разработанные методы защиты направлены на минимизацию влияния численных отклонений на функцию принятия решений модели. Исследования показали, что даже после внедрения скрытой уязвимости (“backdoor”), медианная производительность сохраняется на уровне 99.8%. Это достигается за счет стабилизации поведения модели на различных аппаратных платформах, делая её менее восприимчивой к атакам, использующим специфические особенности реализации вычислений. Таким образом, обеспечивается консистентность работы системы, независимо от используемого оборудования, что критически важно для надежности и безопасности машинного обучения.

Акцентирование внимания на аппаратной зависимости в системах машинного обучения позволяет значительно повысить их безопасность и надёжность. Исследования показывают, что уязвимости, эксплуатирующие различия в вычислительных платформах, могут приводить к непредсказуемому поведению моделей и снижению точности. Превентивное решение этой проблемы, посредством разработки методов обучения, учитывающих особенности аппаратного обеспечения, и внедрения стратегий, маскирующих аппаратные отклонения, позволяет минимизировать риски атак и обеспечить стабильную работу моделей на различных платформах. Такой подход не только защищает от злонамеренных действий, но и способствует повышению общей устойчивости и доверия к системам искусственного интеллекта, обеспечивая предсказуемые результаты и сохраняя высокую производительность даже при наличии скрытых уязвимостей.

Исследование демонстрирует, что даже незначительные отклонения в аппаратном обеспечении способны стать причиной скрытых уязвимостей в системах машинного обучения. Это подтверждает идею о том, что понимание устройства системы открывает возможности для её модификации, пусть и не всегда очевидной. Блез Паскаль заметил: “Все проблемы человечества происходят от того, что люди не могут спокойно сидеть в одной комнате”. В контексте данной работы, это можно интерпретировать как неспособность систем сохранять стабильность перед лицом микроскопических, но критических изменений в аппаратной среде, что приводит к непредсказуемым последствиям в работе моделей. Подобный подход к выявлению уязвимостей подчеркивает важность реверс-инжиниринга и глубокого анализа аппаратной составляющей для обеспечения безопасности.

Куда двигаться дальше?

Представленная работа, обнажая уязвимость машинного обучения перед едва заметными аппаратными отклонениями, ставит под вопрос саму концепцию переносимости моделей. Если даже незначительные колебания в арифметике с плавающей точкой способны запустить скрытые бэкдоры, то гарантии безопасности, основанные на программной верификации, оказываются иллюзорными. Необходимо переосмыслить подходы к тестированию, сместив акцент с абстрактных алгоритмов на физическую реализацию вычислений.

Особый интерес представляет исследование влияния различных архитектур аппаратного обеспечения на восприимчивость к подобным атакам. Единая модель, обученная на одном типе процессора, может демонстрировать принципиально иное поведение на другом, даже если формально результаты вычислений совпадают. Иными словами, «черный ящик» машинного обучения оказывается еще глубже, чем предполагалось, поскольку в его работе участвует не только код, но и сама материя.

В конечном счете, представленная работа — это не столько демонстрация конкретной угрозы, сколько приглашение к эксперименту. Понимание того, как аппаратные особенности формируют поведение моделей, может привести к созданию принципиально новых методов защиты, основанных не на маскировке уязвимостей, а на использовании самой природы вычислений. Ведь знание — это всегда реверс-инжиниринг реальности.


Оригинал статьи: https://arxiv.org/pdf/2601.21902.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-31 17:15