Искусственный интеллект под прицелом: новая эра киберугроз

Автор: Денис Аветисян

В статье рассматриваются необходимые изменения в практиках киберразведки для эффективной защиты систем искусственного интеллекта от возникающих угроз.

Индикаторы компрометации, основанные на анализе данных разведывательных данных NSFOCUS [21], демонстрируют конкретные шаблоны, позволяющие выявлять и нейтрализовать потенциальные угрозы безопасности.

Адаптация киберразведки для противодействия атакам на системы искусственного интеллекта, включая отравление моделей и внедрение вредоносных запросов.

В условиях всё более широкого внедрения искусственного интеллекта в критически важные системы, традиционные подходы кибербезопасности оказываются неэффективными перед новыми угрозами. В работе ‘Cyber Threat Intelligence for Artificial Intelligence Systems’ исследуется адаптация практик киберразведки (КТИ) для противодействия атакам, направленным на системы ИИ, с акцентом на необходимость новых индикаторов компрометации и источников данных. Предлагается концепция базы знаний КТИ, ориентированной на ИИ, включающей специфические индикаторы для различных фаз цепочки поставок и артефактов, что позволит усилить возможности инструментов безопасности. Какие конкретные шаги необходимы для создания практичной и эффективной системы КТИ, адаптированной к быстро развивающимся угрозам в области искусственного интеллекта?

Растущая Угроза для Интеллектуальных Систем

Современные системы искусственного интеллекта, функционирующие на основе машинного обучения, становятся всё более привлекательной целью для изощрённых кибератак. В отличие от традиционных систем, где защита строится на известных паттернах угроз, ИИ-системы подвержены атакам, использующим принципы машинного обучения против них самих. Злоумышленники разрабатывают методы, позволяющие обходить системы обнаружения, манипулировать данными для искажения результатов, и даже захватывать контроль над моделями ИИ. Эти атаки могут варьироваться от относительно простых, таких как отравление данных, до крайне сложных, использующих генеративные модели для создания реалистичных, но вредоносных образцов. Постоянное развитие технологий машинного обучения требует от специалистов по кибербезопасности непрерывного совершенствования методов защиты и разработки новых стратегий противодействия этим растущим угрозам.

Традиционные методы кибербезопасности оказываются неэффективными против новых угроз, направленных на системы искусственного интеллекта. Это связано с тем, что атаки на ИИ эксплуатируют уязвимости, специфичные для машинного обучения, такие как отравление данных или манипулирование моделями. Стандартные инструменты защиты, ориентированные на обнаружение вредоносного кода или сетевых аномалий, зачастую не способны распознать эти сложные и замаскированные воздействия. В связи с этим возникает потребность в специализированном подходе к разведке угроз в области ИИ — AI Threat Intelligence. Этот подход предполагает сбор, анализ и распространение информации о новых векторах атак, уязвимостях моделей и тактиках злоумышленников, что позволяет разрабатывать более эффективные стратегии защиты и смягчать риски, связанные с эксплуатацией искусственного интеллекта.

С ростом сложности больших языковых моделей (БЯМ) значительно расширяется и поверхность атак, становясь уязвимой для новых видов эксплойтов. БЯМ, в силу своей архитектуры и огромного количества параметров, предоставляют злоумышленникам больше возможностей для внедрения вредоносного кода или манипулирования результатами. Согласно данным AI Incident Database (AIID) на март 2026 года, зарегистрировано 5499 сообщений об инцидентах, связанных с атаками на системы искусственного интеллекта, что соответствует 1366 различным случаям эксплуатации. Этот рост свидетельствует о масштабе проблемы и подчеркивает необходимость разработки специализированных методов защиты, способных эффективно противодействовать новым угрозам, направленным на сложные модели машинного обучения.

Прогнозируемое количество сообщений о происшествиях, связанных с искусственным интеллектом, в базе данных AIID неуклонно растёт в период с 2015 по 2025 год[18].

Векторы Атаки: Как Происходит Взлом Интеллектуальных Систем

Вредоносные примеры (Adversarial Examples) и отравление данных (Data Poisoning) представляют собой серьезные угрозы для систем искусственного интеллекта, эксплуатируя уязвимости в данных, используемых для обучения и в процессе работы модели. Вредоносные примеры — это специально сконструированные входные данные, незначительно отличающиеся от корректных, но приводящие к ошибочным результатам работы модели. Отравление данных предполагает внесение злонамеренных изменений в обучающий набор данных, что приводит к тому, что модель обучается на искаженных данных и выдает неверные прогнозы или выполняет нежелательные действия. Обе техники направлены на компрометацию целостности и надежности системы, и могут применяться для обхода систем безопасности или манипулирования результатами анализа данных.

Атаки с использованием внедрения запросов (Prompt Injection) представляют собой специфическую угрозу для больших языковых моделей (LLM). Суть атаки заключается в создании специально разработанных входных запросов, которые манипулируют поведением LLM, заставляя модель игнорировать первоначальные инструкции или выполнять несанкционированные действия. В отличие от атак на входные данные, направленных на обход фильтров, Prompt Injection эксплуатирует способность LLM интерпретировать и выполнять команды, содержащиеся в тексте запроса. Это позволяет злоумышленнику не только изменять выходные данные модели, но и, потенциально, получать доступ к конфиденциальной информации или использовать LLM для выполнения вредоносных задач, таких как генерация фишинговых писем или распространение дезинформации.

Внедрение бэкдоров в веса обученной модели искусственного интеллекта представляет собой скрытую уязвимость, позволяющую злоумышленникам удаленно контролировать поведение системы. Бэкдоры реализуются путем внесения специфических изменений в параметры модели во время обучения или постобработки. Эти изменения не оказывают заметного влияния на общую производительность модели при стандартных входных данных, однако при получении специально сформированного «триггера» — уникального входного сигнала — модель начинает выдавать предсказуемый, но нежелательный результат, определенный злоумышленником. Такие триггеры могут быть визуально незаметными или казаться естественной частью входных данных, что затрудняет их обнаружение стандартными методами анализа. Уязвимость сохраняется даже после перераспределения или повторного использования модели, если веса, содержащие бэкдор, не были изменены.

Таксономия AVID, представленная в виде SEP и жизненного цикла, отображает различные аспекты пространства потенциальных рисков в процессе разработки ИИ[1].

Формирование Надежной Инфраструктуры Интеллектуальной Безопасности

Базы данных инцидентов, связанных с искусственным интеллектом (ИИ), такие как MITRE ATLAS, предоставляют ценные ресурсы для документирования и анализа атак, специфичных для ИИ. Эти платформы собирают и систематизируют информацию о тактиках, техниках и процедурах (TTP), используемых злоумышленниками в контексте ИИ-систем. Документация включает в себя детальное описание атак, затронутые компоненты ИИ, используемые векторы атак и потенциальное воздействие. MITRE ATLAS, в частности, использует структуру знаний ATT&CK для сопоставления атак с конкретными техниками и тактиками, что позволяет организациям лучше понимать риски и разрабатывать эффективные стратегии защиты. Собираемые данные включают в себя информацию о вредоносных моделях, манипулировании данными, атаках на алгоритмы машинного обучения и других векторах, нацеленных на ИИ-системы.

Методы глубокого хеширования (Deep Hashing) и нечеткого хеширования (Fuzzy Hashing) позволяют идентифицировать индикаторы компрометации (IOC), связанные с вредоносными активами искусственного интеллекта. В отличие от криптографических хешей, которые чувствительны к малейшим изменениям данных, нечеткое хеширование создает хеши, устойчивые к небольшим модификациям, что позволяет обнаруживать варианты вредоносного ПО, основанные на одном и том же шаблоне. Глубокое хеширование, в свою очередь, использует многоуровневый подход к вычислению хешей, что повышает точность идентификации и снижает вероятность ложных срабатываний при анализе сложных AI-моделей и данных. Эти методы особенно важны для обнаружения атак, направленных на манипулирование моделями машинного обучения или использование скомпрометированных AI-активов для распространения вредоносного контента.

Ресурс AVID (AI Vulnerability Database) представляет собой общедоступную платформу для сбора и обмена информацией об уязвимостях в системах искусственного интеллекта и машинного обучения. Его значимость подтверждается ростом числа зафиксированных уязвимостей: с 13 в 2022 году до 27 в 2023 году. AVID способствует оперативному реагированию на возникающие угрозы за счет коллективной работы и обмена данными между исследователями и специалистами в области информационной безопасности.

Таксономии GMF и CSET AI Harm предоставляют структурированные подходы к классификации инцидентов, связанных с искусственным интеллектом, и оценке масштаба причиняемого вреда. Таксономия GMF (Generative Model Failure) фокусируется на типах отказов генеративных моделей, таких как генерация дезинформации или предвзятого контента, в то время как таксономия CSET AI Harm классифицирует вредоносные действия, совершаемые с использованием ИИ, по категориям, включая манипулирование информацией, нарушение конфиденциальности и физический вред. Использование этих таксономий позволяет стандартизировать процесс документирования инцидентов, облегчает анализ и обмен информацией между специалистами, а также способствует разработке эффективных мер по смягчению рисков, связанных с ИИ.

Таксономия AVID представляет собой матричную структуру, классифицирующую типы визуальных атак и уязвимостей.

Проактивная Оценка и Перспективы Развития

Для оценки устойчивости больших языковых моделей к атакам, основанным на внедрении вредоносных инструкций (prompt injection), разработан эталонный набор данных Qualifire Prompt Injections Benchmark. Он состоит из 5000 примеров, тщательно сбалансированных таким образом, чтобы 60% представляли собой безобидные запросы, а 40% — попытки взлома и обхода ограничений системы. Такой подход позволяет исследователям объективно оценить, насколько хорошо модель способна различать легитимные запросы и злонамеренные манипуляции, а также выявить слабые места в ее защите от подобных атак. Использование обширного и структурированного набора данных, как Qualifire, является ключевым шагом к созданию более надежных и безопасных систем искусственного интеллекта.

Систематический обзор научной литературы играет ключевую роль в выявлении новых угроз и уязвимостей в стремительно развивающейся области искусственного интеллекта. Поскольку модели ИИ становятся все более сложными и интегрированными в критически важные системы, появляется необходимость в постоянном анализе существующих исследований. Такой обзор позволяет не только отслеживать появление новых типов атак, но и прогнозировать потенциальные слабые места в архитектуре и алгоритмах. Он предоставляет ценную информацию для разработчиков и специалистов по безопасности, помогая им своевременно реагировать на возникающие риски и разрабатывать эффективные стратегии защиты. Без регулярного и всестороннего анализа научных публикаций, сложно обеспечить надежность и безопасность систем искусственного интеллекта, что может привести к серьезным последствиям в различных сферах применения.

Для обеспечения надежности и безопасности систем искусственного интеллекта необходимы дальнейшие исследования и тесное сотрудничество между учеными и разработчиками. Уязвимости, специфичные для ИИ, постоянно эволюционируют, требуя создания новых, адаптивных методов защиты. Разработка эффективных стратегий противодействия атакам, направленным на манипулирование или несанкционированный доступ к системам ИИ, предполагает не только совершенствование алгоритмов обнаружения угроз, но и углубленное понимание принципов работы этих атак. Успешное создание доверенных ИИ-систем требует комплексного подхода, включающего в себя не только технические решения, но и разработку этических норм и стандартов, обеспечивающих прозрачность и ответственность в использовании искусственного интеллекта.

Процесс аннотации успешно применен к реальному инциденту AIID (ID 72) для анализа и понимания его характеристик.

Исследование подчеркивает необходимость адаптации практик киберразведки для эффективной защиты систем искусственного интеллекта. Особое внимание уделяется новым индикаторам компрометации и источникам данных, что закономерно, ведь традиционные методы часто оказываются неэффективными против сложных атак, направленных на машинное обучение. Как заметил Бертран Рассел: «Всякая большая проблема имеет простое решение, которое трудно увидеть, потому что оно лежит вне сферы привычных идей». Это особенно актуально в контексте защиты ИИ, где требуется выход за рамки устоявшихся подходов к кибербезопасности и поиск инновационных решений для противодействия таким угрозам, как отравление моделей и инъекции запросов.

Что Дальше?

Представленные размышления о киберразведке для систем искусственного интеллекта, несмотря на кажущуюся новизну, лишь обнажают фундаментальную проблему: необходимость формализации инвариантов безопасности. Если индикаторы компрометации для традиционных систем можно было строить на основе известных паттернов, то в контексте ИИ, где «компрометация» может проявляться как тонкое искажение выходных данных, требуется иной подход. Если решение кажется магией — значит, не раскрыт инвариант, гарантирующий корректность.

Очевидно, что расширение источников данных — это лишь частное решение. Более важным представляется разработка методов верификации и доказательства безопасности моделей ИИ. Недостаточно просто обнаружить «отравление» модели; необходимо доказать, что модель, не подвергшаяся атаке, обладает заданными свойствами. Иначе говоря, необходима математическая гарантия, а не статистическая оценка.

В конечном итоге, поле киберразведки для ИИ должно эволюционировать от реактивного поиска угроз к проактивному построению устойчивых систем. Если рассматривать ИИ как сложный автомат, то задача киберразведки сводится к определению его инвариантов и обеспечению их сохранения. И тогда, возможно, «магия» искусственного интеллекта перестанет быть источником беспокойства, а станет инструментом предсказуемости и контроля.

Оригинал статьи: https://arxiv.org/pdf/2603.05068.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-06 17:37

🚀 Квантовые новости