Защита ИИ-агентов: новый подход к доверию и безопасности

Автор: Денис Аветисян

В статье представлен метод аутентифицированных рабочих процессов, обеспечивающий надежную защиту ИИ-агентов от угроз и несанкционированного доступа.

Аутентифицированные рабочие процессы создают доверенную среду для ИИ-агентов, используя криптографическую верификацию и принудительное соблюдение политик безопасности.

Несмотря на автоматизацию рабочих процессов предприятиями, существующие системы защиты агентивного ИИ, основанные на вероятностных оценках, регулярно оказываются уязвимыми. В работе ‘Authenticated Workflows: A Systems Approach to Protecting Agentic AI’ представлен первый комплексный уровень доверия для агентивного ИИ, сводящий безопасность к защите четырех ключевых границ: запросов, инструментов, данных и контекста. Предлагаемый подход обеспечивает детерминированную безопасность посредством криптографической верификации и принудительного соблюдения политик на каждой границе, а также динамическое выражение ограничений с использованием специализированного языка политик MAPL. Возможно ли создание полностью надежной инфраструктуры агентивного ИИ, способной эффективно противостоять постоянно развивающимся угрозам?

Пределы Традиционных Подходов к Безопасности

Традиционные модели безопасности, ориентированные на защиту периметра, всё чаще оказываются неэффективными перед лицом усложняющихся внутренних угроз и атак на цепочки поставок. В прошлом, акцент делался на создании надежного внешнего барьера, предполагая, что всё внутри сети является доверенным. Однако современные реалии демонстрируют, что злоумышленники способны проникать внутрь, обходя внешнюю защиту, или же использовать доверенные внутренние ресурсы для распространения вредоносного ПО. Атаки на цепочки поставок, когда компрометируется программное обеспечение или оборудование еще до его попадания в организацию, полностью игнорируют периметральную защиту. В результате, организации вынуждены переосмысливать подходы к обеспечению безопасности, делая акцент на обнаружении и реагировании на угрозы внутри сети, а также на проверке целостности и безопасности компонентов цепочки поставок.

Традиционные подходы к обеспечению безопасности часто сталкиваются с трудностями в современных распределенных системах из-за их внутренней сложности. Вместо детального контроля доступа, они обычно полагаются на более общие правила, что создает значительные уязвимости. Проблема заключается в том, что современные системы состоят из множества взаимодействующих компонентов, разбросанных по различным сетевым узлам и облачным сервисам. Обеспечить точное и гранулярное управление доступом к каждому ресурсу в такой среде крайне сложно, поскольку требует постоянного мониторинга и адаптации к меняющейся топологии сети и динамическим правам доступа. Отсутствие детализированного контроля приводит к тому, что злоумышленник, получивший доступ к одному компоненту, может относительно легко распространить свою атаку на другие части системы, минуя существующие механизмы защиты и нанося значительный ущерб.

Появление агентных систем, представляющих собой сложные сети взаимодействующих сущностей, значительно усугубляет существующие проблемы в области информационной безопасности. Традиционные модели, ориентированные на защиту периметра, оказываются неэффективными в условиях, когда угрозы возникают не снаружи, а внутри самой системы, исходя от взаимодействующих компонентов. Невозможность контролировать и верифицировать поведение каждой отдельной сущности в динамически меняющейся среде требует принципиально нового подхода к обеспечению безопасности — перехода от статической защиты периметра к адаптивной, основанной на постоянном мониторинге, анализе поведения и автоматическом реагировании на возникающие аномалии. Решение этой задачи предполагает разработку систем, способных к самообучению и самовосстановлению, а также к прогнозированию и предотвращению потенциальных угроз, исходящих от внутренних взаимодействий.

Фундамент Доверия: Строим Надёжную Основу

Надежная система безопасности начинается с выделенного Уровня доверия, располагающегося между инфраструктурой и защитой приложений. Данный уровень функционирует как промежуточная платформа, обеспечивающая изоляцию и контроль над взаимодействием между различными компонентами системы. Его задача — предоставить инфраструктуру для реализации механизмов аутентификации и авторизации, а также для контроля целостности данных, проходящих между слоями. Такое позиционирование позволяет минимизировать поверхность атаки и ограничить распространение угроз в случае компрометации одного из компонентов, поскольку все взаимодействия проходят через контролируемый и верифицируемый уровень.

Уровень доверия обеспечивает инфраструктуру для применения криптографических аттестаций — доказательств завершения операций — гарантируя последовательное выполнение зависимостей рабочего процесса. Это достигается путем проверки подписи каждой операции перед переходом к следующей, что позволяет убедиться в целостности и корректности данных на каждом этапе. Использование криптографических аттестаций позволяет подтвердить, что операция была выполнена именно тем агентом, который должен был, и что результат соответствует ожидаемому. Последовательное применение этих проверок формирует надежную цепочку доверия, необходимую для обеспечения безопасности и предсказуемости выполнения сложных процессов.

Обеспечение криптографической верификации при каждом пересечении границы агента позволяет сформировать цепочку доверия, снижая риски, связанные с компрометацией отдельных сущностей. Каждое взаимодействие между агентами требует подтверждения подлинности и целостности данных посредством криптографических методов, что исключает возможность несанкционированного доступа или манипулирования информацией. Эта последовательная проверка гарантирует, что каждое последующее действие выполняется только после подтверждения законности предыдущего, создавая надежную систему защиты от вредоносных действий даже в случае компрометации одного из участников системы. Фактически, это создает контролируемый и верифицируемый журнал всех взаимодействий.

Аутентифицированные Рабочие Процессы: Безопасность в Движении

Аутентифицированные рабочие процессы используют безопасность на уровне протокола для обеспечения криптографической верификации на каждой точке взаимодействия в рамках агентной системы. Это означает, что каждое сообщение или запрос, передаваемое между компонентами системы, подвергается криптографической проверке подлинности и целостности. В отличие от традиционных подходов, где безопасность обеспечивается преимущественно на периметре, данный метод реализует непрерывную аутентификацию и авторизацию, что позволяет исключить несанкционированный доступ и манипуляции с данными на любом этапе выполнения задачи. Криптографические механизмы, такие как цифровые подписи и шифрование, применяются ко всем входящим и исходящим данным, обеспечивая надежную защиту от атак и компрометации.

Традиционные подходы к безопасности фокусируются на периметре защиты, предполагая, что после прохождения начальной аутентификации доступ к системе и ее данным предоставляется на определенный период времени. В отличие от этого, аутентифицированные рабочие процессы смещают акцент на непрерывную аутентификацию и авторизацию на каждом этапе взаимодействия внутри агентической системы. Это означает, что подлинность и права доступа проверяются не единожды при входе, а постоянно, при каждом запросе и каждой операции, что значительно повышает устойчивость к компрометации учетных данных и несанкционированному доступу.

Применение принципов независимой верификации и эшелонированной защиты (Defense in Depth) значительно повышает надежность аутентифицированных рабочих процессов. Независимая верификация предполагает проведение нескольких независимых проверок подлинности и целостности данных на различных этапах, что исключает зависимость от единой точки отказа. Эшелонированная защита, в свою очередь, создает многоуровневую систему безопасности, где компрометация одного уровня не приводит к полному нарушению защиты системы. Такой подход минимизирует риски, связанные с едиными точками отказа, и обеспечивает повышенную устойчивость системы к различным типам атак и сбоев, обеспечивая непрерывность и надежность работы агентических систем.

Система продемонстрировала детерминированные гарантии защиты от широкого спектра атак, подтвержденные результатами тестирования, включающего 174 случая, где достигнута 100% полнота обнаружения (recall) при полном отсутствии ложных срабатываний (zero false positives). Внедрение данной системы позволило успешно устранить две уязвимости, эксплуатируемые в реальных условиях (production CVEs): OpenAI Atlas и GitHub MCP, что свидетельствует о ее эффективности в предотвращении актуальных угроз безопасности.

MAPL: Язык Доверия и Аттестаций

Язык политик MAPL спроектирован для выражения ограничений, действующих на агентов, и зависимостей рабочих процессов посредством криптографических аттестаций. Вместо традиционных декларативных политик, MAPL использует подписи и другие криптографические доказательства, чтобы подтвердить выполнение определенных условий или действий агентами перед предоставлением доступа к ресурсам. Эти аттестации могут включать в себя подтверждение подлинности агента, соответствие требованиям к данным или соблюдение конкретных процедур. Использование криптографии позволяет создавать политики, которые невозможно подделать или обойти, обеспечивая высокий уровень доверия и целостности системы. Аттестации формируются и проверяются в рамках взаимодействия между агентами и точками контроля политик (Policy Enforcement Points), что позволяет динамически адаптировать политики к меняющимся условиям и требованиям.

Язык политик MAPL позволяет создавать детальные политики безопасности, определяющие доступ к ресурсам и действия агентов. Эти политики выражаются в виде формальных утверждений, которые могут быть проверены и применены точками контроля политик (Policy Enforcement Points — PEP). PEP развернуты на контрольных поверхностях системы и осуществляют принудительное исполнение политик, блокируя несанкционированные операции и обеспечивая соответствие действий заданным правилам. Использование PEP позволяет реализовать гранулярный контроль доступа, ограничивая возможности агентов только теми операциями, которые явно разрешены политиками, что значительно повышает общую безопасность системы.

Принцип Полноты Поверхности (Surface Completeness) в MAPL требует, чтобы каждая операция доступа пересекала границы безопасности, что позволяет осуществлять всесторонний мониторинг и принудительное исполнение политик безопасности. Это означает, что все взаимодействия между агентами и ресурсами должны быть явно определены и проверены на соответствие установленным правилам. В результате, любые несанкционированные или злонамеренные действия становятся обнаружимыми, поскольку они нарушают требование о пересечении границ безопасности. Такой подход обеспечивает повышенную прозрачность и контроль над доступом к ресурсам, минимизируя риски несанкционированного использования и повышая общую безопасность системы.

Подход, используемый в MAPL, значительно повышает безопасность византийских систем за счет обеспечения более надежного уровня доверия. В традиционных системах, подверженных византийским ошибкам (непредсказуемое поведение отдельных компонентов), сложно гарантировать целостность данных и операций. MAPL, посредством криптографических аттестаций и принудительного пересечения границ безопасности (Surface Completeness), позволяет верифицировать происхождение и подлинность каждого действия. Это обеспечивает возможность надежного определения и изоляции скомпрометированных или неисправных компонентов, предотвращая распространение ошибок и несанкционированный доступ к ресурсам. Таким образом, MAPL обеспечивает более устойчивую и надежную работу систем, даже при наличии непредсказуемых сбоев или злонамеренных действий.

Исследование представляет собой попытку создания детерминированных систем, где каждое действие агента подтверждается криптографически. Этот подход, направленный на предотвращение атак, таких как инъекции запросов, перекликается с мыслями Роберта Тарьяна: «Не существует абсолютно безопасных систем, есть системы, для взлома которых требуется больше усилий». Авторы стремятся поднять планку этих усилий, предлагая не просто обнаружение угроз, а создание архитектуры, где безопасность заложена в самой структуре рабочего процесса. Вместо того чтобы реагировать на атаки, система изначально проектируется с учетом принципов аутентифицированных рабочих процессов, формируя надёжный слой доверия для агентов искусственного интеллекта. Такой подход позволяет значительно снизить риски, связанные с непредсказуемым поведением AI.

Что дальше?

Предложенный подход к аутентифицированным рабочим процессам, безусловно, сдвигает акцент с бесконечной гонки вооружений в области обнаружения атак на агентов ИИ к более фундаментальному вопросу: а что, если система изначально не позволит нарушить правила? Однако, полагаться исключительно на криптографическую верификацию — это лишь одна сторона медали. Что произойдёт, если сама система, определяющая эти правила, окажется уязвимой? Представляется неизбежным, что любые правила, какими строгими они ни были, будут подвергнуты реверс-инжинирингу, и тогда потребуется новый уровень абстракции, позволяющий динамически адаптироваться к возникающим угрозам.

Более того, концепция «доверенного слоя» предполагает существование некоего абсолютного доверия к самой инфраструктуре, на которой он построен. Но что, если этот фундамент окажется шатким? Необходимо исследовать возможности децентрализации и распределенного управления политиками, чтобы минимизировать риски, связанные с единой точкой отказа. Вместо того, чтобы строить неприступную крепость, возможно, стоит создать систему, способную эффективно перераспределять риски и адаптироваться к неизбежным компрометациям.

И, наконец, не стоит забывать о самой природе агентов ИИ. Чем сложнее и автономнее становятся эти системы, тем труднее предсказать их поведение. Попытка полностью ограничить их возможности может привести к нежелательным последствиям, подавив инновации и творческий потенциал. Задача состоит не в том, чтобы создать «безопасный» ИИ, а в том, чтобы создать ИИ, способный к самообучению и самокоррекции, даже в условиях неопределенности и атак.

Оригинал статьи: https://arxiv.org/pdf/2602.10465.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-12 22:16

🚀 Квантовые новости