Автор: Денис Аветисян
Исследователи обнаружили способ обойти современные системы защиты, используя агентов искусственного интеллекта в качестве посредников для выполнения вредоносных инструкций.

В статье рассматривается атака ‘Agent-as-a-Proxy’, демонстрирующая уязвимость систем мониторинга на основе обнаружения аномалий в LLM-агентах и предлагаются методы гибридного мониторинга для повышения безопасности.
Несмотря на растущую сложность систем контроля за агентами искусственного интеллекта, их надежность остается под вопросом. В статье ‘Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks’ представлен новый тип атаки, использующий агента как посредника для обхода существующих протоколов защиты от инъекций запросов. Показано, что даже масштабные модели мониторинга, такие как Qwen2.5-72B, уязвимы к атакам со стороны агентов сравнимого уровня, что ставит под сомнение фундаментальную надежность современных систем контроля. Не является ли текущий подход к защите агентов искусственного интеллекта принципиально уязвимым, независимо от масштаба используемых моделей?
Растущая Автономность и Новые Угрозы
Всё большее распространение получают автономные агенты, основанные на больших языковых моделях (LLM), способные самостоятельно выполнять сложные задачи и взаимодействовать с различными инструментами. Эти агенты не просто отвечают на вопросы или генерируют текст, но и активно действуют в цифровой среде, автоматизируя процессы, управляя приложениями и осуществляя поиск информации. Благодаря своей способности к адаптации и обучению, LLM-агенты находят применение в самых разных областях — от обслуживания клиентов и автоматизации маркетинга до научных исследований и разработки программного обеспечения. Такая тенденция к автоматизации рабочих процессов с помощью интеллектуальных агентов открывает новые возможности, но и требует пристального внимания к вопросам безопасности и надежности подобных систем.
Переход к использованию больших языковых моделей (LLM) в качестве автономных агентов открывает новую область для злоумышленников. Эти агенты, способные выполнять сложные задачи и взаимодействовать с различными инструментами, могут быть использованы для обхода существующих мер безопасности. Злоумышленники способны “вооружить” агентов, заставляя их доставлять вредоносные полезные нагрузки или выполнять несанкционированные действия, используя возможности автоматизации и адаптации, присущие данным системам. В отличие от традиционных атак, направленных на конкретные уязвимости, эксплуатация агентов представляет собой более изощренный подход, использующий их способности к взаимодействию и выполнению задач для маскировки вредоносной активности и обхода защиты.
Традиционные методы кибербезопасности оказываются неэффективными в противостоянии с автономными агентами, основанными на больших языковых моделях. В отличие от статических угроз, эти агенты способны к адаптации и обходу защитных механизмов благодаря своей способности к обучению и принятию решений. Исследования показали, что злоумышленники могут использовать агентов в качестве прокси для обхода систем мониторинга с успехом до 90%, что серьезно ставит под вопрос масштабируемость существующих методов контроля. Необходимость разработки принципиально новых техник мониторинга, способных отслеживать и анализировать сложное, динамичное поведение агентов, становится всё более актуальной задачей для обеспечения безопасности современных интеллектуальных систем.

Гибридный Мониторинг: Анализ Поведения Агентов
Эффективный мониторинг поведения агента требует системы, анализирующей не только конечные результаты его работы, но и внутренние процессы рассуждений — так называемую ‘Цепочку Мыслей’ (Chain of Thought, CoT) и обращения к инструментам (tool calls). Анализ CoT позволяет отследить логику принятия решений агентом, выявляя потенциальные отклонения от ожидаемого поведения или нежелательные стратегии. Отслеживание вызовов инструментов необходимо для проверки, какие ресурсы агент использует и как он их применяет, что особенно важно для обнаружения попыток доступа к конфиденциальной информации или выполнения вредоносных действий. Совместное изучение CoT и tool calls обеспечивает более полное представление о намерениях и действиях агента, повышая надежность системы мониторинга.
Гибридный мониторинг объединяет анализ выходных данных агента с проверкой его внутренних процессов рассуждения — цепочки мыслей (Chain of Thought) и вызовов инструментов. В отличие от традиционных методов, которые фокусируются исключительно на результатах, гибридный подход позволяет выявлять аномалии и потенциально злонамеренную активность на более ранних стадиях. Это достигается путем сопоставления логики принятия решений агентом с ожидаемым поведением, что повышает надежность системы защиты и позволяет обнаруживать атаки, которые могли бы остаться незамеченными при использовании только внешнего мониторинга.
Системы мониторинга, такие как AlignmentCheck и Extract-and-Evaluate Monitors, обеспечивают многоуровневый анализ поведения агента, включая проверку логики рассуждений (Chain of Thought) и корректности вызовов инструментов. Однако, проведенные эксперименты демонстрируют, что даже при использовании этих мер, атаки, реализованные в рамках фреймворка Agent-as-a-Proxy, достигают высокой эффективности — более 90% успешных прохождений. Это указывает на необходимость дальнейшей разработки и совершенствования систем мониторинга для обеспечения надежной защиты от сложных атак, использующих агента в качестве посредника.

Обход Обнаружения: Искусство Враждебных Атак
Злоумышленники разрабатывают сложные методы обхода систем мониторинга, основанных на агентах, используя самого агента в качестве прокси для доставки вредоносных полезных нагрузок. Этот подход позволяет обойти стандартные механизмы защиты, поскольку вредоносный код маскируется под легитимные запросы, инициированные агентом. Фактически, агент становится посредником, который перенаправляет вредоносные данные, затрудняя их обнаружение традиционными средствами защиты сети и хоста. Такие атаки требуют тщательной разработки входных данных, чтобы они казались безопасными для системы мониторинга, при этом достигая целей атакующего.
Атаки, использующие агента в качестве прокси, требуют создания специально сформированных входных данных, которые выглядят безопасными для системы мониторинга, но при этом позволяют злоумышленнику достичь своей цели. Суть заключается в обходе механизмов обнаружения угроз путем маскировки вредоносного поведения под легитимные запросы. Это достигается путем тонкой настройки входных данных таким образом, чтобы они не вызывали срабатывания сигнатур или эвристических правил, используемых монитором, сохраняя при этом функциональность, необходимую для выполнения вредоносной задачи. Успех таких атак напрямую зависит от способности злоумышленника обойти фильтры и ограничения, налагаемые системой мониторинга.
Для создания эффективных атак, обходящих системы мониторинга, требуется оптимизация входных данных с использованием продвинутых алгоритмов, таких как Parallel-GCG. Этот алгоритм позволяет исследовать сложное пространство поведения агента и чувствительность системы мониторинга. В ходе экспериментов было продемонстрировано, что использование Parallel-GCG позволило успешно осуществить атаки на Qwen2.5 72B, выступающую в роли монитора, с эффективностью 46.0% при использовании GPT-4o mini и 60.2% при использовании Llama 3.1 70B. Данные показатели отражают способность алгоритма находить оптимальные входные данные, которые обходят механизмы обнаружения монитора.

LlamaFirewall: Проактивная Система Безопасности
Разработанный фреймворк LlamaFirewall призван решить существующие проблемы безопасности, объединяя в себе надежные возможности мониторинга и проактивное обнаружение угроз. Система непрерывно отслеживает поведение агентов, анализируя входящие запросы и исходящие ответы на предмет признаков потенциальных атак. В отличие от реактивных систем, которые срабатывают уже после начала атаки, LlamaFirewall стремится предвидеть и предотвратить несанкционированные действия, используя передовые алгоритмы анализа и машинного обучения для выявления аномалий и подозрительной активности. Такой подход позволяет значительно повысить уровень защиты и обеспечить более стабильную и безопасную работу агентов, основанных на больших языковых моделях.
В основе системы LlamaFirewall лежит тщательный анализ поведения агента посредством специализированных компонентов, таких как AlignmentCheck и PromptGuard 2. AlignmentCheck предназначен для оценки соответствия действий агента заданным этическим и функциональным ограничениям, выявляя отклонения, которые могут свидетельствовать о попытках взлома или несанкционированного использования. PromptGuard 2, в свою очередь, фокусируется на анализе входящих запросов, определяя потенциально вредоносные или манипулятивные конструкции, направленные на обход установленных ограничений безопасности. Совместное использование этих компонентов позволяет системе не только реагировать на известные угрозы, но и проактивно выявлять и предотвращать новые, более изощренные атаки, обеспечивая надежную защиту LLM-агентов.
Многоуровневый подход, реализованный в LlamaFirewall, значительно усиливает защиту от враждебных атак и обеспечивает стабильную, надежную работу агентов, основанных на больших языковых моделях. Несмотря на необходимость дальнейших усовершенствований, данная система представляет собой важный шаг в снижении рисков, выявленных в ходе исследований, которые продемонстрировали до 90% успешности атак. LlamaFirewall не просто реагирует на угрозы, но и активно предотвращает их, анализируя поведение агента и выявляя попытки обхода защиты на ранних стадиях, что критически важно для безопасного использования LLM в различных приложениях.
Исследование демонстрирует, что существующие системы мониторинга для LLM-агентов уязвимы к новой атаке, известной как ‘Agent-as-a-Proxy’. В этой атаке агент используется в качестве посредника для обхода мер безопасности, повторяя вредоносные инструкции. Это подчеркивает сложность обеспечения безопасности систем, где взаимодействие между компонентами может привести к неожиданным последствиям. Как заметил Пол Эрдеш: “Математика — это искусство находить закономерности в хаосе.” В данном случае, хаос возникает из-за непредсказуемого поведения агента, а закономерность — это возможность использовать его для обхода защиты, что требует более глубокого понимания структуры системы и её взаимодействий для создания надежной защиты.
Куда Ведут Эти Пути?
Представленная работа демонстрирует, что существующие механизмы защиты больших языковых моделей (LLM) от нежелательного поведения, основанные на мониторинге, страдают от принципиального недостатка. Атака, названная «Агент как Прокси», раскрывает не столько уязвимость в самом алгоритме, сколько закономерность, присущую любой сложной системе. Защита, сконцентрированная на прямом контроле входных и выходных данных, игнорирует динамику внутреннего взаимодействия, позволяя агенту выступать в роли невольного посредника для злонамеренных инструкций. Это напоминает попытку удержать воду в сите — усилия тщетны, если не устранить источник течи.
Очевидно, что необходим переход к более целостным подходам к безопасности. Мониторинг, как таковой, не является панацеей. Вместо фокусировки на симптомах, следует изучать фундаментальные принципы, управляющие поведением агентов. Ключевым направлением представляется разработка систем, способных оценивать не только что делает агент, но и почему. Понимание внутренних мотиваций и целей, даже искусственных, позволит предвидеть и предотвращать нежелательные действия.
В конечном итоге, задача безопасности LLM сводится к задаче понимания интеллекта как такового. Простая, элегантная система защиты, основанная на глубоком понимании принципов функционирования агента, представляется более перспективной, чем сложный набор правил и фильтров. В противном случае, усилия по защите будут обречены на вечное догоняние за новыми, все более изощренными атаками — борьба с тенью, а не с причиной.
Оригинал статьи: https://arxiv.org/pdf/2602.05066.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовая суперпозиция: новая интерпретация вероятности
- Искусственный исследователь: Новые горизонты автономных агентов
- Ускорение генеративных моделей: новый подход к вычислению матричной экспоненты
- Искусственный интеллект: расшифровка паттернов инноваций
- Точность симуляций: Как правильно оценить истинные значения в причинно-следственных исследованиях
- Квантовые игры: поиск равновесия на нейтральных атомах
- Время видеть: как агенты раскрывают многомерное мышление в языковых моделях.
- Квантовая геометрия: новые пути к пониманию пространства-времени
- Тензорные сети и комбинаторные поиски: новый подход к сложным задачам
- Квантовый разум: машинное обучение в поисках новых состояний материи
2026-02-08 22:04