Проверка на прочность: Эволюционный поиск уязвимостей в сложных ИИ-агентах

Автор: Денис Аветисян


Новый подход позволяет выявлять скрытые недостатки в системах искусственного интеллекта, способных к многошаговому взаимодействию с инструментами.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Сравнительный анализ демонстрирует различия между подходами к тестированию на устойчивость больших языковых моделей (LLM) - через диалоговое взаимодействие и через использование LLM в качестве автономных агентов.
Сравнительный анализ демонстрирует различия между подходами к тестированию на устойчивость больших языковых моделей (LLM) — через диалоговое взаимодействие и через использование LLM в качестве автономных агентов.

В статье представлен алгоритм T-MAP, использующий эволюционный поиск с учетом траекторий выполнения для эффективного поиска разнообразных и действенных атак на ИИ-агентов, реализующих вредоносные цели через последовательное использование инструментов.

Несмотря на прогресс в оценке безопасности больших языковых моделей (LLM), существующие подходы часто упускают из виду уязвимости, возникающие при взаимодействии агентов с инструментами в многошаговых сценариях. В данной работе, представленной под названием ‘T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search’, предлагается метод T-MAP — эволюционный поиск, ориентированный на траектории выполнения, для автоматического обнаружения атак на LLM-агентов. T-MAP использует траектории выполнения для генерации запросов, позволяющих не только обходить системы защиты, но и надежно реализовывать вредоносные цели посредством взаимодействия с инструментами. Какие ранее неизвестные уязвимости автономных LLM-агентов, включая передовые модели, такие как GPT-5.2 и Gemini-3-Pro, можно выявить с помощью данного подхода?


Уязвимость LLM-агентов: Хрупкость и непредсказуемость

Несмотря на впечатляющие возможности, агенты на основе больших языковых моделей (LLM) демонстрируют уязвимость к целенаправленным атакам, обусловленную ограниченной устойчивостью и предсказуемостью их поведения. Эти системы, обученные на огромных массивах данных, зачастую демонстрируют хрупкость при столкновении с незначительными, но специально сконструированными входными данными, способными вывести их из строя или заставить действовать нежелательным образом. Предсказуемость алгоритмов, лежащих в основе LLM, позволяет злоумышленникам находить лазейки и манипулировать агентами, используя тщательно продуманные запросы, которые обходят встроенные механизмы защиты. Такая уязвимость ставит под вопрос надежность и безопасность применения LLM-агентов в критически важных областях, требующих повышенной защиты от внешних воздействий и несанкционированного доступа.

Традиционные методы «красной команды», предполагающие ручное тестирование языковых моделей, зачастую оказываются неэффективными в условиях быстрого развития и усложнения этих систем. Ручной анализ не способен охватить весь спектр возможных уязвимостей, особенно тонкие и неочевидные, требующие комплексного подхода и большого количества итераций. Масштабирование таких тестов сопряжено с огромными затратами времени и ресурсов, что делает их непригодными для регулярной оценки безопасности, а также препятствует оперативной адаптации к новым угрозам и векторам атак. В результате, уязвимости остаются незамеченными, а языковые модели становятся подвержены манипуляциям и злоупотреблениям.

Для обеспечения надежной защиты языковых моделей-агентов требуется автоматизированное и адаптивное тестирование, способное создавать сложные и непредсказуемые сценарии. Традиционные методы, основанные на ручной проверке, оказываются недостаточно эффективными для выявления тонких уязвимостей, особенно в контексте постоянно развивающихся возможностей агентов. Автоматизированные системы тестирования, напротив, способны генерировать широкий спектр запросов и ситуаций, имитируя реальные атаки и выявляя слабые места в логике агента. Адаптивность таких систем подразумевает способность обучаться на основе результатов тестирования, усложняя сценарии и повышая эффективность выявления уязвимостей. Это позволяет не только обнаруживать существующие проблемы, но и предвидеть потенциальные риски, связанные с развитием и применением языковых моделей в различных областях.

T-MAP итеративно улучшает запросы, используя LLM-агентов для диагностики проблем и успехов, генерации новых запросов, обновления графа вызовов инструментов на основе результатов выполнения и оценки траекторий для накопления опыта.
T-MAP итеративно улучшает запросы, используя LLM-агентов для диагностики проблем и успехов, генерации новых запросов, обновления графа вызовов инструментов на основе результатов выполнения и оценки траекторий для накопления опыта.

T-MAP: Эволюционное «Красное Командование»

T-MAP представляет собой расширение алгоритма MAP-Elites, направленное на создание разнообразного архива траекторий атак. В отличие от традиционного MAP-Elites, который фокусируется на поиске оптимальных решений в заданном пространстве, T-MAP активно собирает и сохраняет множество различных, но работоспособных траекторий атак, даже если они не являются наиболее эффективными. Этот архив позволяет исследовать широкий спектр возможных векторов атаки и служит основой для дальнейшей оптимизации и адаптации стратегий, повышая устойчивость системы к новым угрозам. Созданный архив содержит информацию о последовательности действий, используемых инструментах и полученных результатах для каждой успешной траектории, что обеспечивает возможность повторного использования и анализа.

В основе T-MAP лежит подход, основанный на анализе траекторий атак («Trajectory-Awareness»). Система собирает данные об успешных и неудачных попытках взлома, формируя базу знаний о эффективности различных последовательностей действий. Эта информация используется для корректировки процесса мутации, направляя LLM Mutator в сторону генерации более перспективных траекторий. В частности, при формировании новых атак учитывается статистическая значимость успешных шагов и избегаются последовательности, приведшие к неудачам. Такой механизм позволяет T-MAP адаптироваться к особенностям целевой системы и повышать вероятность обнаружения уязвимостей за счет обучения на опыте предыдущих атак.

Центральным элементом T-MAP является граф вызовов инструментов (Tool Call Graph, TCG), представляющий собой структурированное отображение взаимосвязей между различными инструментами, доступными для проведения атак. TCG служит основой для управления LLM-мутатором, направляя его в процессе создания эффективных запросов (prompts). Конкретно, TCG предоставляет информацию о допустимых последовательностях вызовов инструментов, синтаксисе аргументов и ожидаемых результатах, что позволяет мутатору генерировать более осмысленные и результативные запросы, направленные на эксплуатацию уязвимостей. Использование TCG значительно повышает эффективность мутаций и способствует созданию более разнообразного и успешного архива траекторий атак.

Тепловые карты покрытия показывают, что предложенный метод T-MAP обеспечивает более высокий уровень успешности атак <span class="katex-eq" data-katex-display="false">L_0</span>-<span class="katex-eq" data-katex-display="false">L_3</span> в пяти серверных окружениях MCP по сравнению с базовыми подходами.
Тепловые карты покрытия показывают, что предложенный метод T-MAP обеспечивает более высокий уровень успешности атак L_0L_3 в пяти серверных окружениях MCP по сравнению с базовыми подходами.

Архитектура T-MAP: Эволюция, управляемая LLM

Модель DeepSeek-V3.2 функционирует как агент-атакующий, генерируя запросы (prompts) для проведения атак. Процесс генерации запросов осуществляется под управлением Тактического Контрольного Графа (TCG) и корректируется на основе диагностических данных, предоставляемых LLM-аналитиком. Данные, полученные от LLM-аналитика, используются для оптимизации стратегии атак и повышения их эффективности, что позволяет DeepSeek-V3.2 адаптироваться к различным защитным механизмам и целям.

LLM Judge выполняет оценку полученных траекторий атак, генерируемых DeepSeek-V3.2. Успешные атаки, приведшие к достижению поставленной цели в целевой среде (GPT-5-mini), добавляются в архив для дальнейшего использования и анализа. В случае неудачи, LLM Judge выявляет слабые места в стратегии атаки и помечает области, требующие улучшения в процессе генерации промптов, что позволяет атакующей модели (DeepSeek-V3.2) оптимизировать свои действия на последующих итерациях. Этот процесс итеративной оценки и улучшения является ключевым компонентом архитектуры T-MAP, обеспечивающим постоянное повышение эффективности атак.

В качестве целевого агента в T-MAP используется модель GPT-5-mini, обеспечивающая реалистичную среду для оценки эффективности разработанных атак. В ходе тестирования T-MAP продемонстрировал средний показатель успешности атак (Attack Realization Rate, ARR) в 57.8% в пяти различных средах многокритериальной оптимизации (MCP). Этот результат значительно превосходит показатели, достигнутые базовыми методами, что подтверждает эффективность подхода T-MAP к эволюции атак.

Атаки <span class="katex-eq" data-katex-display="false">L_3L</span> на GPT-5.2 демонстрируют высокую переносимость между различными моделями, что подтверждается показателем pass@5.
Атаки L_3L на GPT-5.2 демонстрируют высокую переносимость между различными моделями, что подтверждается показателем pass@5.

Преимущества и направления дальнейших исследований

В основе T-MAP лежит эволюционная стратегия, позволяющая значительно превзойти традиционные методы красной команды, будь то ручной анализ или применение жестких правил. В отличие от статических подходов, T-MAP динамически адаптируется, генерируя разнообразные векторы атак и постоянно совершенствуя их. Данный подход, имитирующий естественный отбор, позволяет выявлять уязвимости, которые остаются незамеченными при использовании фиксированных наборов правил или ограниченных сценариев тестирования. В ходе испытаний продемонстрировано, что T-MAP достигает показателя реализации атак в 57.8%, что свидетельствует о его высокой эффективности в обнаружении и эксплуатации слабых мест в системах безопасности. Такой уровень адаптивности и охвата делает T-MAP перспективным инструментом для повышения надежности и устойчивости к киберугрозам.

В основе эффективности T-MAP лежит концепция “Архива” — специализированного хранилища разнообразных атак. Данный подход позволяет поддерживать широкую популяцию тестовых сценариев, включающую как известные уязвимости, так и более сложные, нетривиальные векторы атак. Использование “Архива” существенно увеличивает вероятность обнаружения краевых случаев и скрытых дефектов в системе, поскольку постоянно предоставляет новые и разнообразные стимулы для тестирования. В отличие от подходов, полагающихся на ограниченный набор заранее определенных атак, T-MAP, благодаря “Архиву”, способен адаптироваться к изменяющимся условиям и выявлять неожиданные слабые места, обеспечивая более полную и надежную оценку безопасности.

Дальнейшие исследования T-MAP направлены на расширение возможностей платформы для моделирования сложных атак, включающих последовательное использование различных инструментов. Это позволит более реалистично оценивать уязвимости систем и повысить эффективность красных команд. Кроме того, планируется интеграция T-MAP в более широкие конвейеры валидации безопасности, что позволит автоматизировать процесс выявления и устранения уязвимостей на различных этапах разработки и эксплуатации программного обеспечения. Такой подход позволит не только обнаруживать известные векторы атак, но и предвидеть потенциальные угрозы, возникающие в результате сложных взаимодействий инструментов и систем.

Сравнение методов T-MAP, ZS и SE на девяти целевых моделях демонстрирует, что T-MAP обеспечивает наилучшие показатели как по абсолютному снижению ошибки (ARR), так и по коэффициенту снижения ошибки (RR).
Сравнение методов T-MAP, ZS и SE на девяти целевых моделях демонстрирует, что T-MAP обеспечивает наилучшие показатели как по абсолютному снижению ошибки (ARR), так и по коэффициенту снижения ошибки (RR).

Исследование демонстрирует, что сложность современных LLM-агентов требует нетривиальных подходов к их тестированию на устойчивость. Авторы предлагают T-MAP — алгоритм, способный исследовать пространство возможных атак, учитывая последовательность действий агента. Такой подход позволяет выявлять уязвимости, которые могли бы остаться незамеченными при традиционных методах red-teaming. Как отмечал Андрей Колмогоров: «Математика — это искусство открывать закономерности в хаосе». Алгоритм T-MAP, подобно математическому инструменту, структурирует процесс поиска атак, выявляя закономерности в поведении агентов и позволяя более эффективно оценивать их безопасность, особенно в контексте многошагового использования инструментов.

Куда Дальше?

Представленная работа, демонстрируя эффективность поиска уязвимостей в агентах на основе больших языковых моделей через анализ траекторий выполнения, лишь подчеркивает фундаментальную сложность проблемы безопасности. Если система кажется сложной, она, вероятно, хрупка, и здесь мы видим подтверждение. Успех T-MAP в генерации атак, использующих последовательность вызовов инструментов, указывает на необходимость смещения акцента с оценки отдельных ответов на анализ поведения агента во времени.

Очевидным направлением для дальнейших исследований является разработка более компактных и интерпретируемых представлений пространства поиска атак. Текущие методы, хотя и эффективны, часто приводят к генерации сложных и трудно анализируемых запросов. Архитектура — это искусство выбора того, чем пожертвовать, и здесь необходимо найти баланс между выразительностью и управляемостью.

Более того, перспективным представляется изучение возможности применения эволюционных алгоритмов не только для поиска уязвимостей, но и для автоматической разработки контрмер и механизмов самозащиты агентов. Задача не в том, чтобы создать идеальную систему безопасности, а в том, чтобы создать систему, способную адаптироваться и эволюционировать вместе с возникающими угрозами.


Оригинал статьи: https://arxiv.org/pdf/2603.22341.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 05:10