Автор: Денис Аветисян
Новое исследование раскрывает способы внедрения вредоносного кода в ИИ-агентов, управляющих браузерами, и предлагает решение для защиты от этих атак.

Представлен реалистичный бенчмарк BrowseSafe-Bench для оценки уязвимости ИИ-агентов к атакам внедрения запросов и предложена система защиты BrowseSafe, демонстрирующая передовые показатели по скорости и эффективности.
Интеграция ИИ-агентов в веб-браузеры, несмотря на расширяющиеся возможности, создает новые угрозы, выходящие за рамки традиционных моделей безопасности. В работе ‘BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agents’ представлен всесторонний анализ атак типа «prompt injection» и разработан реалистичный бенчмарк для оценки уязвимости современных ИИ-агентов. Авторы предлагают многоуровневую стратегию защиты, включающую как архитектурные решения, так и методы, основанные на моделях, демонстрирующую передовые результаты по соотношению скорости и точности обнаружения. Сможем ли мы создать действительно безопасные веб-агенты, способные эффективно противостоять постоянно эволюционирующим угрозам «prompt injection»?
Растущая Угроза для AI-Агентов: Взлом Разума Системы
По мере всё более широкого распространения AI-агентов, выполняющих задачи непосредственно в веб-среде, наблюдается значительный рост числа сложных атак, направленных на их эксплуатацию. Эти агенты, действуя как автоматизированные браузеры, становятся привлекательной целью для злоумышленников, стремящихся получить несанкционированный доступ к данным или использовать их вычислительные ресурсы. Увеличение числа атак обусловлено как растущей популярностью этих технологий, так и развитием методов взлома, адаптированных специально для работы с AI-системами. В отличие от традиционных киберугроз, атаки на AI-агентов часто используют уязвимости в логике принятия решений агента, а не недостатки в программном обеспечении, что делает их обнаружение и предотвращение особенно сложным.
Традиционные методы защиты информации, такие как межсетевые экраны и антивирусное программное обеспечение, оказываются неэффективными против новых видов атак, направленных на агентов искусственного интеллекта. Особую опасность представляет так называемая «инъекция запросов» (prompt injection), когда злоумышленники внедряют вредоносные инструкции непосредственно в обработчики запросов агента. Эти инструкции обходят стандартные системы защиты, поскольку агент воспринимает их как часть обычного взаимодействия, что позволяет атакующему манипулировать его поведением и получать доступ к конфиденциальной информации или заставлять агента выполнять нежелательные действия. В отличие от традиционных атак, направленных на эксплуатацию уязвимостей в коде, инъекция запросов эксплуатирует доверие агента к входящим данным, что делает ее особенно сложной для обнаружения и предотвращения.
Основная уязвимость современных AI-агентов заключается в их фундаментальном доверии к информации, полученной из непроверенных источников в сети. В отличие от традиционных программ, которые оперируют с жестко заданными данными, агенты, исследующие веб-страницы, полагаются на контент, достоверность которого не может быть гарантирована. Это доверие, необходимое для выполнения задач, таких как поиск информации или выполнение инструкций, создает благоприятную среду для эксплуатации. Злоумышленники могут манипулировать контентом веб-страниц, внедряя вредоносные инструкции или вводя агента в заблуждение, что приводит к нежелательным действиям или утечке конфиденциальных данных. Данная особенность требует разработки принципиально новых методов защиты, способных оценивать надежность веб-контента и предотвращать воздействие манипулятивных техник.

BrowseSafe: Многоуровневая Защита в Действии
BrowseSafe — это инновационная система защиты, разработанная для обеспечения безопасности AI-агентов при работе в сети Интернет. Ключевой особенностью системы является приоритет низкой задержки и надежной защиты, что позволяет агентам эффективно и безопасно взаимодействовать с веб-контентом. Архитектура BrowseSafe ориентирована на минимизацию влияния на производительность агента, сохраняя при этом высокий уровень защиты от потенциально вредоносных данных и атак, направленных на эксплуатацию уязвимостей в процессе веб-навигации и обработки информации.
Начальный этап функционирования BrowseSafe включает в себя извлечение необработанного контента (Raw Content Extraction), направленное на удаление аннотаций, сгенерированных искусственным интеллектом. Этот процесс критически важен для предотвращения неверной интерпретации вредоносного контента, который может быть замаскирован под безобидные данные. Удаление AI-аннотаций позволяет системе анализировать только исходный контент, минимизируя риск обхода защитных механизмов, основанных на анализе метаданных или семантических пометок, добавленных другими AI-моделями. Такой подход повышает надежность последующих этапов анализа и снижает вероятность ложноотрицательных результатов.
Механизм принудительного применения границ доверия в BrowseSafe изолирует потенциально вредоносный контент, ограничивая его доступ к критически важным функциям агента. Это достигается путем создания строгого разделения между веб-контентом и внутренними процессами агента. Вредоносный контент помещается в изолированную «песочницу», где его возможности по взаимодействию с системой ограничены предопределенными политиками безопасности. В частности, доступ к функциям, отвечающим за выполнение кода, сетевые операции или доступ к конфиденциальным данным, блокируется, что предотвращает компрометацию агента даже в случае успешной эксплуатации вредоносного контента.
В BrowseSafe используется обнаружение вредоносных входных данных на основе больших языковых моделей (LLM), что дополняет традиционные методы обеспечения безопасности. Система демонстрирует высокую производительность, достигая значения F1-меры в 0.905. Данный показатель значительно превосходит результаты, полученные с использованием общецелевых моделей, что подтверждает эффективность LLM в контексте выявления и блокировки потенциально опасного контента, с которым взаимодействуют AI-агенты при работе в сети.

Снижение Ложных Срабатываний и Противодействие Продвинутым Атакам
Консервативная агрегация объединяет результаты классификации из нескольких источников для снижения числа ложноотрицательных срабатываний, обеспечивая обнаружение даже незначительных угроз. Этот подход предполагает, что если хотя бы один из источников классифицирует элемент как вредоносный, то он рассматривается как угроза, что повышает чувствительность системы обнаружения. В отличие от более либеральных подходов, консервативная агрегация приоритезирует предотвращение пропусков вредоносного контента, даже если это приводит к увеличению числа ложноположительных срабатываний. Такая стратегия особенно полезна в средах, где последствия пропущенной угрозы значительно превышают последствия ложного срабатывания.
Контекстуальное вмешательство позволяет агенту безопасно обрабатывать вредоносный контент, предотвращая сбои в работе и обеспечивая непрерывность операций. Этот механизм предполагает анализ вредоносного контента в контексте его обнаружения и применение соответствующих мер по нейтрализации угрозы, таких как изоляция, блокировка или деактивация, без необходимости полного прекращения функционирования системы. В отличие от традиционных методов, которые часто требуют немедленного отключения при обнаружении угрозы, контекстуальное вмешательство позволяет агенту продолжать работу, минимизируя влияние на пользовательский опыт и общую производительность.
Эффективность BrowseSafe в противодействии разнообразным векторам атак подтверждается его способностью обнаруживать и блокировать как видимые (Visible Injection), так и скрытые (Hidden Injection) внедрения вредоносного кода. Visible Injection подразумевает внедрение вредоносных скриптов непосредственно в видимую часть веб-страницы, в то время как Hidden Injection использует скрытые элементы или невидимые фреймы для выполнения вредоносного кода. BrowseSafe обеспечивает защиту от обоих типов атак за счет многоуровневой системы анализа и фильтрации трафика, что позволяет предотвратить выполнение вредоносного кода и обеспечить безопасность пользователей.
В рамках системы реализована эффективная защита от атак, использующих методы типа typosquatting и эксфильтрации данных на внешние домены. Согласно результатам тестирования, BrowseSafe демонстрирует сбалансированную точность в 0.912, что превосходит показатель 0.873, достигнутый системой Sonnet 4.5. Данный результат свидетельствует о более высокой эффективности BrowseSafe в обнаружении и предотвращении атак, основанных на манипулировании доменными именами и утечке конфиденциальной информации.

Оценка и Перспективы Развития
Разработанный комплексный эталон BrowseSafe-Bench представляет собой реалистичную платформу для оценки безопасности AI-агентов, функционирующих в веб-браузерах. Отличительной особенностью данного эталона является разнообразие используемых техник атак, включающих как прямые попытки взлома, так и сложные манипуляции, отвлекающие внимание системы. В отличие от существующих упрощенных тестов, BrowseSafe-Bench воспроизводит реальные сценарии взаимодействия с веб-страницами, учитывая наличие отвлекающих элементов и непредсказуемые действия пользователя. Это позволяет более точно оценить устойчивость AI-агента к различным видам атак и выявить потенциальные уязвимости, которые могут быть использованы злоумышленниками в реальных условиях.
Оценка, проведенная с использованием разработанного комплекса BrowseSafe-Bench, наглядно демонстрирует передовые характеристики системы BrowseSafe в области безопасности AI-агентов. Исследование показало значительное превосходство данной системы над существующими защитными механизмами, что подтверждается более высокой устойчивостью к различным типам атак и повышенной эффективностью в предотвращении нежелательных действий. В частности, BrowseSafe демонстрирует существенное снижение числа ложных срабатываний и более точное определение вредоносных запросов, обеспечивая надежную защиту в сложных веб-средах. Результаты тестов подтверждают, что BrowseSafe не только эффективно блокирует известные угрозы, но и обладает потенциалом для адаптации к новым, еще не выявленным векторам атак, что делает его перспективным решением для обеспечения безопасности AI-агентов в будущем.
Архитектура разработанной системы, BrowseSafe, отличается высокой модульностью, что позволяет легко интегрировать специализированные модели безопасности. Такой подход обеспечивает гибкость и адаптивность к новым и возникающим угрозам в динамичной веб-среде. Вместо жестко заданных правил, система способна использовать и объединять различные экспертные подсистемы, предназначенные для конкретных типов атак. Это не только повышает эффективность защиты, но и значительно упрощает процесс обновления и расширения функциональности, позволяя оперативно реагировать на новые векторы угроз и поддерживать высокий уровень безопасности AI-агентов в процессе взаимодействия с веб-страницами.
Дальнейшие исследования направлены на совершенствование способности системы обнаруживать и нейтрализовать все более сложные атаки с помощью внедрения запросов, обеспечивая защиту AI-агентов в сложных веб-средах. Особо отмечается, что BrowseSafe демонстрирует стабильно низкую задержку обработки — менее одной секунды, в то время как другие модели, такие как Sonnet 4.5, показали от 419 до 669 отказов в обработке аналогичных запросов, что подчеркивает повышенную надежность и эффективность разработанной системы в динамично меняющихся веб-условиях.
Исследование, представленное в статье, демонстрирует стремление понять уязвимости в системах, взаимодействующих с искусственным интеллектом, в частности, в контексте AI-агентов, работающих в браузере. Авторы не просто выявляют проблему prompt injection, но и предлагают решение, направленное на баланс между безопасностью и производительностью. Это напоминает подход, который некогда сформулировал Марвин Минский: «Самый мощный инструмент, которым мы располагаем, — это способность задавать вопросы». Подобно тому, как Минский призывал к исследованию основ интеллекта через вопросы, данная работа исследует пределы безопасности AI-агентов, задавая вопрос: как сделать их устойчивыми к манипуляциям? И, подобно тому, как взлом системы помогает понять её структуру, анализ prompt injection позволяет укрепить защиту AI.
Куда Ведет Эта Дорога?
Представленный анализ, сконцентрировавшись на уязвимости браузерных агентов к инъекциям запросов, лишь обнажает краешек айсберга. Создание эталона BrowseSafe-Bench — это не столько решение проблемы, сколько признание её масштаба и сложности. Истинный вызов заключается не в блокировке известных векторов атак, а в предвидении тех, что еще предстоит изобрести. Система, построенная на фильтрации, всегда будет отставать от изобретательности тех, кто стремится её взломать.
Механизм BrowseSafe демонстрирует впечатляющую эффективность, однако его латентность — это неизбежная плата за безопасность. Поиск баланса между скоростью и надежностью — вечная дилемма, особенно в контексте интерактивных систем. Будущие исследования, вероятно, будут направлены на разработку более «легких» методов защиты, возможно, основанных на адаптивном обучении и динамической оценке рисков. Или же, быть может, на полном пересмотре парадигмы взаимодействия с языковыми моделями, где понятие «взлом» утратит смысл.
В конечном счете, данная работа напоминает, что хаос — не враг, а зеркало архитектуры, отражающее скрытые связи. Пытаясь ограничить поведение ИИ, следует помнить, что любое ограничение — это лишь новая точка опоры для обхода. Истинный прогресс заключается не в подавлении свободы, а в понимании её природы.
Оригинал статьи: https://arxiv.org/pdf/2511.20597.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
- Разгадывая тайны квантового мира: переработка кубитов и шум как тайная приправа?
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Скрытая сложность: Необратимые преобразования в квантовых схемах
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Виртуальная примерка без границ: EVTAR учится у образов
2025-11-26 20:31