Автор: Денис Аветисян
Новая система AegisAgent автоматически противодействует атакам, направленным на манипулирование ИИ, анализирующим поведение людей.

Исследование представляет AegisAgent — автономного агента защиты от атак внедрения запросов в системы распознавания действий человека на базе больших языковых моделей, использующих данные с датчиков.
Интеграция больших языковых моделей в системы распознавания человеческой деятельности (LLM-HAR) открывает новые возможности, но одновременно делает их уязвимыми к атакам с помощью внедрения вредоносных инструкций. В данной работе, представленной под названием ‘AegisAgent: An Autonomous Defense Agent Against Prompt Injection Attacks in LLM-HARs’, предлагается принципиально новый подход к защите — автоматизированный агент AegisAgent, способный автономно выявлять и нейтрализовать подобные угрозы. Система демонстрирует снижение успешности атак на 30
Пророчество о Сбое: LLM-HAR и Уязвимости Систем
Системы распознавания человеческой деятельности на основе больших языковых моделей (LLM-HAR) открывают новые перспективы в этой области, объединяя данные инерциальных измерительных блоков (IMU) с возможностями анализа и понимания естественного языка. В отличие от традиционных методов, которые часто требуют ручной разработки признаков и ограничены в способности к обобщению, LLM-HAR способны извлекать сложные закономерности непосредственно из необработанных данных IMU, позволяя им распознавать широкий спектр действий с высокой точностью и адаптироваться к новым, ранее не встречавшимся сценариям. Это достигается за счет использования LLM для моделирования временных зависимостей в данных IMU и вывода о выполняемой деятельности, что значительно расширяет возможности распознавания, особенно в сложных и динамичных условиях. Подобный подход обещает революционизировать области, требующие точного и надежного анализа человеческой активности, включая здравоохранение, спорт и системы безопасности.
Внедрение больших языковых моделей (LLM) в системы распознавания человеческой деятельности (HAR) открывает новые возможности, но одновременно создает уязвимости перед различными атаками. Особую опасность представляют так называемые «атакующие запросы» (prompt injections), при которых злоумышленник манипулирует входными данными, чтобы заставить модель ошибочно классифицировать действия или даже выполнить нежелательные команды. Кроме того, LLM могут быть подвержены «отравлению данных» (data poisoning), когда в обучающую выборку внедряются ложные примеры, искажающие последующую работу системы. Эти уязвимости ставят под угрозу не только точность распознавания, но и целостность всей системы, потенциально приводя к ложным срабатываниям, отказу в обслуживании или даже несанкционированному доступу к конфиденциальной информации. Необходимость разработки надежных механизмов защиты и методов обнаружения атак становится критически важной для обеспечения безопасного и эффективного использования LLM в системах HAR.
Традиционные методы распознавания человеческой деятельности, несмотря на свою надежность и устоявшуюся точность, демонстрируют ограниченные возможности в адаптации к новым, ранее не встречавшимся паттернам поведения. В отличие от них, системы, использующие большие языковые модели (LLM), обладают уникальной способностью к обобщению и рассуждению. LLM способны анализировать последовательности данных, выявлять скрытые закономерности и прогнозировать действия, даже если эти действия отличаются от тех, на которых они обучались. Эта способность к контекстуальному пониманию и логическому выводу позволяет LLM-HAR системам более эффективно справляться со сложными и динамичными сценариями, представляя собой значительный шаг вперед в области распознавания человеческой деятельности по сравнению с классическими подходами.

AegisAgent: Автономный Щит для LLM-HAR
Агент AegisAgent представляет собой автоматизированный механизм защиты, разработанный для обеспечения безопасности систем LLM-HAR от различных видов атак, направленных на нарушение их работы или компрометацию данных. Он функционирует как автономный компонент, способный автоматически обнаруживать и нейтрализовать угрозы без вмешательства оператора. Основная задача AegisAgent — поддержание надежности и целостности системы LLM-HAR путем активного мониторинга входящих данных и предпринятия контрмер в случае выявления признаков злонамеренной активности. Система предназначена для работы в реальном времени и адаптируется к новым типам атак посредством непрерывного обучения и анализа.
В системе AegisAgent применяется входная санитарная обработка для нормализации и фильтрации входящих данных, предназначенная для удаления шумов и аномалий как из сигналов инерциальных измерительных блоков (IMU), так и из текстовых запросов. Этот процесс включает в себя стандартизацию форматов данных, удаление нерелевантной информации и выявление потенциально вредоносных элементов в обоих типах входных данных. Обработка сигналов IMU направлена на снижение влияния помех и ошибок сенсоров, а фильтрация текстовых запросов — на удаление нежелательных символов, ключевых слов или фраз, которые могут быть использованы для проведения атак на систему. Эффективная санитарная обработка входных данных является важным шагом для повышения устойчивости системы к различным видам угроз.
В основе системы AegisAgent лежит проверка согласованности между различными модальностями данных — сенсорными показаниями и текстовыми интерпретациями. Это достигается путем анализа соответствия между данными, поступающими от инерциальных измерительных блоков (IMU), и содержанием текстовых запросов. Несоответствие между этими модальностями указывает на потенциальную атаку или аномальную ситуацию, требующую немедленного реагирования. Алгоритмы системы оценивают семантическую согласованность, проверяя, подтверждают ли сенсорные данные утверждения, сделанные в текстовом запросе, и наоборот. Выявление расхождений позволяет AegisAgent эффективно обнаруживать и нейтрализовывать атаки, направленные на манипулирование системой LLM-HAR.
В основе надежного модуля рассуждений AegisAgent лежит комбинация методов Chain-of-Thought Reasoning (CoT) и Self-Consistency. CoT позволяет системе генерировать промежуточные этапы рассуждений, что повышает прозрачность и отслеживаемость принимаемых решений. Self-Consistency предполагает генерацию нескольких вариантов ответа и выбор наиболее часто встречающегося, что снижает вероятность ошибок, вызванных неточностями в исходных данных или атаками, направленными на манипулирование логикой системы. Комбинирование этих подходов обеспечивает стабильные и достоверные прогнозы даже при воздействии вредоносных факторов, поскольку система способна выявлять и игнорировать несоответствия и противоречия в поступающей информации.

Валидация и Эффективность на Стандартных Наборах Данных
Для оценки эффективности AegisAgent использовались общепринятые наборы данных для анализа человеческой деятельности, включающие USC-HAD Dataset, UCI HAR Dataset и PAMAP2 Dataset. USC-HAD Dataset содержит данные, полученные с использованием различных сенсоров во время выполнения повседневных действий в домашней обстановке. UCI HAR Dataset предоставляет данные, собранные с использованием акселерометров и гироскопов, отражающие шесть видов деятельности. PAMAP2 Dataset содержит данные, собранные с использованием трех акселерометров, расположенных на различных частях тела, во время выполнения двенадцати видов деятельности. Использование этих стандартизированных наборов данных позволяет обеспечить воспроизводимость и сопоставимость результатов, полученных с AegisAgent, с результатами других систем анализа человеческой деятельности.
В ходе оценки эффективности AegisAgent в противодействии атакам на системы распознавания человеческой активности были протестированы методы Text Path Attacks, Prompt Path Attacks и их гибридные комбинации. Результаты показали, что AegisAgent способен эффективно обнаруживать и нейтрализовывать данные типы атак с общей точностью обнаружения 85
В ходе тестирования было установлено, что AegisAgent сохраняет высокую точность и надежность распознавания действий, даже при воздействии на входные данные злонамеренных манипуляций. Система демонстрирует стабильные результаты в идентификации действий человека, несмотря на попытки исказить или подменить входные данные с целью обхода механизмов безопасности. Это подтверждается результатами экспериментов, показывающими незначительное снижение производительности AegisAgent при атаках, направленных на искажение входных данных, что свидетельствует о её устойчивости к различным типам adversarial-атак и способности обеспечивать надежное распознавание действий в неблагоприятных условиях.
Результаты сравнительных тестов показали, что AegisAgent успешно идентифицирует и корректирует вредоносные входные данные, воздействуя на различные векторы атак. В среднем, применение AegisAgent снижает вероятность успешной атаки на 30
Повышение безопасности и надёжности систем LLM-HAR, осуществляемое благодаря AegisAgent, открывает широкие перспективы для их внедрения в различных областях. В частности, это касается здравоохранения, где точные и защищённые данные критически важны для принятия решений; фитнеса, где персонализированные рекомендации должны быть свободны от манипуляций; и взаимодействия человека с компьютером, где доверие к системе напрямую влияет на эффективность работы. Разработка AegisAgent позволяет создавать более устойчивые и безопасные системы, способные адаптироваться к новым угрозам и обеспечивать надёжную работу в различных сценариях использования, что, в свою очередь, способствует более широкому принятию и доверию к технологиям искусственного интеллекта. Способность системы различать добросовестные запросы от злонамеренных является ключевым фактором для формирования доверия со стороны пользователей. Отсутствие уверенности в надёжности искусственного интеллекта, особенно в чувствительных областях, таких как здравоохранение и фитнес, может значительно снизить готовность к его использованию. Разработка систем, способных надёжно идентифицировать и нейтрализовать вредоносные воздействия, не только повышает безопасность, но и создаёт ощущение контроля и уверенности у тех, кто взаимодействует с технологией. Это, в свою очередь, способствует более широкому принятию и интеграции систем искусственного интеллекта в повседневную жизнь, открывая новые возможности для улучшения качества жизни и повышения эффективности различных процессов. Многомодальный подход, реализованный в AegisAgent, закладывает основу для создания устойчивых систем искусственного интеллекта, способных адаптироваться к меняющимся угрозам. Вместо того чтобы полагаться на анализ только текстовых данных, система интегрирует и обрабатывает информацию из различных источников, включая аудио- и визуальные данные. Такая стратегия позволяет AegisAgent выявлять не только прямые текстовые атаки, но и более сложные манипуляции, использующие мультимедийный контент для обхода традиционных механизмов защиты. Это обеспечивает повышенную надёжность и устойчивость к новым, ещё не известным видам атак, делая систему более гибкой и приспособленной к динамично меняющейся среде угроз. По сути, AegisAgent предлагает не просто защиту от текущих рисков, а платформу для построения самообучающихся и адаптирующихся систем ИИ, способных предвидеть и нейтрализовать будущие угрозы. При внедрении AegisAgent наблюдается незначительное увеличение задержки, составляющее в среднем 78.6 миллисекунд на запрос при использовании рабочей станции NVIDIA RTX 3090. Данный показатель не оказывает существенного влияния на общую производительность системы, особенно учитывая значительное повышение безопасности и надёжности. Текущие исследования направлены на расширение функциональности AegisAgent для противодействия более сложным типам атак, а также на интеграцию с потоками данных о текущих угрозах в режиме реального времени. Это позволит системе оперативно адаптироваться к новым вызовам и поддерживать высокий уровень защиты, обеспечивая стабильную и безопасную работу систем, использующих большие языковые модели. Исследование демонстрирует, что системы безопасности, подобные AegisAgent, не являются статичными конструкциями, а скорее развивающимися экосистемами. Авторы предлагают не просто защиту от атак, а механизм адаптации к ним, что соответствует взгляду на системы как на саморемонтирующиеся сущности. Как однажды заметил Тим Бернерс-Ли: «Всё, что построено, когда-нибудь начнёт само себя чинить». AegisAgent, сочетая в себе очистку входных данных, проверку согласованности и надежное рассуждение, демонстрирует именно эту способность к самовосстановлению, обеспечивая контекстную целостность и противодействуя атакам внедрения подсказок в системах распознавания человеческой деятельности на основе LLM. Представленная работа, подобно многим другим, строит стены вокруг проблемы, а не исследует природу самой этой проблемы. Защита от атак, основанных на внедрении запросов, кажется, бесконечной гонкой вооружений. Каждая «стена» лишь заставляет атакующего искать более изощренные методы обхода. Масштабируемость этой защиты — лишь слово, которым оправдывается усложнение системы. Идея «контекстной целостности» звучит солидно, но в реальности, контекст — это текучая субстанция, постоянно меняющая свою форму. Вместо того, чтобы фокусироваться на обнаружении и блокировке атак, возможно, стоит обратить внимание на само поведение системы. Что, если система, вместо того, чтобы слепо выполнять запрос, способна к критическому осмыслению? Что, если она способна распознать неадекватность запроса, исходя из внутренней модели мира? Любая оптимизация, рано или поздно, лишает систему гибкости. Идеальная архитектура — миф, необходимый, чтобы мы не сошли с ума. Будущее, вероятно, лежит в области самообучающихся систем, способных адаптироваться к меняющимся угрозам и не требующих постоянного вмешательства человека. Но и здесь таится опасность: каждая сложная система, как живой организм, имеет свои уязвимости. И, возможно, самое надежное решение — это не построить идеальную защиту, а научиться жить с несовершенством. Оригинал статьи: https://arxiv.org/pdf/2512.20986.pdf Связаться с автором: https://www.linkedin.com/in/avetisyan/ 2025-12-27 22:14
К Надежной LLM-HAR: Перспективы и Влияние

Куда же дальше?
Смотрите также: