Взлом защиты: новая угроза для языковых моделей

Автор: Денис Аветисян


Исследование демонстрирует эффективный способ обхода и восстановления механизмов защиты, встроенных в современные языковые модели.

Обучение моделей ChatGPT, DeepSeek и Qwen3 для атак, направленных на обход защитных механизмов, демонстрирует измеримый прогресс (Learning Progress), оцениваемый с помощью LlamaGuard, ShieldGemma и самой ChatGPT, что указывает на возможность систематического улучшения эффективности таких атак и, следовательно, на необходимость постоянной адаптации стратегий защиты.
Обучение моделей ChatGPT, DeepSeek и Qwen3 для атак, направленных на обход защитных механизмов, демонстрирует измеримый прогресс (Learning Progress), оцениваемый с помощью LlamaGuard, ShieldGemma и самой ChatGPT, что указывает на возможность систематического улучшения эффективности таких атак и, следовательно, на необходимость постоянной адаптации стратегий защиты.

Атака, основанная на методах обучения с подкреплением и аугментации данных, позволяет с высокой точностью восстановить правила безопасности, определяющие поведение больших языковых моделей.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Несмотря на растущую эффективность языковых моделей (LLM) в следовании этическим и функциональным ограничениям, их системы защиты оказываются уязвимыми к новым видам атак. В работе ‘Black-Box Guardrail Reverse-engineering Attack’ представлено первое исследование, демонстрирующее возможность извлечения логики работы этих самых систем защиты в условиях «черного ящика». Авторы предлагают алгоритм GRA, использующий обучение с подкреплением и генетические алгоритмы для приближенного воссоздания политики принятия решений системы защиты, при этом требуя минимальные затраты на API. Обнаруженная уязвимость подчеркивает необходимость разработки более надежных механизмов защиты LLM – возможно ли создание систем, устойчивых к подобным атакам извлечения логики?


Иллюзия Безопасности: Ограждения для Больших Языковых Моделей

Большие языковые модели (LLM) демонстрируют беспрецедентные возможности, однако подвержены риску генерации вредоносного контента. Это требует разработки эффективных механизмов контроля для обеспечения безопасности и этичного поведения этих систем. Существуют различные подходы к созданию таких ограждений, включая фильтрацию, обучение с подкреплением и adversarial training. Однако существующие решения имеют ограничения в адаптивности и устойчивости к сложным атакам, особенно к adversarial примерам.

В рамках разработанного подхода GRA противник итеративно выполняет выборку запросов, направляет их в целевую LLM, получает обратную связь в виде оценки и обучает суррогатное ограждение с использованием обучения с подкреплением, применяя генетическую аугментацию для исследования границ принятия решений.
В рамках разработанного подхода GRA противник итеративно выполняет выборку запросов, направляет их в целевую LLM, получает обратную связь в виде оценки и обучает суррогатное ограждение с использованием обучения с подкреплением, применяя генетическую аугментацию для исследования границ принятия решений.

Каждое новое «улучшение» лишь добавляет слои абстракции поверх старых уязвимостей.

Модель под Угрозой: Атаки Извлечения и Их Влияние

Атаки извлечения моделей направлены на воспроизведение функциональности LLM посредством запросов. Это представляет угрозу конфиденциальности и безопасности, позволяя злоумышленникам получить доступ к знаниям модели или использовать её возможности в неправомерных целях. Данные атаки напрямую угрожают системам защиты LLM, позволяя создать суррогатную модель, не подверженную ограничениям оригинала. Существуют различные варианты атак, демонстрирующие растущую сложность и изощренность.

Оценка производительности сопоставления правил в системе GRA для различных целевых LLM демонстрирует высокую точность воспроизведения нормативных правил политики, выходящую за рамки поверхностной модерации.
Оценка производительности сопоставления правил в системе GRA для различных целевых LLM демонстрирует высокую точность воспроизведения нормативных правил политики, выходящую за рамки поверхностной модерации.

Успешность атак извлечения зависит от архитектуры модели, объёма данных и стратегии атакующего. Исследования направлены на разработку методов защиты и повышение устойчивости LLM к извлечению.

Reverse Engineering Ограждений: Атака GRA

Атака Guardrail Reverse-Engineering (GRA) – это атака «черного ящика», предназначенная для извлечения суррогатного ограждения безопасности путем имитации поведения ограждения жертвы. В процессе реализации GRA используются Prompt Engineering, генетические алгоритмы и обучение с подкреплением. Для повышения эффективности применяется LoRA, обеспечивая быструю и результативную работу.

Оценка эффективности атак, реализованных с помощью GRA, по кривым ROC показывает, что система способна генерировать вредоносные запросы, влияющие на безопаснось моделей ChatGPT, DeepSeek и Qwen3.
Оценка эффективности атак, реализованных с помощью GRA, по кривым ROC показывает, что система способна генерировать вредоносные запросы, влияющие на безопаснось моделей ChatGPT, DeepSeek и Qwen3.

Эксперименты показали, что GRA достигает скорости извлечения более 0.92 на трех коммерческих LLM-системах (ChatGPT, DeepSeek и Qwen3) при стоимости менее 85 долларов США.

Крах Систем Защиты: Последствия и Пути Развития

Исследования показали уязвимость систем защиты LLM к атакам извлечения информации. Методика GRA позволяет обходить ограничения и получать нежелательный контент, ставя под сомнение безопасность AI-систем. Для смягчения рисков требуется переход к более адаптивным и проактивным конструкциям систем защиты, с непрерывным мониторингом и самозащитой.

Дальнейшие исследования направлены на разработку новых защитных механизмов и оценку их эффективности. Наблюдается высокая точность атаки – 0.8562, а также F1-мера 0.8350 на ChatGPT. Кросс-датасетная валидация AUC составила 0.9641 (обучение на Jailbreak, тестирование на Injection). Каждая «революционная» технология завтра станет техдолгом.

Исследование демонстрирует, как легко современные системы защиты больших языковых моделей поддаются реверс-инжинирингу. Авторы показали, что достаточно небольшого количества запросов, чтобы практически воссоздать логику работы этих самых «guardrails». Это, конечно, не новость для тех, кто видел, как скрипты «автоматизации» умудрялись стирать продакшен по понедельникам. Как говорил Дональд Кнут: «Оптимизм — это вера в то, что все пойдет хорошо; пессимизм — это знание того, что так и будет». В данном случае, оптимизм относительно надежности систем защиты сталкивается с суровой реальностью: теоретическая элегантность не гарантирует устойчивости к прагматичным атакам. Эта работа лишь подтверждает старую истину: каждая «революционная» технология завтра станет техдолгом.

Что Дальше?

Представленная работа демонстрирует, что «защитные перила» больших языковых моделей – это скорее иллюзия безопасности, нежели реальная гарантия. Успешная атака, основанная на извлечении информации из «черного ящика», неизбежно ставит под вопрос эффективность текущих методов выравнивания. Каждая оптимизация, направленная на повышение «безопасности», рано или поздно будет оптимизирована обратно, обнаруживая новые векторы атак. Процесс напоминает вечную гонку, где защита всегда отстает от изобретательности атакующих.

Очевидным направлением дальнейших исследований является разработка более устойчивых механизмов защиты. Однако, история технологий подсказывает, что абсолютной защиты не существует. Более перспективным представляется подход, ориентированный на обнаружение и смягчение последствий атак, нежели на их полное предотвращение. Архитектура безопасности – это не схема, а компромисс, переживший деплой.

Следует признать, что текущие методы оценки безопасности часто оказываются недостаточными. Необходимы более реалистичные и сложные сценарии атак, учитывающие как автоматизированные, так и целенаправленные усилия. В конечном итоге, вопрос заключается не в том, чтобы создать идеальную систему защиты, а в том, чтобы создать систему, способную адаптироваться к постоянно меняющимся угрозам. Мы не рефакторим код – мы реанимируем надежду.


Оригинал статьи: https://arxiv.org/pdf/2511.04215.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-09 13:53