Автор: Денис Аветисян
Новое исследование демонстрирует, что злоумышленники могут обходить текстовые фильтры безопасности, используя визуальные подсказки для манипулирования моделями редактирования изображений.

Исследователи выявили уязвимость, позволяющую обходить системы безопасности больших мультимодальных языковых моделей посредством визуальных запросов, и представили новый бенчмарк и стратегию защиты.
Несмотря на значительный прогресс в области редактирования изображений, современные модели оказываются уязвимыми к новым типам атак. В работе ‘When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models’ предложен новый вектор атак, основанный на использовании визуальных подсказок для обхода механизмов безопасности. Авторы демонстрируют, что злоумышленники могут передавать вредоносные инструкции напрямую через визуальные элементы, обходя текстовые фильтры и компрометируя передовые коммерческие модели с успехом до 80.9%. Возможно ли создать надежную систему защиты, способную эффективно противостоять визуальным атакам и обеспечить безопасность современных систем редактирования изображений?
Иллюзия Безопасности: Слепая Зона Визуального Анализа
Современные системы безопасности, используемые в моделях редактирования изображений, в значительной степени опираются на анализ текстовых данных, что создает уязвимость при использовании визуальных материалов в качестве основной точки атаки. Этот подход подразумевает, что даже если изображение содержит потенциально опасный контент, текстовое описание может не отражать его истинную природу, позволяя вредоносным данным обходить существующие фильтры. По сути, модель может быть обманута, поскольку ее способность распознавать опасный контент зависит от сопутствующего текста, а не от самого визуального содержания. Данная особенность представляет серьезную проблему, поскольку злоумышленники могут намеренно манипулировать визуальными данными, чтобы обойти системы безопасности, полагающиеся на текстовый анализ, создавая иллюзию безопасности, которая не соответствует реальному уровню защиты.
Существует заметное несоответствие в подходах к обеспечению безопасности в современных моделях редактирования изображений, известное как “Визуальное несоответствие в безопасности”. Традиционные фильтры и системы модерации контента в значительной степени полагаются на анализ текстовых описаний, игнорируя при этом прямые визуальные манипуляции. Это создает уязвимость, поскольку злоумышленники могут обходить текстовые барьеры, напрямую изменяя изображения для внедрения вредоносного контента, который остается незамеченным. По сути, модель может успешно идентифицировать опасный текст, но не распознать ту же опасность, представленную непосредственно в визуальной форме, что делает этот подход к безопасности недостаточным для эффективной защиты от атак, ориентированных на визуальный ввод.
Мощные модели редактирования изображений, несмотря на свою функциональность, унаследовали уязвимость, связанную с преобладанием текстового анализа в существующих системах безопасности. Это означает, что злоумышленники могут успешно обходить фильтры, используя визуальные данные в качестве основного вектора атаки, поскольку модели недостаточно эффективно оценивают и блокируют вредоносный контент, представленный в виде изображений. В связи с этим, необходимы новые стратегии оценки, которые учитывают специфику визуальных данных, а также разработка передовых методов защиты, способных эффективно обнаруживать и нейтрализовать угрозы, основанные на манипуляциях с изображениями. Разработка таких инструментов станет ключевым шагом в обеспечении безопасности и надежности систем редактирования изображений.

Эксплуатируя Визуальный Разрыв: Новая Парадигма Атак
Представляем «Визуальный взлом» (Vision-Centric Jailbreak Attack) — новый метод обхода протоколов безопасности, основанный на использовании визуальных входных данных. Данный подход классифицируется как «черный ящик» (Black-Box Attack), что означает отсутствие необходимости во внутреннем доступе к модели или знании её параметров. Атака заключается в манипулировании входным изображением таким образом, чтобы спровоцировать генерацию нежелательного или запрещенного контента, несмотря на встроенные механизмы защиты. В отличие от традиционных текстовых атак, «Визуальный взлом» эксплуатирует уязвимости, связанные с обработкой изображений, и демонстрирует возможность обхода фильтров безопасности без прямого взаимодействия с текстовыми подсказками.
Атака, основанная на визуальных данных, демонстрирует принципиальное отличие от традиционных текстовых атак, направленных на обход систем безопасности. В то время как текстовые атаки манипулируют входным текстом для получения нежелаемого результата, данная методика использует визуальные входные данные, что позволяет успешно обходить защиты, основанные исключительно на анализе текста. Полученные результаты показывают, что полагаться только на текстовые фильтры и механизмы защиты недостаточно для обеспечения безопасности моделей обработки изображений, поскольку визуальные входные данные представляют собой отдельный вектор атаки, требующий специализированных методов защиты.
При оценке с использованием ‘Image Editing Safety Benchmark’ выявлена значительная уязвимость коммерческих моделей редактирования изображений. Средний показатель успешности атаки (Attack Success Rate, ASR) составил 85.7% на четырех протестированных моделях. В частности, для модели Qwen-Image-Edit достигнут ASR в 97.5%, а для Seedream 4.5 — 94.1%, что демонстрирует высокую эффективность разработанного метода обхода систем безопасности посредством визуальных входных данных.

Самоанализ как Защита: Проактивный Уровень Безопасности
Предлагаемый подход, «Интроспективная защита», представляет собой «защиту без обучения», использующую внутреннюю осведомленность модели для выявления и блокировки злонамеренных визуальных запросов. В отличие от традиционных методов, требующих этапа обучения на вредоносных примерах, данная защита функционирует за счет анализа внутренних состояний модели при обработке запроса. Это позволяет модели самостоятельно оценивать потенциальную опасность входящего визуального стимула и предотвращать генерацию вредоносного контента без предварительной адаптации или переобучения. Данный механизм использует внутренние представления модели для выявления аномалий, указывающих на злонамеренный характер запроса.
В основе предлагаемой системы безопасности лежит использование мультимодальных больших языковых моделей (MLLM), что позволяет обрабатывать и анализировать как текстовые, так и визуальные данные. Для повышения эффективности и снижения вычислительных затрат реализовано управление KV-кэшем. Данная оптимизация позволяет сохранять и повторно использовать промежуточные результаты вычислений, связанные с ключами (Key) и значениями (Value) в процессе обработки запросов, что значительно ускоряет генерацию ответов и снижает потребление памяти. Эффективное управление KV-кэшем особенно важно при обработке больших изображений и сложных визуальных запросов, обеспечивая масштабируемость и оперативность системы.
Внедрение внутренней проверки безопасности в модель позволяет снизить риск генерации вредоносного контента. Эксперименты на Qwen-Image-Edit показали снижение частоты нежелательных ответов (ASR) на 33%, а оценка степени вредоносности (Harmfulness Score) снизилась на 1.2. Кроме того, в задачах классификации риска редактирования изображений в условиях zero-shot, подход достиг показателя AUC-ROC в 75.7%, что свидетельствует об эффективности предложенного метода в автоматическом выявлении потенциально опасных запросов.

За Пределами Немедленной Защиты: К Надежному Выравниванию Безопасности
Исследования показывают, что обеспечение безопасности моделей искусственного интеллекта не может ограничиваться лишь анализом текстовых данных. Для достижения надежного выравнивания, или “Safety Alignment”, необходимо учитывать способность моделей к визуальному восприятию и логическому мышлению на основе изображений. Оценка безопасности, основанная исключительно на текстовых запросах и ответах, упускает из виду потенциальные риски, связанные с неправильной интерпретацией визуальной информации или манипулированием изображениями. Разработка систем, способных адекватно оценивать и предотвращать небезопасные действия, связанные с обработкой визуального контента, становится ключевым направлением в обеспечении безопасности и надежности моделей искусственного интеллекта, работающих с изображениями.
Методы визуальной подсказки и редактирования изображений на основе инструкций, демонстрирующие впечатляющую силу в манипулировании визуальным контентом, требуют разработки надежных механизмов безопасности. Несмотря на свою эффективность, эти технологии потенциально могут быть использованы для создания дезинформации, фальсификации доказательств или распространения вредоносного контента. Поэтому критически важно внедрять системы, способные обнаруживать и предотвращать злоупотребления, гарантируя, что мощь этих инструментов служит конструктивным целям, а не представляет угрозу для общества. Разработка таких мер безопасности является необходимым условием для ответственного внедрения и широкого применения технологий редактирования изображений на основе искусственного интеллекта.
Интеграция механизмов самоанализа представляет собой важный шаг на пути к созданию более надежных и заслуживающих доверия моделей редактирования изображений. Эти механизмы позволяют модели оценивать собственные действия и предвидеть потенциальные негативные последствия, прежде чем выполнить запрос пользователя. Вместо простого слепого исполнения инструкций, модель способна к внутренней рефлексии, определяя, соответствует ли редактирование заданным нормам безопасности и этическим принципам. Такой подход значительно снижает риск злоупотреблений и нежелательных результатов, поскольку модель способна самостоятельно блокировать или корректировать запросы, представляющие опасность. Развитие подобных систем самоконтроля открывает новые возможности для создания искусственного интеллекта, который не только способен выполнять сложные задачи, но и осознает свою ответственность перед обществом.

Статья демонстрирует, как легко обойти текстовые барьеры безопасности, используя визуальные подсказки для манипулирования моделями редактирования изображений. Это подтверждает давнюю истину: элегантная теория безопасности рушится, когда сталкивается с жестокой реальностью продакшена. Как сказал Эндрю Ын: «Самая сложная часть создания ИИ — не создание интеллекта, а обеспечение того, чтобы он делал то, что мы хотим». Видно, что даже самые передовые системы уязвимы для атак, использующих мультимодальность, и эта работа напоминает, что багтрекеры будут заполняться новыми записями о боли, пока разработчики не примут более надежные методы защиты, учитывающие визуальные векторы атак. Безопасность — это не статичная цель, а непрерывный процесс адаптации к новым угрозам.
Что дальше?
Представленная работа выявляет закономерность, знакомую любому, кто долго работает с системами: каждая «интеллектуальная» защита рано или поздно обнаруживает свою слепую зону. Здесь этой зоной оказывается визуальный канал. Модели, обученные «понимать» инструкции, оказались уязвимы не к тому, что сказано, а к тому, как это показано. И это не ошибка реализации — это фундаментальное свойство любой системы, стремящейся к обобщению. Оптимизировали текстовый ввод — получили обход через пиксели. Всё, что оптимизировано, рано или поздно оптимизируют обратно.
Предложенный бенчмарк — лишь первый шаг. Следующим логичным этапом видится создание не просто метрик, а систем динамической оценки уязвимостей. Необходимо учитывать, что злоумышленники не будут ограничены предложенными атаками. Они найдут способы использовать сложные взаимодействия между визуальным и текстовым вводом, создавая «гибридные» запросы, которые обходят даже самые изощренные фильтры. Архитектура — это не схема, а компромисс, переживший деплой.
И, возможно, самое важное — признание того, что абсолютной безопасности не существует. Мы не рефакторим код — мы реанимируем надежду. Задача состоит не в том, чтобы построить неприступную крепость, а в том, чтобы создать систему, способную быстро адаптироваться к новым угрозам и минимизировать ущерб. Каждая «революционная» технология завтра станет техдолгом.
Оригинал статьи: https://arxiv.org/pdf/2602.10179.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовая суперпозиция: новая интерпретация вероятности
- Ускорение генеративных моделей: новый подход к вычислению матричной экспоненты
- Квантовый скачок: от лаборатории к рынку
- Эффективный параллелизм: iCIPT2 на службе квантифицируемой химии
- Ускорение вычислений: Монте-Карло и линейные системы
- Тензорные сети и комбинаторные поиски: новый подход к сложным задачам
- Квантовая геометрия управления: плавные траектории в пространстве состояний
2026-02-12 10:21