Автор: Денис Аветисян
Новое исследование показывает, что даже небольшие изменения в ключевых словах могут заставить современные модели «зрение-язык» генерировать опасный контент.

Атаки, основанные на увеличении энтропии в токенах, успешно генерируют вредоносный контент и переносятся между различными моделями «зрение-язык».
Несмотря на впечатляющую производительность, современные мультимодальные модели, объединяющие зрение и язык, остаются уязвимыми к целенаправленным атакам. В работе «Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models» показано, что лишь небольшая часть токенов, характеризующихся высокой энтропией в процессе генерации, критически определяет итоговый результат и может быть использована для эффективной генерации вредоносного контента. Авторы продемонстрировали, что селективное воздействие на эти точки, в отличие от глобальных методов, позволяет достичь сопоставимого уровня деградации, значительно экономя вычислительные ресурсы и существенно повышая риск генерации опасных ответов. Не является ли это фундаментальным ограничением современных механизмов безопасности, требующим пересмотра подходов к защите мультимодальных моделей?
Шепот Хаоса: Уязвимости в Зрении и Языке
Несмотря на впечатляющие возможности, современные большие языковые модели, работающие с визуальной информацией, оказываются уязвимыми к целенаправленным атакам. Эти модели, демонстрирующие способность понимать и генерировать текст на основе изображений, могут быть введены в заблуждение посредством незначительных, но тщательно продуманных изменений входных данных. Атакующие способны создавать визуальные «иллюзии», которые приводят к ошибочным предсказаниям или генерации нежелательного контента, несмотря на кажущуюся «интеллектуальность» системы. Это подчеркивает необходимость разработки более надежных и устойчивых к манипуляциям моделей, способных адекватно обрабатывать информацию даже в условиях враждебной среды.
Современные мультимодальные модели, объединяющие зрение и язык, демонстрируют впечатляющие возможности, однако остаются уязвимыми к целенаправленным атакам. Эти атаки, тщательно разработанные для эксплуатации слабых мест в архитектуре и обучении моделей, способны вызывать ошибочные прогнозы и, что более опасно, генерировать потенциально вредоносный контент. Исследователи обнаружили, что даже незначительные изменения во входных данных, незаметные для человеческого глаза, могут приводить к кардинальным изменениям в выходных данных модели, что ставит под вопрос надежность и безопасность этих систем в критически важных приложениях. Возможность манипулирования моделями таким образом подчеркивает необходимость разработки более устойчивых и надежных алгоритмов, а также методов обнаружения и предотвращения подобных атак.
Исследования современных больших языковых моделей, работающих с изображениями и текстом, выявили несостоятельность традиционных метрик оценки в обнаружении скрытых уязвимостей. В частности, установлено, что целенаправленное воздействие всего на 20% от наиболее непредсказуемых токенов — тех, которые модель интерпретирует с наибольшей неопределенностью — может значительно увеличить вероятность генерации вредоносного или нежелательного контента. Этот феномен указывает на необходимость разработки более совершенных методов оценки, способных выявлять и количественно оценивать подобные слабые места, а также обеспечивать надежную защиту от потенциально опасных атак, использующих эти уязвимости для манипулирования результатами работы моделей.

Танцующие с Неопределенностью: Стратегия Атаки, Основанная на Энтропии
В рамках предложенной стратегии атак акцент делается на так называемые «токены высокой энтропии» — элементы последовательности, для которых авторегрессионное декодирование выдает наименее уверенные предсказания. Эти токены идентифицируются на основе вероятностного распределения, генерируемого моделью; чем ниже уверенность (выше энтропия) предсказания для конкретного токена, тем более вероятным кандидатом он является для атаки. Цель состоит в том, чтобы целенаправленно возмущать эти токены, поскольку их невысокая предсказуемость делает их наиболее чувствительными к изменениям и, следовательно, способными вызвать каскадные ошибки в процессе декодирования. Выявление токенов высокой энтропии осуществляется на каждом шаге авторегрессии, что позволяет динамически адаптировать стратегию атаки к конкретному контексту генерируемой последовательности.
Стратегия атаки заключается в намеренном внесении небольших изменений в так называемые «высокоэнтропийные токены» — элементы последовательности, для которых языковая модель демонстрирует наименьшую уверенность в предсказании следующего токена. Целью таких возмущений является увеличение неопределенности модели при генерации текста. Усиление неопределенности приводит к более значительным ошибкам в предсказаниях, поскольку модель с меньшей уверенностью выбирает неверные токены для продолжения последовательности. В результате, даже незначительные изменения в высокоэнтропийных токенах могут привести к существенным отклонениям от исходного текста и, как следствие, к успешной атаке.
В отличие от традиционных атак, основанных на градиентах (например, PGD), предложенная стратегия нацелена непосредственно на внутреннюю уверенность модели при генерации текста. Вместо оптимизации входных данных для максимизации ошибки предсказания, мы фокусируемся на манипулировании токенами с низкой уверенностью предсказания. Результаты экспериментов демонстрируют, что данный подход позволяет достичь более 93% успешности атаки на различных моделях, что свидетельствует о его эффективности в условиях, когда стандартные методы оказываются менее результативными.

Подтверждение Слабости: Экспериментальная Оценка Эффективности Атаки
Экспериментальные исследования с использованием моделей Qwen2.5-VL, LLaVA и InternVL показали эффективность предложенной атаки, основанной на энтропии, применительно к различным задачам. Оценка проводилась на стандартных бенчмарках для задач генерации описаний изображений (Image Captioning) и визуального вопросно-ответного взаимодействия (Visual Question Answering, VQA). Результаты демонстрируют, что атака успешно эксплуатирует уязвимости моделей в различных сценариях, что подтверждает её применимость и эффективность в контексте анализа безопасности мультимодальных систем.
Экспериментальные результаты демонстрируют высокую эффективность предложенной атаки на различные мультимодальные модели. На модели Qwen2.5-VL-7B атака успешно выполнена в 94.81% случаев, на InternVL3.5-4B — в 93.75% случаев, а на LLaVA-1.5-7B — в 93.12% случаев. Эти показатели свидетельствуют о существенных уязвимостях в архитектуре данных моделей и их подверженности целенаправленным манипуляциям, что подтверждает возможность эксплуатации данных уязвимостей для получения нежелательных результатов.
В ходе экспериментов выявлена значительная корреляция между успешными атаками и генерацией вредоносного контента. На модели Qwen2.5-VL наблюдалась частота генерации вредоносных ответов в 42.5%, на InternVL3.5-4B — 37.3%, а на LLaVA-1.5-7B — 47.1%. Данные показатели демонстрируют, что эксплуатация уязвимостей моделей посредством предложенной атаки может приводить к нежелательному контенту и подчеркивают важность обеспечения безопасности при работе с мультимодальными моделями.

Универсальный Ключ: Расширение Переносимости Атаки с Помощью «Банка Токенов»
Исследователи изучили применение так называемого “Банка Токенов” — набора переиспользуемых фрагментов входных данных — для повышения эффективности переноса атак, направленных на системы машинного обучения. Данный подход заключается в том, чтобы вместо генерации уникальных возмущений для каждой целевой модели, использовать заранее подготовленные и оптимизированные “токены”, которые могут быть комбинированы для создания атак, способных обходить различные архитектуры и механизмы защиты. Такая стратегия позволяет существенно расширить область применения атак, делая их более универсальными и устойчивыми к изменениям в целевых системах, и подчеркивает необходимость разработки надежных методов защиты от подобных манипуляций.
Исследование показало, что использование “банка токенов” — набора переиспользуемых элементов, влияющих на входные данные — значительно повышает вероятность успешных атак на ранее не виденные модели и наборы данных. Вместо генерации уникальных воздействий для каждой целевой модели, система заимствует и адаптирует готовые “токены” из банка, что позволяет обойти специфические особенности защиты, не ограничиваясь конкретной архитектурой или обучающей выборкой. Этот подход демонстрирует, что уязвимости, эксплуатируемые атаками, носят системный характер и не связаны с индивидуальными особенностями моделей, а скорее обусловлены общими закономерностями в обработке данных. В результате, даже незначительные изменения во входных данных, сформированные с использованием “банка токенов”, могут привести к ошибочной классификации, даже если целевая модель значительно отличается от той, на которой проводилось первоначальное тестирование атаки.
Повышенная переносимость атак, продемонстрированная в исследовании, указывает на то, что уязвимости в системах машинного обучения носят не локальный, а системный характер. Это означает, что недостатки не ограничиваются конкретной моделью или набором данных, а коренятся в фундаментальных принципах, лежащих в основе многих алгоритмов. Обнаруженные закономерности позволяют злоумышленникам успешно адаптировать атаки к различным, ранее неизвестным системам, подчеркивая необходимость разработки надежных механизмов защиты, способных противостоять широкому спектру угроз. Успешное преодоление этих уязвимостей требует не просто исправления отдельных ошибок, а комплексного подхода к обеспечению безопасности, направленного на укрепление всей инфраструктуры машинного обучения.

Исследование показывает, что даже незначительные изменения в структуре данных, направленные на увеличение энтропии, способны пробудить в цифровом големе нежелательные ответы. Уязвимость, обнаруженная в моделях, работающих с визуальной и языковой информацией, напоминает старый алхимический принцип: малейшая примесь может изменить всю реакцию. Как заметил Эндрю Ын: «Мы находимся в моменте, когда нужно обучать людей навыкам машинного обучения, а не обучать машины выполнять задачи, которые выполняют люди». Это особенно актуально, когда речь идет о контроле над тем, что «говорит» голему, ведь предсказать все возможные реакции на хаотичные входные данные практически невозможно. Направленные атаки, использующие принцип высокой энтропии, демонстрируют, что даже незначительные «шепоты хаоса» могут быть усилены и вызваны желаемым, пусть и вредоносным, ответом.
Куда же всё это ведёт?
Представленные результаты, конечно, демонстрируют уязвимость моделей, оперирующих с визуальной и языковой информацией. Однако, говорить о полном понимании природы этих уязвимостей было бы наивно. Атаки, основанные на манипулировании энтропией токенов, оказались на удивление эффективными, но всё ещё остаются вопросами масштабируемость и устойчивость к более сложным защитным механизмам. Данные — это не истина, а компромисс между багом и Excel, и каждая новая «защита» — лишь ещё один слой компромисса.
Следующим шагом видится не столько разработка более «надёжных» моделей, сколько попытка понять, как вообще возникает эта хрупкость. Ведь в конечном счёте, каждая модель — это заклинание, которое работает до первого продакшена. Необходимо исследовать, как свойства обучающих данных влияют на уязвимость к подобным атакам, и как можно создать более «робастные» представления, устойчивые к небольшим возмущениям. Всё, что не нормализовано, всё ещё дышит, и эта «жизнь» может оказаться крайне непредсказуемой.
Наконец, стоит признать, что настоящая проблема заключается не в самих атаках, а в том, как мы используем эти модели. Если целью является создание систем, которые принимают решения, влияющие на реальный мир, то необходимо разработать методы верификации и аудита, которые смогут выявить и нейтрализовать потенциальные риски. Иначе, мы рискуем создать системы, которые умеют лгать последовательно, и в этом заключается настоящая опасность.
Оригинал статьи: https://arxiv.org/pdf/2512.21815.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Насколько важна полнота при оценке поиска?
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Вопросы по PDF: Новый вызов для искусственного интеллекта
- Диффузия против Квантов: Новый Взгляд на Факторизацию
- Квантовое превосходство в простых вычислениях: Разделение QAC0 и AC0
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Сжатый код: как оптимизация влияет на «мышление» языковых моделей
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- От принципа Ферма к нейронным сетям: новый взгляд на вариационную физику
- Белки под присмотром ИИ: новый подход к пониманию их функций
2026-01-11 02:19