Автор: Денис Аветисян
Новое исследование выявляет слабые места современных моделей искусственного интеллекта в оценке правдоподобности и согласованности видео, сгенерированных нейросетями.

GenVideoLens — новый бенчмарк, демонстрирующий, что модели испытывают трудности с пониманием временной динамики и физической согласованности в AI-видео, несмотря на хорошие результаты в оценке визуальных характеристик.
Несмотря на впечатляющие успехи больших визуально-языковых моделей (LVLM) в обнаружении сгенерированных ИИ видео, остается неясным, где именно они испытывают трудности. В данной работе представлена платформа ‘GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?’, предназначенная для детальной оценки возможностей LVLM в выявлении поддельных видеороликов. Анализ, проведенный на основе новой базы данных, состоящей из 400 сгенерированных и 100 реальных видео, показал, что модели демонстрируют хорошие результаты в оценке перцептивных характеристик, но существенно уступают при анализе оптической согласованности, физического взаимодействия и временной причинности. Какие шаги необходимы для создания более надежных систем обнаружения поддельных видео, способных эффективно учитывать динамику и физические законы?
Иллюзия реальности: Растущая угроза AI-сгенерированного видео
Распространение видео, созданного искусственным интеллектом, представляет собой серьезную проблему для проверки подлинности, открывая широкие возможности для дезинформации и манипулирования общественным мнением. Технологии генерации видео, основанные на ИИ, развиваются стремительными темпами, позволяя создавать реалистичные изображения, которые все сложнее отличить от оригинальных. Это создает угрозу для доверия к визуальному контенту, поскольку поддельные видео могут использоваться для распространения ложных новостей, компрометации отдельных лиц или даже подрыва политической стабильности. Возможность массового создания убедительных, но фальшивых видеороликов требует разработки новых методов верификации и защиты от злоупотреблений, чтобы сохранить целостность информационного пространства и предотвратить негативные последствия для общества.
Традиционные методы выявления подделок, основанные на анализе артефактов сжатия, цветовых аномалий или несоответствий в освещении, становятся всё менее эффективными в связи с развитием технологий искусственного интеллекта. Современные алгоритмы генерации видео способны создавать изображения, практически неотличимые от реальных, тщательно маскируя любые следы манипуляций. Это требует разработки принципиально новых подходов к верификации, ориентированных на анализ более тонких характеристик, таких как физическая достоверность сцены, соответствие движений законам физики и выявление едва заметных несоответствий в поведении объектов. Необходимость в таких решениях обусловлена не только ростом качества сгенерированных видео, но и увеличением скорости их создания и распространения, что делает своевременное обнаружение подделок критически важной задачей.
Определение подлинности видео, созданных искусственным интеллектом, становится все более сложной задачей, поскольку простая бинарная классификация — «подлинное» или «поддельное» — оказывается неэффективной. Современные алгоритмы генерации видео способны имитировать мельчайшие детали, включая микро-выражения лиц и тончайшие движения, которые ранее служили надежными индикаторами реальности. Это означает, что для выявления фальсификаций необходим анализ более сложных характеристик, таких как несоответствия в освещении, неестественные тени, а также аномалии в физике движения объектов. Игнорирование этих нюансов приводит к тому, что даже опытные эксперты могут быть обмануты, что подчеркивает важность разработки новых методов, способных учитывать многомерность и сложность визуальной информации для точной оценки подлинности видеоматериалов.

GenVideoLens: Деконструкция аутентичности видео
Бенчмарк GenVideoLens представляет собой комплексную систему оценки моделей обнаружения видео, сгенерированных искусственным интеллектом, по 15 различным параметрам аутентичности. Эти параметры охватывают широкий спектр характеристик, включая, но не ограничиваясь, реалистичность текстур, согласованность освещения, правдоподобность движений объектов и наличие артефактов, типичных для синтетических видео. Вместо единой метрики общей точности, GenVideoLens предоставляет детализированный анализ по каждому из 15 измерений, что позволяет оценить сильные и слабые стороны конкретной модели и выявить области, требующие дальнейшей оптимизации. Такой подход обеспечивает более глубокое понимание возможностей и ограничений различных алгоритмов обнаружения сгенерированного контента.
Оценка моделей обнаружения сгенерированного ИИ видео посредством GenVideoLens, с разбивкой по 15 измерениям аутентичности, позволяет выявить не только общую точность, но и конкретные сильные и слабые стороны каждой модели. Такой подход дает возможность определить, в каких аспектах (например, реалистичность текстур, согласованность освещения, или соответствие физическим законам) модель показывает лучшие результаты, а в каких — требует доработки. Выявление этих узких мест критически важно для целенаправленного улучшения производительности и повышения надежности систем обнаружения сгенерированного контента.
Бенчмарк GenVideoLens обеспечивает детализированный анализ моделей обнаружения сгенерированных ИИ видео, разделяя оценку на два основных уровня. Анализ на уровне отдельных кадров (frame-level) фокусируется на выявлении перцептивных признаков, таких как артефакты сжатия или несоответствия текстур. В то же время, анализ на уровне видео (video-level) позволяет оценить способность модели к временному рассуждению, то есть к выявлению неправдоподобных последовательностей событий или аномалий во временной структуре видеоряда. Такой подход позволяет точно определить, какие аспекты аутентичности модель осваивает хорошо, а где требуются улучшения.

Рассуждения о видео: Временные и физические измерения
Обнаружение видео, сгенерированного искусственным интеллектом, требует анализа не только статических изображений, но и способности рассуждать о событиях, разворачивающихся во времени. Для этого используются такие методы, как оптический поток и карты разности кадров. Оптический поток позволяет отслеживать движение объектов между кадрами, выявляя аномалии или неестественные паттерны. Карты разности кадров, в свою очередь, показывают изменения в изображении между последовательными кадрами, что позволяет выявить добавленные или удаленные объекты, а также несоответствия в движении. Комбинирование этих техник позволяет получить более полное представление о динамике видео и выявить признаки манипуляции или генерации ИИ, которые не обнаруживаются при статическом анализе.
Для точного выявления сгенерированных ИИ видео недостаточно анализа отдельных кадров; требуется понимание физических законов, управляющих взаимодействием объектов. Это подразумевает необходимость в моделях, способных к физическому рассуждению, то есть к прогнозированию и оценке правдоподобности движения и взаимодействия объектов в видеоряде на основе таких факторов, как гравитация, инерция и столкновения. Такие модели должны учитывать не только визуальные характеристики, но и физические ограничения, чтобы отличить реалистичное поведение объектов от неправдоподобного, созданного алгоритмами генерации видео. Игнорирование физических принципов приводит к появлению артефактов, заметных для человеческого глаза, но не всегда обнаруживаемых существующими алгоритмами анализа.
Оптическая согласованность — достоверное воспроизведение освещения, теней и отражений — является критическим индикатором подлинности видеоматериалов и требует сложного темпорального анализа. Несоответствия в поведении света и тени во времени, такие как внезапные изменения интенсивности, нереалистичные углы падения света или отсутствие последовательности в отражениях от объектов, могут указывать на манипуляции с видео. Для оценки оптической согласованности используются методы анализа последовательности кадров, отслеживания источников света и геометрии отражающих поверхностей. Точный анализ требует учета не только статических характеристик освещения, но и динамики изменений во времени, что значительно усложняет задачу по сравнению с анализом отдельных изображений.
Несмотря на применение методов, таких как карты разностных кадров и оптический поток, современные модели демонстрируют ограниченную способность использовать информацию о движении для физического рассуждения. Экспериментальные данные показывают незначительное улучшение производительности при использовании этих методов для выявления физически неправдоподобных сценариев в видео, что указывает на недостаточную интеграцию анализа движения с моделями, способными оценивать соответствие физическим законам. Существующие алгоритмы часто фокусируются на обнаружении движения как такового, а не на интерпретации его с точки зрения причинно-следственных связей и физической правдоподобности.
Современные модели обнаружения сгенерированных видео часто ограничиваются распознаванием паттернов в отдельных кадрах или простых временных последовательностях. Для достоверной оценки аутентичности видео требуется переход к моделям, способным к полноценному рассуждению о содержании. Это подразумевает не просто идентификацию объектов и действий, но и понимание их взаимосвязей, физических свойств и логической последовательности событий. Такой подход позволит оценивать правдоподобность происходящего, учитывая принципы физики и здравый смысл, что значительно повысит устойчивость к продвинутым техникам генерации видео, направленным на обман систем обнаружения.

LVLMs и dimension-guided prompting для надежного обнаружения
Большие визуально-языковые модели (LVLM), такие как Qwen3-VL-8B и InternVL3.5-8B, демонстрируют перспективные возможности в обнаружении видео, сгенерированных искусственным интеллектом, благодаря их способности к визуальному восприятию и логическим рассуждениям. Эти модели способны анализировать визуальный контент и соотносить его с языковыми подсказками, что позволяет им выявлять несоответствия и аномалии, характерные для сгенерированных видео. Способность к пониманию как визуальных, так и текстовых данных позволяет LVLM оценивать правдоподобие сцен, объектов и их взаимодействий, что является ключевым фактором в определении подлинности видеоматериала.
В отличие от необходимости специализированного обучения для решения задач обнаружения, метод «zero-shot prompting» позволяет немедленно оценивать возможности больших визуально-языковых моделей (LVLM). Однако, значительное повышение производительности достигается при использовании «dimension-guided prompting» — явном запросе модели по каждой отдельной размерности аутентичности. Этот подход позволяет модели более точно анализировать и оценивать видеоконтент, поскольку фокусируется на конкретных аспектах, таких как физическое взаимодействие или временная логика, в то время как стандартный «zero-shot prompting» может давать менее точные результаты из-за обобщенного анализа.
Несмотря на то, что современные большие визуально-языковые модели (LVLM) достигают общей точности бинарной классификации менее 0.65, они демонстрируют значительные трудности при анализе временных и физических аспектов видеоконтента. В частности, F1-мера для таких измерений, как «Физическое взаимодействие» и «Временная логика», не превышает 0.20, что указывает на существенные ограничения в понимании динамики и реалистичности происходящего на видео. Данный показатель свидетельствует о том, что модели испытывают сложности с выявлением несоответствий в физических законах или логической последовательности событий, что критически важно для обнаружения сгенерированного ИИ контента.
Метрика «Коэффициент коллапса» (Collapse Rate) показывает, что при одновременном запросе модели по нескольким измерениям аутентичности, она генерирует практически идентичные ответы для всех этих измерений более чем в 90% случаев. Это свидетельствует об отсутствии у модели детализированного понимания и способности к дифференцированному анализу различных аспектов видеоконтента, необходимых для точного определения его подлинности. Высокий коэффициент коллапса указывает на то, что модель не учитывает специфику каждого измерения, выдавая усредненную, неинформативную оценку, что снижает эффективность обнаружения AI-сгенерированных видео.
Использование промптинга, ориентированного на отдельные измерения (dimension-guided prompting), позволяет раскрыть весь потенциал больших визуально-языковых моделей (LVLM) для обнаружения все более сложного сгенерированного ИИ видеоконтента. Вместо одновременной оценки всех аспектов подлинности, этот подход предполагает последовательное запрошение модели по каждому отдельному измерению, такому как физическое взаимодействие или временная логика. Это позволяет избежать “коллапса” ответов, когда модель выдает практически идентичные результаты для разных измерений, и обеспечивает более детальный и нюансированный анализ видео, что критически важно для выявления сложных манипуляций и подделок.

Очевидно, что современные большие визуальные языковые модели (LVLM) демонстрируют удивительную способность улавливать поверхностные признаки, создавая иллюзию понимания. Однако, как показывает представленный анализ GenVideoLens, эта способность обманчива. Модели успешно распознают визуальные подсказки, но терпят крах, когда дело доходит до оценки временной последовательности и физической согласованности в сгенерированных видео. Всё это лишь подтверждает старую истину: «Всё, что можно задеплоить — однажды упадёт». Элегантные алгоритмы, работающие в лабораторных условиях, неизбежно сталкиваются с суровой реальностью продакшена, где даже незначительные отклонения от физических законов или логики времени становятся критическими. Как заметил Эндрю Ын: «Мы — поколение, которое умеет создавать вещи быстрее, чем умеет их поддерживать». И GenVideoLens — наглядное тому доказательство.
Что дальше?
Представленный анализ, как и следовало ожидать, лишь аккуратно подсветил существующие проблемы, а не решил их. GenVideoLens, конечно, инструмент полезный, но давайте будем честны: если система стабильно выдаёт ошибки в оценке базовой физики и временной последовательности, значит, она хотя бы последовательна в своей некомпетентности. В конечном счёте, обнаружение «фейковых» видео не сводится к поиску артефактов сжатия или несовершенства рендеринга — это задача, требующая понимания мира, а не просто анализа пикселей.
Вероятно, следующим этапом станет попытка «научить» модели хотя бы элементарной причинно-следственной связи. Но не стоит питать иллюзий: «cloud-native» решения для проверки физической достоверности — это всё те же самые алгоритмы, только дороже и с большим количеством маркетингового шума. Вместо погони за идеальной точностью, возможно, стоит сосредоточиться на создании систем, способных выявлять наиболее вероятные подделки, признавая, что абсолютная верификация — это недостижимая мечта.
В конечном счёте, вся эта работа — не более чем комментарии для будущих археологов цифровой эпохи. Они будут изучать наши алгоритмы и удивляться, как мы могли верить, что машина способна отличить правду от лжи, не понимая самой сути вещей. И, возможно, они будут правы.
Оригинал статьи: https://arxiv.org/pdf/2603.18625.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Отражения культуры: Как языковые модели рассказывают истории
- Взлом языковых моделей: эволюция атак, а не подсказок
- Укрощение Бесконечности: Алгебраические Инструменты для Кватернионов и За их Пределами
- В поисках оптимального дерева: новые горизонты GPU-вычислений
- Диффузия против Квантов: Новый Взгляд на Факторизацию
- Эволюция Симуляций: От Агентов к Сложным Социальным Системам
- Робот-манипулятор: обучение взаимодействию с миром с помощью зрения от первого лица
- Третья Разновидность ИИ: Как модели, думающие «про себя», оставят позади GPT и CoT
- Роботы учатся видеть: новая стратегия управления на основе видео
- Визуальный след: Сжатие рассуждений для мощных языковых моделей
2026-03-22 15:42