Что мы видим, когда смотрим на мир, созданный нейросетью?

Автор: Денис Аветисян


Новое исследование показывает, как люди воспринимают видео, сгенерированные искусственным интеллектом, и как меняется их зрительное поведение.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Исследование поведения взгляда сорока испытуемых с различным опытом при просмотре как реальных, так и сгенерированных искусственным интеллектом видеороликов с изображением физических сцен позволило установить закономерности, связанные с задачами понимания контента и выявления роликов, созданных ИИ, что подтверждается данными отслеживания движения глаз, собранными в ходе экспериментов.
Исследование поведения взгляда сорока испытуемых с различным опытом при просмотре как реальных, так и сгенерированных искусственным интеллектом видеороликов с изображением физических сцен позволило установить закономерности, связанные с задачами понимания контента и выявления роликов, созданных ИИ, что подтверждается данными отслеживания движения глаз, собранными в ходе экспериментов.

Исследование с использованием айтрекинга выявило, что попытки определить, является ли видео реальным или сгенерированным ИИ, влияют на паттерны взгляда, в то время как сама подлинность видео не оказывает значительного влияния.

Растущая реалистичность искусственно сгенерированных видео ставит под вопрос доверие к визуальному контенту и требует новых подходов к его анализу. В своей работе ‘How do people watch AI-generated videos of physical scenes?’ исследователи изучают, как люди воспринимают и анализируют видеоролики, созданные искусственным интеллектом. Полученные результаты показывают, что паттерны взгляда зрителей определяются не фактической подлинностью видео, а скорее их убежденностью в том, является ли оно реальным или сгенерированным. Может ли понимание этих когнитивных процессов помочь в разработке более эффективных инструментов для обнаружения дипфейков и защиты от дезинформации?


Разоблачение Иллюзий: Эволюция Визуального Обмана

Современные алгоритмы искусственного интеллекта демонстрируют поразительную способность создавать видеоматериалы, которые все сложнее отличить от реальных. Эта тенденция приводит к размыванию границ между аутентичным контентом и искусно созданной фальсификацией. Развитие генеративных моделей, способных реалистично имитировать мимику, жесты и даже эмоциональное состояние человека, открывает новые возможности для создания убедительных, но ложных видеороликов. Такой прогресс ставит перед обществом серьезную задачу — научиться критически оценивать визуальную информацию и распознавать потенциальные манипуляции, поскольку визуальное восприятие часто предшествует рациональному анализу и может формировать ошибочные представления о действительности.

В эпоху стремительного развития искусственного интеллекта, зрители сталкиваются с возрастающей сложностью в различении подлинного видеоконтента от реалистичных симуляций, созданных ИИ. Ранее чёткие границы между реальностью и цифровой манипуляцией стираются, поскольку генеративные модели становятся всё более совершенными в имитации человеческой речи, мимики и визуальных деталей. Эта тенденция представляет серьёзную проблему для восприятия информации, поскольку способность критически оценивать достоверность визуальных материалов становится ключевым навыком для современного зрителя. Подобное размытие границ ставит под вопрос доверие к видео как к источнику информации и требует разработки новых методов верификации и анализа контента.

Ранее разработанные методы обнаружения манипулированных медиа, в частности, алгоритмы, успешно применяемые для выявления DeepFake, демонстрируют все меньшую эффективность в отношении новых поколений генеративных моделей. Изначально полагавшиеся на анализ артефактов, возникающих при создании поддельных видео, эти системы оказываются неспособными распознать усовершенствованные симуляции, которые практически не оставляют следов манипуляций. Современные генеративные модели способны создавать видеоматериал с поразительной реалистичностью, имитируя мельчайшие детали человеческой мимики и движения, что делает традиционные методы обнаружения неактуальными и требует разработки принципиально новых подходов к верификации подлинности видеоконтента. Этот процесс усложняется экспоненциальным ростом вычислительных мощностей и постоянным совершенствованием алгоритмов генерации изображений и видео.

По мере того, как искусственный интеллект совершенствует генерацию видеоматериалов, возникает острая необходимость в более глубоком понимании механизмов визуального восприятия у человека. Современные генеративные модели способны создавать настолько реалистичные изображения, что традиционные методы выявления манипуляций, основанные на обнаружении артефактов, становятся неэффективными. Исследования в области когнитивной психологии и нейробиологии, изучающие, как мозг обрабатывает визуальную информацию, распознает закономерности и формирует убеждения, приобретают ключевое значение. Понимание того, какие аспекты видеоролика привлекают наибольшее внимание, какие визуальные сигналы воспринимаются как достоверные, а также как мозг реагирует на несоответствия, позволит разработать более эффективные инструменты для распознавания и предотвращения дезинформации, созданной с помощью ИИ. Такой междисциплинарный подход, объединяющий технологии искусственного интеллекта и науку о человеческом восприятии, является необходимым условием для сохранения доверия к визуальному контенту в эпоху все более сложных цифровых манипуляций.

Анализ точности выявления AI-контента показал, что участники чаще ошибочно принимают реальные видео за сгенерированные AI, при этом точность различения AI и реальных видео варьируется в зависимости от источника контента (<span class="katex-eq" data-katex-display="false">S1</span>, физические видео, <span class="katex-eq" data-katex-display="false">S2</span>, профессиональные видео).
Анализ точности выявления AI-контента показал, что участники чаще ошибочно принимают реальные видео за сгенерированные AI, при этом точность различения AI и реальных видео варьируется в зависимости от источника контента (S1, физические видео, S2, профессиональные видео).

Отслеживание Взгляда: Раскрытие Когнитивных Механизмов

Технология отслеживания взгляда предоставляет возможность изучения когнитивных процессов, лежащих в основе визуального внимания. В основе метода лежит измерение движений глаз, а именно фиксаций — периодов неподвильного взгляда на конкретной точке, саккад — быстрых перемещений между этими точками, и траекторий сканирования (scanpaths) — последовательности фиксаций и саккад, формирующих общую картину исследования визуальной сцены. Анализ этих параметров позволяет сделать выводы о распределении внимания, обработке визуальной информации и когнитивной нагрузке, поскольку паттерны движения глаз напрямую связаны с тем, какие элементы визуального стимула привлекают внимание и как долго они удерживают его.

Технология отслеживания взгляда позволяет реконструировать процесс визуального исследования сцены посредством измерения фиксаций, саккад и траекторий взгляда. Фиксации представляют собой периоды неподвильного взгляда на определенной точке, отражая моменты обработки информации. Саккады — это быстрые перемещения взгляда между точками фиксации, необходимые для сканирования визуального поля. Траектория взгляда (scanpath) объединяет последовательность фиксаций и саккад, формируя уникальный паттерн, отражающий порядок и длительность рассмотрения различных элементов сцены. Анализ этих параметров позволяет составить карту визуального внимания, показывающую, какие области изображения привлекают наибольшее внимание зрителя и как происходит перемещение внимания по изображению.

Параметры поведения взгляда, такие как длительность фиксаций, частота саккад и общая траектория сканирования, напрямую коррелируют с когнитивной нагрузкой и распределением внимания. Более длительные фиксации обычно указывают на повышенную обработку информации в конкретной области изображения, требующую больше когнитивных ресурсов. Увеличение частоты саккад может свидетельствовать о попытках быстрого поиска релевантной информации или о снижении когнитивной обработки. Анализ траекторий сканирования позволяет определить приоритеты визуального поиска и выявить области изображения, привлекающие наибольшее внимание, что, в свою очередь, отражает распределение когнитивных усилий и доступных ресурсов.

В рамках исследования выдвинута гипотеза о том, что видеоролики, сгенерированные искусственным интеллектом, могут вызывать отличные от естественных паттерны движения взгляда. Предполагается, что различия в фиксациях, саккадах и траекториях взгляда при просмотре AI-контента по сравнению с аутентичными видеозаписями могут указывать на несоответствия в способах привлечения и удержания внимания зрителя. Данные различия могут быть связаны с особенностями алгоритмов генерации, приводящими к менее реалистичному или менее когнитивно эффективному представлению визуальной информации, что, в свою очередь, отражается в паттернах сканирования взгляда.

Анализ поведения взгляда людей при просмотре видео, сгенерированных ИИ, показывает, что внимание зрителей зависит как от поставленной задачи, так и от их субъективной оценки.
Анализ поведения взгляда людей при просмотре видео, сгенерированных ИИ, показывает, что внимание зрителей зависит как от поставленной задачи, так и от их субъективной оценки.

Раскрытие Иллюзий: Обнаружение AI через Анализ Взгляда

В ходе исследования участникам была поставлена задача определить, является ли представленное видео реальным или сгенерированным искусственным интеллектом. Для этого испытуемым демонстрировались как видеозаписи, полученные традиционным способом, так и видео, созданные с использованием алгоритмов машинного обучения. Процедура включала просмотр серии видеороликов, после чего участники должны были классифицировать каждый ролик как «реальный» или «сгенерированный ИИ». Данные, полученные в процессе выполнения данной задачи, использовались для последующего анализа паттернов взгляда и выявления различий в визуальном внимании между реальными и сгенерированными видео.

Анализ поведения взгляда участников эксперимента выявил статистически значимые различия в траекториях сканирования (scanpaths) и реакции зрачка (размер зрачка). Траектории сканирования отражают последовательность фиксаций взгляда, а различия в них указывают на то, как участники обрабатывали визуальную информацию в видеороликах. Изменения в размере зрачка, связанные с когнитивной нагрузкой и вниманием, также отличались между просмотренными AI-сгенерированными и реальными видео. Эти различия в паттернах движения глаз и физиологической реакции зрачка позволяют предположить возможность использования данных о поведении взгляда для автоматического определения подлинности видеоматериалов.

Анализ поведения взгляда участников показал, что при просмотре видео, сгенерированных искусственным интеллектом, наблюдались более длительные фиксации на отдельных областях изображения. Это выражается в том, что взгляд зрителя задерживался на конкретных участках кадра значительно дольше, чем при просмотре реальных видеороликов. Предполагается, что данное явление связано с отсутствием естественной динамики визуального потока, характерной для видео, снятых человеком, что проявляется в более равномерном распределении внимания зрителя по всему кадру. Более продолжительные фиксации могут указывать на то, что зритель пытается обработать нетипичные или неестественные элементы в сгенерированном видео.

В ходе эксперимента по выявлению видеороликов, сгенерированных искусственным интеллектом, участники продемонстрировали среднюю точность в 66.4%. Этот показатель был получен на основе анализа ответов участников, которым предъявлялись как реальные, так и сгенерированные ИИ видеоролики. Точность 66.4% указывает на то, что, несмотря на растущее качество сгенерированных видео, у испытуемых сохраняется способность отличать их от реальных с вероятностью выше случайной, однако, значительный процент ошибок указывает на необходимость дальнейших исследований и разработки более эффективных методов обнаружения.

В ходе экспериментов по выявлению AI-сгенерированных видео, участники демонстрировали большее количество фиксаций взгляда (p<0.05) при оценке видеоматериалов, которые они считали реальными. Одновременно с этим, длительность этих фиксаций была значительно меньше (p<0.01) по сравнению с фиксациями при оценке AI-сгенерированных видео. Данные показатели свидетельствуют о том, что при восприятии реалистичных видео, взгляд участника охватывает больше точек, но за меньший промежуток времени, что может быть связано с более динамичным и естественным визуальным потоком.

Анализ паттернов визуального внимания, включающий сканирование взгляда и динамику размера зрачка, демонстрирует потенциал в качестве надежного индикатора подлинности видеоматериалов. Исследования показали статистически значимые различия в фиксациях и их длительности при просмотре видео, созданных искусственным интеллектом, по сравнению с реальными видеозаписями. В частности, наблюдалось увеличение количества фиксаций при оценке видео как реальных и сокращение их длительности (p<0.01) в процессе выявления сгенерированных ИИ материалов. Эти данные позволяют предположить, что объективные показатели внимания могут быть использованы для автоматизированной верификации видеоконтента и повышения его достоверности.

Анализ движения взгляда участников показал, что поведение глаз различается в зависимости от типа выполняемой задачи (понимание видео или обнаружение ИИ), источника видео (сгенерировано ИИ или реальное) и оценки видео (определено как сгенерированное ИИ или реальное).
Анализ движения взгляда участников показал, что поведение глаз различается в зависимости от типа выполняемой задачи (понимание видео или обнаружение ИИ), источника видео (сгенерировано ИИ или реальное) и оценки видео (определено как сгенерированное ИИ или реальное).

Стратегия Разума: Эффективные Подходы к Обнаружению AI-Видео

Исследование выявило значимость логической стратегии в обнаружении видео, сгенерированных искусственным интеллектом. Вместо полагания на интуицию, эффективное распознавание подделок связано с активным поиском аномалий и несоответствий в изображении. Участники, придерживающиеся логического подхода, целенаправленно анализировали детали, выявляя артефакты, которые указывают на машинное происхождение видеоматериала. Этот метод, в отличие от интуитивной оценки, позволяет более точно идентифицировать сгенерированный контент, поскольку опирается на конкретные признаки, а не на субъективное восприятие. Результаты показали, что логический подход коррелирует с более короткими саккадами — движениями глаз, что свидетельствует о более сфокусированном и целенаправленном визуальном поиске.

Исследование выявило, что стратегия, основанная на интуиции, оказалась менее надежной в процессе определения видео, созданных искусственным интеллектом. Участники, полагающиеся на первое впечатление и субъективные ощущения, демонстрировали более высокую вероятность ошибочной идентификации контента, принимая сгенерированные ИИ ролики за настоящие и наоборот. Неспособность к систематическому анализу и выявлению конкретных аномалий, характерная для интуитивного подхода, приводила к повышенной подверженности визуальным иллюзиям и неточностям, что, в свою очередь, снижало общую точность распознавания. Таким образом, полагаться исключительно на интуицию при определении подлинности видеоматериалов представляется рискованным, и требует дополнительной проверки.

В ходе исследования, проведенного с участием сорока испытуемых, было выявлено, что логический подход к определению видео, созданных искусственным интеллектом, преобладал среди участников — двадцать пять из сорока сознательно применяли стратегию, основанную на поиске аномалий и несоответствий в визуальном контенте. Данный результат указывает на то, что люди склонны активно анализировать видеоряд, выявляя признаки, указывающие на искусственное происхождение, вместо того чтобы полагаться на интуитивное ощущение. Преобладание логической стратегии подчеркивает важность разработки методов обнаружения, которые учитывают способность человека к критическому анализу и поиску закономерностей, что может существенно повысить эффективность выявления контента, сгенерированного ИИ.

Исследование показало, что у участников, применяющих логическую стратегию при выявлении видео, сгенерированных искусственным интеллектом, наблюдались значительно меньшие амплитуды саккад — быстрых движений глаз — во время просмотра (p<0.05). Этот факт указывает на более целенаправленный и сконцентрированный процесс визуального поиска, когда внимание направлено на выявление конкретных аномалий или несоответствий в видеоряде. В отличие от интуитивной стратегии, требующей более широкого охвата изображения, логический подход характеризуется точным и последовательным анализом, что проявляется в меньших перемещениях взгляда и, следовательно, в более коротких саккадах. Такая особенность свидетельствует о более эффективном использовании визуальной информации для решения поставленной задачи — идентификации искусственно созданного контента.

Исследование продемонстрировало, что выявленные закономерности в стратегиях обнаружения AI-видео не зависят от конкретного типа контента. Для проверки этой гипотезы использовались как видеоролики, демонстрирующие физические явления, так и профессионально смонтированные видеоматериалы. Анализ показал, что эффективность логической стратегии — активного поиска аномалий — сохраняется вне зависимости от сложности или тематики видеоряда. Это указывает на универсальность предложенного подхода к выявлению AI-генерируемого контента и его потенциальную применимость к широкому спектру визуальных материалов, включая сложные сцены и высококачественные видеопродукты, созданные, например, с помощью модели Google Veo.

Видео, сгенерированные передовой моделью Google Veo, представляют собой особую сложность для существующих методов обнаружения искусственного интеллекта из-за высокого уровня реалистичности и сложности генерируемого контента. Однако, проведенное исследование продемонстрировало, что применение логической стратегии анализа — активного поиска аномалий и несоответствий — позволяет с определенным успехом идентифицировать видеоролики, созданные Veo. Несмотря на то, что полная автоматизация обнаружения остается сложной задачей, полученные результаты указывают на перспективность данного подхода и необходимость дальнейшей разработки специализированных алгоритмов, способных эффективно выявлять следы генерации искусственным интеллектом даже в самых реалистичных видеоматериалах. Первичные тесты показали, что использование логической стратегии в сочетании с анализом параметров движения глаз, таких как амплитуда саккад, может служить надежным индикатором искусственного происхождения видеоконтента.

Анализ взгляда участников выявил, что использующие логическую стратегию при определении AI демонстрируют более целенаправленное распределение внимания, в отличие от полагающихся на интуицию, что проявляется в количестве фиксаций и амплитуде саккад.
Анализ взгляда участников выявил, что использующие логическую стратегию при определении AI демонстрируют более целенаправленное распределение внимания, в отличие от полагающихся на интуицию, что проявляется в количестве фиксаций и амплитуде саккад.

Исследование демонстрирует, что зрительное поведение человека при просмотре видеороликов, изображающих физические сцены, подвержено изменениям не столько под влиянием подлинности контента, сколько под воздействием когнитивных усилий, направленных на его оценку. Данный факт подтверждает важность не только самого визуального материала, но и ментального процесса анализа. Как заметил Г.Х. Харди: «Математика — это наука о том, что можно доказать». Аналогично, и в когнитивных науках, зрительное восприятие следует рассматривать не как пассивный процесс, а как активное построение реальности, подверженное проверке и корректировке на основе убеждений и попыток детекции, что и подтверждается изучением паттернов фиксации взгляда при просмотре AI-генерируемых видео.

Куда же это ведёт?

Представленное исследование, хотя и выявляет корреляцию между убеждениями о подлинности видео и паттернами взгляда, оставляет без ответа фундаментальный вопрос: действительно ли мы способны достоверно различать искусственное и реальное, или же наше восприятие — лишь сложная конструкция, подверженная внушению и когнитивным искажениям? Наблюдаемый сдвиг во внимании при попытке детектирования не гарантирует объективности, а лишь указывает на активизацию определённых процессов анализа, которые могут быть столь же ошибочными, как и отсутствие таковых.

Будущие исследования должны сосредоточиться не на поиске «маркеров» искусственности, а на разработке математически строгих моделей человеческого восприятия. Необходимо установить, какие доказуемые признаки в визуальном потоке действительно влияют на наше суждение о реальности, а не просто коррелируют с ним. Попытки создать «неразличимые» видео бессмысленны, если мы не понимаем, что вообще означает «различимость» с точки зрения когнитивной науки.

В конечном счете, упор должен быть сделан на разработку систем, которые не пытаются обмануть зрителя, а предоставляют ему прозрачную информацию о происхождении видеоряда. Достоверность не достигается путем имитации, а путем открытости и верификации. Если результат нельзя воспроизвести и проверить, он, по сути, лишен ценности.


Оригинал статьи: https://arxiv.org/pdf/2602.03374.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-05 01:45