Эмоции на экране: что могут распознать современные ИИ?

Автор: Денис Аветисян


Новое исследование оценивает возможности больших языковых моделей с мультимодальными возможностями в анализе эмоционального состояния по видеозаписям политических выступлений.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Оценка интенсивности эмоций в видео, полученная с помощью больших языковых моделей (mLLM), демонстрирует корреляцию с оценками, данными людьми-кодировщиками на наборе данных RAVDESS, при этом представленные значения корреляции отличаются от ранее опубликованных из-за использования точечных оценок вместо бутстрап-усредненных.
Оценка интенсивности эмоций в видео, полученная с помощью больших языковых моделей (mLLM), демонстрирует корреляцию с оценками, данными людьми-кодировщиками на наборе данных RAVDESS, при этом представленные значения корреляции отличаются от ранее опубликованных из-за использования точечных оценок вместо бутстрап-усредненных.

Систематический анализ эффективности мультимодальных больших языковых моделей в оценке эмоционального возбуждения, с акцентом на политическую коммуникацию и видеопонимание.

Несмотря на растущий интерес к автоматическому анализу эмоций в политической коммуникации, эффективность современных мультимодальных больших языковых моделей (mLLM) в этой области остается недостаточно изученной. Настоящая работа, озаглавленная ‘Computational emotion analysis with multimodal LLMs: Current evidence on an emerging methodological opportunity’, систематически оценивает возможности mLLM в измерении эмоционального возбуждения по видеозаписям политических выступлений. Полученные результаты показывают, что, несмотря на перспективность, производительность mLLM ограничена и часто не превосходит более простые методы, особенно при анализе реальных парламентских дебатов. Сможем ли мы в полной мере реализовать потенциал генеративного ИИ в политическом анализе, или потребуются принципиально новые подходы к обработке и интерпретации эмоциональных сигналов?


Распознавание Эмоций: Между Теорией и Практикой

Точное распознавание эмоций играет ключевую роль в развитии эффективного взаимодействия человека и компьютера, однако существующие методы зачастую сталкиваются с трудностями при анализе реальных данных. Сложность заключается в том, что эмоциональные проявления редко бывают однозначными и зависят от множества факторов — индивидуальных особенностей, контекста ситуации и даже культурных различий. Большинство современных систем, ориентированных на определение эмоционального состояния, испытывают затруднения при обработке зашумленных или неполных данных, что приводит к ошибкам в распознавании и снижает эффективность взаимодействия. Поэтому разработка алгоритмов, способных учитывать многообразие и нюансы человеческих эмоций в условиях реального мира, представляет собой сложную, но крайне важную задачу для дальнейшего развития технологий искусственного интеллекта.

Эмоциональные проявления человека по своей природе неоднозначны и подвержены значительным вариациям, зависящим как от индивидуальных особенностей личности, так и от конкретного контекста ситуации. Эта сложность требует разработки надежных аналитических методов, способных учитывать многогранность эмоционального спектра и адаптироваться к различным условиям. Традиционные подходы, фокусирующиеся на отдельных каналах коммуникации, часто оказываются недостаточными для точной интерпретации эмоционального состояния, поскольку упускают важные нюансы, выражающиеся через комбинацию вербальных и невербальных сигналов. Поэтому, для достижения высокой точности распознавания эмоций, необходимо применять сложные алгоритмы, способные интегрировать данные из различных источников и учитывать индивидуальные и контекстуальные факторы, влияющие на выражение чувств.

Традиционные методы распознавания эмоций зачастую ограничиваются анализом данных из одного источника, например, только текстовой информации или звукового сигнала. Однако, эмоциональное состояние человека редко выражается исключительно одним каналом коммуникации. Лицо, тон голоса, язык тела и контекст ситуации — все эти элементы взаимосвязаны и несут важную информацию. Игнорирование этих дополнительных каналов приводит к неполному и, следовательно, неточному пониманию истинных эмоций. Многоканальный анализ, учитывающий совокупность вербальных и невербальных сигналов, позволяет значительно повысить надежность распознавания эмоций, приближая взаимодействие человека и машины к естественному и интуитивно понятному уровню.

Распределение оценок интенсивности эмоций, полученных на основе видео, различается в зависимости от категории эмоций, уровня стимуляции и метода оценки (средние оценки людей или mLLM).
Распределение оценок интенсивности эмоций, полученных на основе видео, различается в зависимости от категории эмоций, уровня стимуляции и метода оценки (средние оценки людей или mLLM).

Мультимодальные LLM: Новый Шаг в Эмоциональном AI

Мультимодальные большие языковые модели (LLM) представляют собой существенный прогресс в области искусственного интеллекта, поскольку они позволяют объединять и анализировать данные из различных источников — текста, изображений и аудио. В отличие от традиционных моделей, обрабатывающих только текст, мультимодальные LLM способны учитывать невербальные сигналы, такие как выражения лица, тон голоса и контекст визуальной информации, что значительно повышает точность и глубину понимания эмоций. Эта интеграция различных типов данных позволяет моделям формировать более полное и нюансированное представление эмоционального состояния, что открывает новые возможности для приложений в области анализа настроений, разработки эмпатичных виртуальных ассистентов и улучшения взаимодействия человека с компьютером.

Эффективность мультимодальных больших языковых моделей (LLM) в распознавании эмоций напрямую зависит от метода обучения в контексте (In-Context Learning). Данный подход предполагает использование тщательно разработанных запросов (prompt engineering), которые направляют модель на идентификацию и интерпретацию эмоциональных сигналов, содержащихся в различных модальностях данных (текст, изображения, звук). Вместо традиционного переобучения модели для каждой новой эмоции, In-Context Learning позволяет адаптировать существующую модель, предоставляя ей примеры эмоционально окрашенных данных непосредственно в запросе. Качество и структура этих примеров, а также формулировка самого запроса, критически влияют на точность распознавания эмоций, поскольку модель, по сути, учится соотносить входные данные с ожидаемыми эмоциональными категориями на основе представленного контекста.

Модели Gemini 2.5 Flash и Qwen 2.5 Omni демонстрируют передовые возможности в многомодальном анализе эмоций, обрабатывая и интерпретируя данные из различных источников, таких как текст, изображения и звук. Несмотря на впечатляющую производительность в задачах распознавания эмоциональной окраски контента, текущий уровень корреляции результатов, выдаваемых этими моделями, с оценками, полученными от людей-аннотаторов, остается ограниченным. Это указывает на необходимость дальнейшей оптимизации и разработки методов для повышения точности и надежности автоматического анализа эмоций, приближая результаты машинного обучения к субъективному восприятию человека.

Сравнение оценки тональности видео и текста моделями Gemini 2.5 Flash и Qwen 2.5 на данных Cochrane et al. показало, что использование видео в обучении с небольшим количеством примеров (ICL) может как улучшить, так и ухудшить результаты по сравнению с использованием текста, в зависимости от метрики и размера модели.
Сравнение оценки тональности видео и текста моделями Gemini 2.5 Flash и Qwen 2.5 на данных Cochrane et al. показало, что использование видео в обучении с небольшим количеством примеров (ICL) может как улучшить, так и ухудшить результаты по сравнению с использованием текста, в зависимости от метрики и размера модели.

Данные и Производительность: Где Скрываются Ошибки

Надежность систем распознавания эмоций напрямую зависит от соотношения сигнал/шум ($SNR$) во входных данных. Низкое $SNR$ приводит к неточной идентификации эмоциональных состояний из-за искажений, вызванных шумом, артефактами или низким качеством видео. Для повышения точности необходимо применение надежных методов предварительной обработки видео, включающих фильтрацию шумов, коррекцию освещения, нормализацию данных и удаление артефактов. Эти техники позволяют выделить значимые признаки эмоционального выражения, минимизируя влияние нерелевантной информации и повышая стабильность работы алгоритмов распознавания эмоций.

Популярные наборы данных для обучения моделей распознавания эмоций, такие как RAVDESS и Cochrane et al., предоставляют ценные ориентиры для оценки производительности, однако их ограниченный охват и искусственно созданные условия могут существенно снижать способность моделей к обобщению в реальных сценариях. Эти наборы данных, как правило, содержат ограниченное количество актеров, эмоций и вариаций в выражении, что приводит к переобучению и неспособности адекватно обрабатывать более широкий спектр эмоциональных проявлений, встречающихся в неконтролируемой среде. Отсутствие шумов, различных условий освещения и естественных движений головы и тела, характерных для реальных видеозаписей, также ограничивает применимость моделей, обученных на этих данных, к практическим задачам.

Оценка производительности моделей распознавания эмоций требует проведения тщательной ручной аннотации данных для создания эталонной истины, гарантирующей соответствие моделей человеческому восприятию эмоциональных выражений. В настоящее время наблюдается слабая корреляция между результатами, демонстрируемыми мультимодальными большими языковыми моделями (mLLM), и оценками, полученными в результате человеческой аннотации, что подтверждается коэффициентом корреляции Пирсона (r) равным всего 0.119 при решении сложных задач. Это указывает на существенные расхождения между автоматическим анализом и субъективным восприятием эмоций, подчеркивая необходимость дальнейшего улучшения алгоритмов и более точных методов оценки.

Оценка интенсивности эмоций на основе видео показала, что многоязыковые модели (mLLM) демонстрируют различную производительность в зависимости от пола говорящего в датасете RAVDESS, измеряемую корреляцией и среднеквадратичной ошибкой с 90% доверительным интервалом.
Оценка интенсивности эмоций на основе видео показала, что мультимодальные большие языковые модели (mLLM) демонстрируют различную производительность в зависимости от пола говорящего в датасете RAVDESS, измеряемую корреляцией и среднеквадратичной ошибкой с 90% доверительным интервалом.

За Пределами Текущих Ограничений: Путь к Надежному Эмоциональному AI

Способность модели распознавать эмоции напрямую зависит от её вычислительной мощности и сложности архитектуры. Исследования показывают, что для улавливания тончайших нюансов эмоциональных проявлений, таких как едва заметные изменения мимики или интонации, необходимы модели, способные обрабатывать огромные объемы данных и выявлять сложные взаимосвязи. Развитие архитектур, основанных на глубоком обучении, и применение передовых методик обучения, таких как трансферное обучение и самообучение, являются ключевыми направлениями для повышения точности и надежности систем искусственного интеллекта, способных к распознаванию эмоций. Повышение ёмкости модели позволяет ей лучше обобщать информацию и адаптироваться к различным условиям, что критически важно для применения в реальных сценариях, где эмоциональные выражения могут быть неоднозначными или зашумленными.

Будущие исследования в области искусственного интеллекта, способного распознавать эмоции, должны быть сосредоточены на разработке методов снижения влияния помех и повышения качества данных, особенно в неконтролируемых, реальных условиях. Несмотря на предпринятые усилия по уменьшению шума в данных, статистически значимого улучшения производительности обнаружено не было. Этот факт указывает на то, что простое устранение шума недостаточно для достижения существенного прогресса. Необходимо учитывать более сложные факторы, влияющие на точность распознавания эмоций, такие как контекст, индивидуальные особенности выражения эмоций и вариативность в данных, полученных из разных источников. Дальнейшие разработки должны включать в себя новые подходы к фильтрации данных, алгоритмы, устойчивые к шуму, и методы обучения моделей, способные эффективно извлекать полезную информацию даже из зашумленных данных.

Интеграция мультимодальных больших языковых моделей (LLM) открывает новые перспективы в таких областях, как мониторинг психического здоровья и персонализированное образование, обещая качественно изменить подходы к пониманию и реагированию на человеческие эмоции. Однако, проведенные исследования показывают, что на текущем этапе развития, видеоданные вносят ограниченный вклад в задачи распознавания эмоций. Высокая корреляция ($0.711$) между текстовыми данными и оценками эмоционального возбуждения, полученными от людей, указывает на то, что значительная часть информации об эмоциональном состоянии уже содержится в тексте, а добавление видеоряда не всегда существенно повышает точность распознавания. Это подчеркивает необходимость дальнейших исследований, направленных на более эффективное использование и интеграцию различных модальностей данных для достижения более глубокого и точного понимания эмоционального состояния человека.

Оценка интенсивности эмоций на основе видео показала, что мультимодальные большие языковые модели (mLLM) демонстрируют корреляцию с оценками экспертов и низкую среднеквадратичную ошибку (RMSE) при 3-shot обучении на наборе данных RAVDESS, при этом доверительные интервалы (черные линии) указывают на стабильность результатов.
Оценка интенсивности эмоций на основе видео показала, что мультимодальные большие языковые модели (mLLM) демонстрируют корреляцию с оценками экспертов и низкую среднеквадратичную ошибку (RMSE) при 3-shot обучении на наборе данных RAVDESS, при этом доверительные интервалы (черные линии) указывают на стабильность результатов.

Исследование, посвящённое оценке эмоционального возбуждения в политических выступлениях с помощью мультимодальных больших языковых моделей (mLLM), закономерно выявило ограничения в их практическом применении. Как часто бывает, элегантная теория сталкивается с суровой реальностью продакшена. Тим Бернерс-Ли однажды заметил: «Веб — это не только о технологиях, но и о людях». Данное исследование, подтверждая эту мысль, демонстрирует, что даже самые передовые модели не могут заменить глубокое понимание контекста и нюансов человеческой коммуникации. Оценка эмоционального возбуждения, несмотря на кажущуюся простоту, требует учета множества факторов, которые mLLM пока не способны полностью охватить. Попытки автоматизировать этот процесс, как показывает практика, нередко приводят к упрощениям и неточностям.

Что дальше?

Полагать, что многомодальные большие языковые модели (mLLM) станут универсальным решением для анализа эмоциональной окраски политических речей — наивно. Данная работа, как и многие другие, аккуратно демонстрирует, что обещания искусственного интеллекта часто опережают реальность. Модели показывают некоторую перспективу, но не превосходят более простые, проверенные временем методы. Это закономерно: элегантная теория всегда сталкивается с жестокой реальностью продакшена.

Вместо гонки за все более сложными моделями, вероятно, стоит сосредоточиться на решении фундаментальных проблем. Как извлечь из видеоданных действительно значимую информацию? Как учесть контекст, культурные особенности и тонкости языка, которые ускользают от алгоритмов? Автоматизация, конечно, прекрасна, но нужно помнить: уже виден скрипт, удаляющий прод.

Будущие исследования, вероятно, сосредоточатся на гибридных подходах, объединяющих сильные стороны как сложных моделей, так и проверенных методов анализа. И, конечно, на сборе данных, которые не будут представлять собой очередной «зоопарк» разметки, созданный энтузиастами, а будут отражать реальное разнообразие человеческих эмоций. Каждая «революционная» технология завтра станет техдолгом — это следует помнить.


Оригинал статьи: https://arxiv.org/pdf/2512.10882.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-13 08:10