Иллюзии Схожести: Как Неточности Обманывают Визуально-Языковые Модели

Новое исследование показывает, что добавление ложных деталей в текстовые описания изображений может неожиданно повысить оценку схожести, демонстрируя уязвимость современных моделей.



![В рамках оптической визуализации, метод восстановления фазы на основе кватернионов и дифракционной картины Фурье позволяет реконструировать RGB-изображения, используя кодирующую дифракционную оптическую решетку (DOE) и кватернионное преобразование Фурье, при этом наблюдается фазовый переход в зависимости от сложности выборки [latex]m/n[/latex] и параметров кодирования [latex]d[/latex], что демонстрирует возможность точной реконструкции изображения при оптимальном выборе параметров.](https://arxiv.org/html/2602.23946v1/2602.23946v1/x3.png)
![Объединение поиска моды и среднего значения реализовано посредством общего кодировщика долгого контекста [latex]E_{\phi}[/latex], преобразующего зашумленные латентные векторы длинных видео [latex]x_{t}^{long}[/latex] в унифицированное представление [latex]h_{t}[/latex], после чего два облегчённых декодера - Flow Matching [latex]D^{\text{FM}}_{\theta}[/latex], обучаемый на реальных длинных видео для поиска среднего, и Distribution Matching [latex]D^{\text{DM}}_{\psi}[/latex], использующий обратное KL-выравнивание с экспертным коротким видео в стиле DMD/VSD для поиска моды - независимо извлекают векторы скорости, совместно обновляя кодировщик, но получая сигналы, соответствующие лишь своей задаче.](https://arxiv.org/html/2602.24289v1/2602.24289v1/x2.png)
