Иллюзии перспективы для нейросетей: как научить модели «видеть» по-новому

Автор: Денис Аветисян

Новый подход позволяет мультимодальным нейросетям лучше понимать пространственные отношения и изменять точку зрения на изображениях.

Использование обратной трансформации токенов с адаптивным поиском позволяет модели более точно идентифицировать объекты, расположенные с правой стороны от белой кружки - в данном случае, бутылку и напиток в ней - в отличие от прямой трансформации, которая из-за искажений приводит к ошибочной интерпретации и описанию элементов как “куска ткани” или “части сумки”, невидимых в целевом изображении, что демонстрирует эффективность предложенного метода переноса информации из исходного изображения в целевую точку обзора. — Использование обратной трансформации токенов с адаптивным поиском позволяет модели более точно идентифицировать объекты, расположенные с правой стороны от белой кружки — в данном случае, бутылку и напиток в ней — в отличие от прямой трансформации, которая из-за искажений приводит к ошибочной интерпретации и описанию элементов как “куска ткани” или “части сумки”, невидимых в целевом изображении, что демонстрирует эффективность предложенного метода переноса информации из исходного изображения в целевую точку обзора.

В статье представлена техника «точечной трансформации» (token warping), позволяющая улучшить способность моделей к пространственному мышлению и представлению визуальной информации с разных точек зрения.

Несмотря на успехи мультимодальных больших языковых моделей (MLLM) в визуальном рассуждении, их устойчивость к изменениям точки обзора остаётся проблемой. В работе ‘Token Warping Helps MLLMs Look from Nearby Viewpoints’ предложен новый подход, основанный на переносе токенов изображения вместо непосредственной деформации пикселей, для обеспечения более надёжного пространственного рассуждения. Показано, что обратная деформация токенов, определяющая плотную сетку на целевом виде и извлекающая соответствующие исходные токены, обеспечивает большую стабильность и сохранение семантической связности при смене точки зрения. Может ли этот метод точечной деформации стать ключевым шагом к созданию MLLM, способных к более гибкому и реалистичному пониманию визуального мира?

Вызов пространственного понимания в мультимодальных моделях

Несмотря на значительный прогресс в области мультимодального обучения, современные модели испытывают трудности при решении задач, требующих развитого пространственного мышления, особенно когда меняется точка обзора. Существующие алгоритмы зачастую не способны адекватно интерпретировать взаимосвязь между объектами и их расположением в пространстве при изменении перспективы, что приводит к ошибкам в задачах, связанных с навигацией, распознаванием объектов и пониманием сцены. Например, модель может успешно идентифицировать предмет на фотографии, но не сможет определить его местоположение относительно других объектов при повороте изображения или изменении угла зрения. Эта проблема ограничивает возможности применения мультимодальных моделей в реальных условиях, где перспектива постоянно меняется, и требует разработки новых подходов к обучению, учитывающих геометрические преобразования и пространственные отношения.

Существующие эталонные наборы данных для оценки мультимодальных моделей часто оказываются недостаточно сложными для адекватной проверки способности к обобщению при изменении точки зрения. В большинстве случаев они содержат упрощенные сцены и ограниченное количество вариаций в перспективе, что позволяет моделям успешно справляться с задачами, но не демонстрирует реальное понимание пространственных отношений. Это приводит к ситуации, когда модель может «выучить» конкретные примеры, но не способна применять знания к новым, незнакомым ситуациям с отличающейся перспективой, что серьезно ограничивает ее возможности в задачах, требующих навигации и взаимодействия с реальным миром. Таким образом, для создания действительно интеллектуальных мультимодальных систем необходимы более сложные и разнообразные эталонные наборы данных, способные выявлять истинную способность моделей к пространственному мышлению и обобщению.

Ограниченность пространственного понимания у мультимодальных моделей (MLLM) существенно замедляет прогресс в создании систем, способных эффективно функционировать в реальном мире. Неспособность адекватно интерпретировать и обрабатывать информацию о пространственных отношениях препятствует разработке роботов, автономных транспортных средств и виртуальных помощников, которым требуется точное восприятие окружения для навигации, манипулирования объектами и взаимодействия с пользователем. Отсутствие надежной ориентации в пространстве приводит к ошибкам в принятии решений и снижает общую надежность таких систем, что делает критически важным дальнейшее исследование и совершенствование методов пространственного рассуждения в MLLM для достижения полноценной интеграции искусственного интеллекта в повседневную жизнь.

ViewBench - это новый бенчмарк, оценивающий способность мультимодальных больших языковых моделей (MLLM) к выводу пространственных взаимосвязей и устойчивости к изменениям точки зрения при описании объектов и их свойств. — ViewBench — это новый бенчмарк, оценивающий способность мультимодальных больших языковых моделей (MLLM) к выводу пространственных взаимосвязей и устойчивости к изменениям точки зрения при описании объектов и их свойств.

Представляем ViewBench: Эталон для пространственной устойчивости

ViewBench — это новый оценочный набор данных, разработанный для всесторонней проверки способности мультимодальных больших языковых моделей (MLLM) к рассуждениям о сценах с различных точек зрения. В отличие от существующих бенчмарков, фокусирующихся преимущественно на анализе изображений с одной перспективы, ViewBench предоставляет MLLM возможность обрабатывать и интерпретировать информацию, полученную из множества визуальных точек, что позволяет более точно оценить их пространственное понимание и способность к логическим выводам на основе трехмерной информации. Такой подход необходим для оценки надежности и обобщающей способности MLLM в реальных приложениях, где понимание сцены с разных ракурсов является критически важным.

В основе ViewBench лежит использование масштабных 3D-реконструкций, полученных из датасета ScanNet. ScanNet предоставляет обширную коллекцию реалистичных 3D-моделей интерьеров, полученных с помощью сканирования. Эти модели служат базовой средой для генерации разнообразных визуальных сцен и проверки способности MLLM-моделей к пространственному рассуждению с различных точек зрения. Использование ScanNet позволяет обеспечить реалистичность и разнообразие тестовых сцен, а также предоставляет возможность оценки производительности моделей в сложных условиях.

Ключевым аспектом ViewBench является использование многовидовых данных, сгенерированных с помощью движка MultiSPA. Данный движок обеспечивает создание разнообразных и сложных сцен, представляющих собой набор изображений одного и того же окружения, снятых с различных точек обзора. MultiSPA позволяет генерировать данные с различными уровнями окклюзии, освещения и шума, что необходимо для всесторонней оценки способности моделей мультимодального восприятия (MLLM) к пространственному рассуждению и пониманию сцены. Использование MultiSPA гарантирует, что данные для ViewBench не ограничиваются простыми или идеально структурированными случаями, а включают в себя реалистичные сложности, встречающиеся в реальных 3D-сценах.

Бенчмарк ViewBench использует специально разработанный конвейер обработки данных для формирования сложных вопросов и ответов. Этот конвейер включает в себя несколько этапов фильтрации и трансформации данных, полученных из ScanNet. На первом этапе отбрасываются сцены, не соответствующие определенным критериям качества и сложности. Далее, генерируются вопросы, требующие пространственного рассуждения и понимания взаимосвязей между объектами в сцене. Для повышения сложности, вопросы формулируются таким образом, чтобы требовать интеграции информации из нескольких видов. Окончательный набор вопросов и ответов проходит ручную проверку на корректность и однозначность, чтобы обеспечить надежность оценки моделей MLLM.

Эксперименты с CV-Bench-2D показали, что токенные представления в многомодальных моделях демонстрируют высокую устойчивость к шумам, вызванным локальными смещениями позиций токенов, что указывает на их способность эффективно представлять изменения точки зрения.

Количественная оценка вариации точки обзора и перекрытия сцены

Для точной оценки производительности ViewBench использует метрики, количественно определяющие степень изменения угла обзора между изображениями. Эти метрики включают в себя вычисление угловых различий и трансляционных смещений между точками на изображениях, что позволяет численно оценить сложность задачи сопоставления изображений с разных перспектив. Использование таких количественных показателей позволяет избежать субъективности в оценке и обеспечивает воспроизводимость результатов, что критически важно для сравнения различных алгоритмов и моделей компьютерного зрения. Точность определения изменений угла обзора напрямую влияет на оценку способности моделей к обобщению и устойчивости к изменениям перспективы.

Коэффициент перекрытия (Overlap Ratio) используется для количественной оценки доли общих элементов сцены, присутствующих на двух изображениях, полученных с разных точек зрения. Этот показатель служит важной метрикой сложности задачи, поскольку меньшее перекрытие указывает на необходимость более сложных пространственных рассуждений для установления соответствия между элементами сцены. Чем ниже коэффициент перекрытия, тем сложнее задача для алгоритма, поскольку требуется установить соответствие между элементами, которые частично или полностью не видны на обоих изображениях. Поэтому, при создании и оценке алгоритмов компьютерного зрения, коэффициент перекрытия активно используется для контроля и сравнения сложности решаемых задач.

Вопросы в ViewBench специально разработаны для проверки способности модели к пространственному мышлению, используя принцип ко-видимости — свойство точек быть видимыми одновременно с обеих точек обзора. Это означает, что вопросы строятся таким образом, чтобы успешное решение требовало от модели установления связи между объектами или точками, которые присутствуют в обоих изображениях, несмотря на изменение перспективы. Ко-видимость служит ключевым фактором, определяющим сложность задачи, поскольку требует от модели не только распознавания объектов, но и понимания их трехмерного положения и взаимной видимости из разных точек обзора. Использование ко-видимости позволяет более точно оценить способность модели к пространственному рассуждению и пониманию геометрии сцены.

В ходе экспериментов было показано, что использование обратной токенизированной деформации (backward token warping) обеспечивает точность в 70.99% на наборе данных ViewBench-Shape при перекрытии изображений (Overlap Ratio) в диапазоне 5-15%. Данный подход демонстрирует значительное превосходство над альтернативными методами, использующими, например, пиксельную деформацию. Полученные результаты подтверждают эффективность обратной токенизированной деформации в задачах, требующих оценки изменений в перспективе и сопоставления сцен при ограниченном перекрытии изображений.

В ходе экспериментов на наборе данных ViewBench-Shape было установлено, что применение обратного (backward) преобразования токенов демонстрирует улучшение точности на 14.57% по сравнению с преобразованием на уровне пикселей (pixel-wise warping). Данное улучшение наблюдалось при одинаковом диапазоне перекрытия изображений (overlap) — от 5% до 15%. Полученные результаты указывают на эффективность обратного преобразования токенов для задач, требующих учета геометрических преобразований и пространственного распознавания.

В ходе экспериментов на наборе данных ViewBench-Text, при диапазоне перекрытия сцены от 5% до 15%, удалось достичь коэффициента перекрытия (Overlap Ratio) в 65.84%. Данный результат был получен с использованием метода обратной трансформации токенов (backward token warping) и оценок глубины. Применение данного подхода позволило эффективно оценивать степень соответствия между различными точками зрения и повысить точность анализа визуальной информации в условиях частичного перекрытия сцен.

При оценке результатов экспериментов с ViewBench, модель Qwen2.5-14B, используемая в качестве оценивающего компонента, последовательно демонстрировала превосходство предлагаемого подхода по сравнению с альтернативными методами. Систематический анализ показал, что Qwen2.5-14B более точно определяет корректность ответов и обеспечивает более надежную оценку эффективности алгоритмов, особенно в условиях значительного изменения точки зрения и частичного перекрытия сцены. Это подтверждается более высокими показателями точности и согласованности оценок, полученными при использовании Qwen2.5-14B в качестве эталонного оценивающего инструмента.

В отличие от прямой трансформации токенов, приводящей к разреженному и нерегулярному представлению, обратная трансформация с ближайшим поиском создает плотную и упорядоченную сетку токенов, что позволяет модели правильно определять пространственные отношения между объектами на изображении (например, между рамкой и подушкой).

Исследование демонстрирует элегантный подход к решению задачи пространственного мышления в мультимодальных больших языковых моделях. Авторы предлагают метод переноса токенов, позволяющий модели воспринимать сцену с разных точек зрения, что значительно улучшает её способность к рассуждениям. Этот подход, избегающий сложных пиксельных преобразований, подчеркивает важность гармонии между формой и функцией в проектировании искусственного интеллекта. Как однажды заметил Дэвид Марр: «Понимание зрения — это понимание того, как мир представлен в мозге». Эта фраза прекрасно отражает суть данной работы — стремление к созданию моделей, способных не просто видеть, но и понимать визуальную информацию, подобно человеку, что, безусловно, приближает нас к созданию действительно интеллектуальных систем.

Куда же дальше?

Представленная работа, безусловно, демонстрирует элегантность подхода к проблеме пространственного рассуждения в мультимодальных языковых моделях. Перенос токенов, как метод трансформации перспективы, оказался более эффективным, чем прямолинейное искажение пикселей — что, впрочем, не должно удивлять. Грубая сила редко приносит изящные решения. Однако, истинная гармония заключается не просто в достижении лучших показателей, но и в понимании ограничений.

Очевидно, что текущий метод, хотя и успешен, опирается на определённые предположения о структуре изображения и логике переноса токенов. Вопрос о том, насколько универсален этот подход для изображений, радикально отличающихся по содержанию и композиции, остаётся открытым. Более того, по-настоящему интеллектуальное пространственное рассуждение требует не только изменения перспективы, но и формирования полноценного ментального образа — задачи, которая, похоже, всё ещё далёка от решения.

В дальнейшем, представляется целесообразным исследовать возможности объединения токенового искажения с другими методами, такими как нейронные поля излучения, для создания более полных и детализированных ментальных представлений. И, возможно, самое главное — следует помнить, что элегантность — это не только красота, но и функциональность. Истинный прогресс заключается в создании систем, которые не просто имитируют интеллект, но и понимают его суть.

Оригинал статьи: https://arxiv.org/pdf/2604.02870.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-06 19:35

🚀 Квантовые новости

Вызов пространственного понимания в мультимодальных моделях

Представляем ViewBench: Эталон для пространственной устойчивости

Количественная оценка вариации точки обзора и перекрытия сцены

Куда же дальше?

Смотрите также: