Запутанные линии: Новый тест для искусственного интеллекта

Автор: Денис Аветисян

Ученые представили масштабный набор данных и эталон для оценки способности моделей искусственного интеллекта понимать и анализировать сложные пространственные отношения между кривыми на изображениях.

Набор данных CurveBench демонстрирует репрезентативные примеры из каждой категории, позволяя оценить и сравнить различные подходы к решению задач, связанных с кривыми.

CurveBench — это новый бенчмарк для точного топологического рассуждения, основанный на анализе вложенных жордановых кривых и использующий методы обучения с подкреплением и модели «зрение-язык».

Несмотря на кажущуюся простоту задачи понимания пространственных отношений, современные модели машинного зрения испытывают трудности с точным определением топологической структуры изображений. В данной работе представлена новая методика и бенчмарк, ‘CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves’, предназначенный для оценки способности моделей к точному топологическому рассуждению на основе визуальной информации. CurveBench состоит из 756 изображений с непересекающимися замкнутыми кривыми и аннотирован с помощью деревьев, кодирующих вложенность областей, при этом даже самые передовые модели, такие как Gemini 3.1 Pro, демонстрируют точность лишь в 71.1% на простых конфигурациях. Какие архитектурные и алгоритмические решения необходимы для достижения существенного прогресса в области визуального понимания топологических отношений и преодоления ограничений существующих подходов?

О сложности понимания вложенности: проблема для современных моделей

Современные модели, объединяющие зрение и язык, зачастую испытывают трудности при решении задач, требующих понимания иерархического включения объектов — то есть, определения, какие области изображения находятся внутри других. Эта проблема проявляется в неспособности корректно идентифицировать вложенные объекты и их пространственные отношения. Исследования показывают, что модели испытывают сложности в определении, например, находится ли чашка внутри шкафа или книга лежит на столе, что существенно ограничивает их возможности в задачах, требующих детального анализа сцены и понимания контекста. Несмотря на значительные успехи в обработке изображений и понимании естественного языка, способность к точному определению вложенности объектов остается узким местом, препятствующим созданию по-настоящему интеллектуальных систем.

Реальные зрительные сцены редко представляют собой плоскую последовательность отдельных объектов; напротив, они характеризуются иерархической структурой, где предметы содержатся внутри других, образуя сложные вложенные отношения. Эта фундаментальная особенность визуального мира требует от систем компьютерного зрения не просто распознавания отдельных объектов, но и понимания их топологической организации — как они связаны друг с другом в пространстве. Способность к такому “топологическому мышлению” является критически важной, поскольку позволяет системе правильно интерпретировать сцену, выделять значимые детали и делать обоснованные выводы о ее структуре и содержании. Отсутствие этой способности значительно ограничивает возможности современных моделей обработки изображений, особенно в задачах, требующих глубокого понимания контекста и сложных пространственных взаимосвязей.

Точное определение отношений вложенности объектов играет ключевую роль в развитии систем машинного зрения и робототехники. Способность распознавать, какие элементы содержатся внутри других, необходима для выполнения сложных задач, таких как манипулирование объектами роботом. Например, для того чтобы робот смог аккуратно убрать со стола чашку, стоящую в блюдце, он должен понимать, что блюдце содержит чашку. Аналогично, для детального анализа изображений и понимания сцены, система должна уметь выявлять и интерпретировать вложенные объекты — от распознавания предметов, находящихся в контейнерах, до анализа архитектурных структур. Без этой способности, полноценное взаимодействие с реальным миром и глубокое понимание визуальной информации остаются недостижимыми.

Таблица демонстрирует отображение регионов на древовидную структуру, определяя их топологическую организацию.

CurveBench: новый инструмент для оценки топологического понимания

CurveBench представляет собой новый набор данных и оценочную структуру, разработанную для целенаправленной проверки способности визуально-языковых моделей (VLM) к топологическому мышлению. В отличие от существующих бенчмарков, которые часто фокусируются на распознавании объектов или понимании сцен, CurveBench сконцентрирован на оценке способности модели понимать пространственные отношения, такие как вложение и связность. Это достигается путем предоставления контролируемых изображений, в которых ключевым элементом является топологическая структура, а не семантическое содержание. Набор данных позволяет точно измерить, насколько хорошо модель может определять и понимать фундаментальные топологические свойства изображений, что необходимо для решения задач, требующих пространственного рассуждения.

Набор данных CurveBench построен на основе кривых Жордана — замкнутых линий, не имеющих самопересечений. Изображения формируются путем создания различных уровней вложенности этих кривых друг в друга. Такой подход позволяет создать контролируемую среду для оценки способности визуальных языковых моделей (VLM) к топологическому мышлению, поскольку сложность сцены определяется исключительно количеством и структурой вложенных кривых, исключая влияние других визуальных факторов. Вложенность кривых варьируется, обеспечивая широкий спектр сложности для тестирования, от простых, не вложенных кривых до сложных сцен с множественными уровнями вложенности.

Для обеспечения точного сопоставления выявленных отношений вложенности, как в эталонных данных, так и в результатах работы моделей, используется представление в виде ‘Корневых Деревьев’. В данном формате каждый замкнутый контур (Jordan Curve) является узлом дерева, а отношения вложенности одного контура внутри другого определяют родительско-дочерние связи. Такое представление позволяет количественно оценить точность выявления модели в определении иерархии вложенности контуров, используя метрики, сравнивающие структуру полученного корневого дерева с эталонным. Это обеспечивает объективную оценку способности модели к топологическому рассуждению, поскольку позволяет сравнивать не только наличие/отсутствие вложенности, но и корректность иерархической структуры.

Набор данных CurveBench демонстрирует иерархическое распределение кривых, позволяющее оценить способность алгоритмов к обобщению и решению задач различной сложности.

Детали реализации и аннотирования данных

Для получения точных меток истинности в CurveBench используется библиотека компьютерного зрения OpenCV, широко применяемая в задачах обработки изображений. OpenCV предоставляет набор инструментов и алгоритмов, необходимых для автоматизированной обработки изображений и выделения интересующих объектов. В частности, функциональность OpenCV позволяет эффективно обрабатывать изображения, необходимые для создания размеченных данных, и обеспечивает стабильность и воспроизводимость процесса аннотирования, что критически важно для обучения и оценки визуально-языковых моделей (VLMs). Использование OpenCV гарантирует надежную основу для создания крупномасштабного и точного набора данных.

Для точного определения границ кривых и областей, ограниченных ими, в CurveBench используются алгоритмы прослеживания контуров (Contour Following Algorithms) из библиотеки компьютерного зрения OpenCV. Эти алгоритмы позволяют последовательно обходить пиксели, формирующие границу объекта, идентифицируя замкнутые контуры и вычисляя их параметры, такие как длина и площадь. Реализация предполагает использование функций OpenCV, предназначенных для обнаружения и анализа контуров на изображениях, что обеспечивает автоматизированное и эффективное создание аннотаций для больших наборов данных.

Автоматизированное создание масштабного, точно размеченного набора данных является ключевым аспектом CurveBench. Использование алгоритмов следования по контуру из библиотеки OpenCV позволяет последовательно и эффективно выделять границы кривых и определять охватываемые ими области. Этот процесс обеспечивает генерацию большого объема данных с высокой точностью, что критически важно для обучения и оценки визуально-языковых моделей (VLM). Полученный набор данных позволяет проводить надежный анализ производительности и сравнительную оценку различных VLM в задачах, связанных с пониманием и обработкой криволинейных форм.

Анализ на CurveBench-Hard показывает, что модель демонстрирует высокую точность (указана над столбцами) в достижении максимальной награды <span class="katex-eq" data-katex-display="false">1</span> для большей части примеров, при этом доля примеров с наградой <span class="katex-eq" data-katex-display="false">0.3</span> и <span class="katex-eq" data-katex-display="false">0</span> незначительна. — Анализ на CurveBench-Hard показывает, что модель демонстрирует высокую точность (указана над столбцами) в достижении максимальной награды $1$ для большей части примеров, при этом доля примеров с наградой $0.3$ и $0$ незначительна.

Выявление «Топологического Разрыва» в современных VLM

Оценка с использованием CurveBench выявила существенный “Топологический Разрыв” в современных визуально-языковых моделях (VLM). Данный разрыв проявляется в значительном снижении производительности при решении задач, требующих понимания топологических свойств изображений — связности, непрерывности и относительного расположения объектов. В то время как передовые модели, такие как Gemini 3.1-pro-preview, демонстрируют неплохие результаты на упрощенном наборе данных CurveBench-Easy, их эффективность резко падает при переходе к более сложным задачам в CurveBench-Hard. Это указывает на фундаментальное ограничение текущих архитектур в способности к абстрактному, топологическому рассуждению, что подчеркивает необходимость разработки новых подходов к обучению и проектированию VLM для решения задач, выходящих за рамки простого распознавания объектов и их атрибутов.

Современные передовые модели визуального понимания языка демонстрируют заметный разрыв в производительности при решении задач, требующих топологического рассуждения. Исследования с использованием набора данных CurveBench показали, что лучшая из протестированных моделей, Gemini 3.1-pro-preview, достигает точности в 73.1% на относительно простом наборе CurveBench-Easy. Однако, при переходе к более сложным задачам, представленным в CurveBench-Hard, точность этой же модели резко падает до 19.1%. Данный контраст подчеркивает существенные ограничения существующих архитектур в понимании пространственных взаимосвязей и требует разработки новых подходов к обучению моделей, способных эффективно справляться с топологическими задачами.

В ходе экспериментов с CurveBench модель qwen3-vl-8b-region-tree продемонстрировала значительное превосходство, достигнув средней награды в 0.397 на простом наборе тестов CurveBench-Easy. Этот результат почти в десять раз выше, чем у базовой модели, что свидетельствует о существенном улучшении способности к пониманию и интерпретации визуальной информации. В то же время, модель qwen3-vl-8b-only-tree, хотя и показала более скромный результат — среднюю награду в 0.095 — все же смогла добиться определенных успехов в решении более сложных задач, представленных в наборе CurveBench-Hard. Полученные данные подчеркивают важность использования специализированных архитектур для повышения эффективности моделей в области понимания взаимосвязей между визуальными и языковыми данными.

Полученные результаты указывают на необходимость разработки принципиально новых архитектур и стратегий обучения, специально ориентированных на решение задач топологического рассуждения в области понимания взаимосвязи между изображениями и текстом. Существующие модели демонстрируют значительное снижение производительности при усложнении топологических характеристик, что свидетельствует о недостаточном внимании к этим аспектам в процессе обучения. Перспективные направления исследований включают в себя разработку моделей, способных эффективно кодировать и обрабатывать информацию о связности, относительном положении объектов и других топологических свойствах, а также применение новых методов обучения, которые позволят моделям лучше обобщать знания и адаптироваться к сложным топологическим структурам. Успешная реализация этих подходов позволит значительно улучшить способность моделей к пониманию визуального контента и решению широкого спектра задач, требующих топологического мышления.

В новой работе исследователи представляют CurveBench — датасет, призванный проверить, насколько хорошо современные модели понимают вложенные структуры кривых на изображениях. Всё это напоминает бесконечную гонку за “scalable” решениями, которые на деле оказываются не протестированными под реальной нагрузкой. Как справедливо заметила Фэй-Фэй Ли: «Искусственный интеллект должен служить людям, а не наоборот». В контексте CurveBench это значит, что задача не просто в распознавании кривых, а в понимании их топологических отношений, что требует от моделей не поверхностного анализа, а настоящего структурного мышления. Иногда проще разобраться в одном сложном монолите, чем разбираться в сотне микросервисов, каждый из которых пытается выдать правдоподобную, но ложную информацию о структуре изображения.

Что дальше?

Представленный бенчмарк, CurveBench, неизбежно станет очередным слоем абстракции, который рано или поздно рухнет под напором реальных данных. Задача точного топологического анализа, казавшаяся элегантной в теории, неминуемо столкнётся с шумом, артефактами и прочими «прелестями» продакшена. Впрочем, красиво умирает любая абстракция.

Очевидно, что текущий подход, ориентированный на восстановление вложенных отношений кривых, является лишь первым шагом. Более сложные структуры, пересечения, разрывы — всё это неизбежно потребует новых методов и, вероятно, более грубых, приближённых решений. Ожидается, что модели, хорошо работающие на CurveBench, столкнутся с трудностями при обобщении на данные, даже незначительно отличающиеся от представленных в датасете.

В конечном счёте, все, что можно задеплоить, однажды упадёт. Но пока эти диаграммы ещё живы, можно строить из них замки на песке, зная, что прилив неминуем. Следующим шагом, вероятно, станет поиск способов сделать эти замки чуть более устойчивыми к энтропии, хотя бы на короткое время.

Оригинал статьи: https://arxiv.org/pdf/2605.14068.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-17 03:27

🚀 Квантовые новости