Автор: Денис Аветисян
Представлен новый датасет и методика оценки способности моделей искусственного интеллекта понимать и решать визуальные загадки.
Исследователи разработали крупный мультимодальный бенчмарк для оценки навыков визуально-языковых моделей в решении ребусов, а также предложили новый подход к рассуждениям.
Несмотря на значительный прогресс в области мультимодального искусственного интеллекта, понимание задач, требующих творческого и ассоциативного мышления, остается сложной проблемой. В данной работе представлена мультимодальная база данных ‘$\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles’, предназначенная для оценки способности моделей «зрение-язык» к решению ребусов. Предложенный фреймворк RebusDescProgICE, сочетающий в себе неструктурированное описание и кодовое рассуждение, позволяет повысить эффективность решения ребусов на $2.1-30\%$ по сравнению с существующими подходами. Возможно ли дальнейшее развитие подобных фреймворков для расширения когнитивных возможностей мультимодальных моделей и решения более сложных задач, требующих абстрактного мышления?
Визуальные Загадки: Предел Современных Моделей
Визуально-языковые модели (VLM) испытывают трудности при решении задач, требующих композиционного рассуждения, особенно при интерпретации ребусов – головоломок, сочетающих изображения и символы. Ребусы представляют собой особый вызов, требующий не просто распознавания объектов, но и понимания их взаимосвязи и совместного значения. Существующие подходы часто не способны корректно интерпретировать комбинированные визуальные и семантические сигналы, что приводит к ошибкам.
RebusDescProgICE: Слияние Описания и Кода
RebusDescProgICE – это гибридный подход, объединяющий описательную привязку (использование текстовых описаний изображений) с визуальной программой, основанной на коде. Такая интеграция позволяет использовать как богатство естественного языка, так и точность программной логики. Эксперименты с моделью Qwen2-VL-7B показали улучшение результатов до 30% по сравнению с базовыми методами, подтверждая эффективность подхода в задачах визуального рассуждения.
Картирование Пространства Головоломок: CLIP и UMAP
Для анализа семантического содержания ребусов используется модель CLIP для генерации векторных представлений изображений, кодирующих их смысловое значение. Метод снижения размерности UMAP визуализирует эти представления в двумерном пространстве, позволяя отобразить сложные семантические отношения между головоломками. Полученная визуализация демонстрирует формирование кластеров, объединяющих семантически близкие ребусы, подтверждая способность подхода к захвату внутренней структуры визуальной игры слов.
Усложнение Задачи: Отвлекающие Фоны
Для повышения сложности интерпретации ребусов использовалась модель ControlNet, добавляющая отвлекающие фоновые изображения. Несмотря на усложненные условия, разработанный фреймворк RebusDescProgICE демонстрировал высокую точность. Применение GPT-4o в сочетании с RebusDescProgICE позволило достичь значения Word-Level F1 Score в 0.512, превосходя результат нулевого запроса (0.489). Полученные данные подтверждают устойчивость фреймворка к визуальным помехам, однако каждое «улучшение» лишь добавляет энтропии.
Набор Данных и Перспективы Развития
В работе используется набор данных /sync-alt /bus/, содержащий 1333 аннотированных английских ребуса. Эксперименты с моделью GPT-4o, используя RebusDescProgICE с тремя примерами, достигли точности соответствия подстрокам (Substring Accuracy) в 0.422. Дальнейшие исследования будут направлены на расширение возможностей системы для обработки более сложных визуальных конструкций и задач композиционного рассуждения. Ожидается, что увеличение размера набора данных и совершенствование алгоритмов позволит добиться существенного улучшения показателей и создания более надёжных мультимодальных моделей.
В представленной работе исследователи, по всей видимости, снова пытаются приручить неуправляемое. Этот датасет Rebus puzzles, |/sync-alt /bus|, выглядит как очередная попытка заставить Vision-Language Models решать задачи, которые люди решают, едва взглянув на них. Удивительно, что они изобрели RebusDescProgICE – сложный фреймворк, комбинирующий код и «неструктурированное» мышление. Эндрю Ын однажды заметил: «Лучший способ научиться — это делать». Но здесь, кажется, делают всё, лишь бы оправдать существование ещё одной архитектуры. Впрочем, как известно, если баг воспроизводится — значит, у нас стабильная система, и этот датасет, несомненно, породит множество таких багов.
Что дальше?
Представленный набор данных, как и любой другой, неизбежно станет узким местом. Недостаточно создать задачу – всегда найдется продукшен, который начнет её решать не элегантным способом, а самым быстрым. Рассуждения, основанные на коде, кажутся изящными, но, скорее всего, это просто усложнение, которое добавит ещё один слой абстракции, который рано или поздно рухнет под давлением реальных данных. И, конечно, всегда есть вероятность, что следующая модель просто «выучит» ответы на эти загадки, не понимая их сути – но это уже проблема не набора данных, а всей парадигмы.
Попытки формализовать неформальное – занятие благородное, но иллюзорное. Rebus-загадки по своей природе требуют гибкости и интуиции, качеств, которые пока плохо поддаются машинному моделированию. В конечном итоге, этот набор данных, вероятно, станет ещё одним кирпичиком в фундаменте «cloud-native» решений для распознавания картинок, только дороже и сложнее. Мы не пишем код – мы просто оставляем комментарии будущим археологам, пытающимся понять, зачем всё это было нужно.
Если система стабильно падает при решении rebus-задач, значит, она хотя бы последовательна. Следующим шагом, вероятно, будет попытка создать набор данных, который ещё лучше отражает хаотичность человеческого мышления. Но, честно говоря, это как пытаться поймать ветер в сеть. В любом случае, пусть решают. Главное, чтобы не забыли про дебаг.
Оригинал статьи: https://arxiv.org/pdf/2511.01340.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Память как основа разума: новый подход к генерации ответов
- Квантовый прыжок: сможем ли мы наконец разгадать тайну сворачивания белков?
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Визуальное мышление нового поколения: V-Thinker
- Разделяй и властвуй: Новый подход к классификации текстов
- Квантовый скачок из Андхра-Прадеш: что это значит?
2025-11-04 21:13