Автор: Денис Аветисян
Новое исследование показывает, что способность моделей понимать изображения и текст ограничена не размером данных, а тем, как эти данные собираются и аннотируются.

Систематическое исключение информации, связанной с рассуждениями, из обучающих данных негативно влияет на производительность моделей в задачах, требующих логического мышления.
Несмотря на значительный прогресс в области моделей «зрение-язык», способность к логическим рассуждениям остается серьезной проблемой. В своей работе ‘Scale Can’t Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning’ авторы исследуют влияние систематического искажения в обучающих данных — тенденции людей опускать важную информацию при описании визуального контента. Полученные результаты показывают, что это искажение приводит к недостаточной представленности навыков пространственного, временного, отрицательного и счетного рассуждений, несмотря на масштабы используемых данных, и что целенаправленное добавление недостающей информации в аннотации значительно улучшает результаты модели. Можно ли преодолеть ограничения текущих моделей, уделяя больше внимания качеству и структуре обучающих данных, а не просто увеличению их объема?
Истинная Сущность Визуально-Языковых Моделей: Скрытые Предположения
Современные модели, объединяющие зрение и язык, демонстрируют впечатляющий прогресс, однако их возможности тесно связаны с данными, на которых они обучаются, и практиками ручной разметки. Эти модели не просто анализируют изображения и генерируют описания; они по сути воспроизводят предвзятости, заложенные в обучающих выборках, будь то стереотипы, культурные особенности или просто неполнота информации. В частности, если в данных преобладают определенные точки зрения или не представлены разнообразные сценарии, модель неизбежно будет отражать эти дисбалансы в своих ответах. Таким образом, несмотря на кажущуюся объективность, результаты работы таких моделей могут быть искажены и отражать не реальность, а предвзятости, унаследованные от человека.
Визуально-языковые модели, несмотря на свой прогресс, неявно полагаются на общее понимание того, какая информация является релевантной при формировании описания. Этот принцип коренится в человеческих принципах общения, где существует негласное соглашение о том, что необходимо упомянуть, а что можно опустить для эффективного взаимодействия. Модели, обученные на больших объемах данных, перенимают эти невысказанные правила, предполагая, что собеседник обладает схожим контекстом и ожиданиями. Таким образом, способность модели генерировать описания опирается не только на распознавание объектов, но и на неявное понимание коммуникативных норм, которые регулируют человеческий диалог и определяют, что считается значимым в конкретной ситуации.
В основе работы современных мультимодальных моделей, объединяющих зрение и язык, лежит неявное предположение о том, что информация, представляющая интерес для описания изображения, очевидна и разделяется всеми. Однако, исследования показывают, что эта неявная установка приводит к систематическим упущениям — так называемому “смещению отчетности”. Модели склонны опускать детали, которые кажутся несущественными с их точки зрения, но могут быть критически важными для выполнения последующих задач, например, для логических выводов или ответов на вопросы. Такое предвзятое представление информации ограничивает возможности моделей в решении сложных задач, требующих полного и объективного анализа визуальных данных, и подчеркивает необходимость разработки методов, позволяющих выявлять и корректировать подобные систематические ошибки.
За пределами Атрибутов: Пространственные, Временные и Числовые Ограничения
Визуально-языковые модели (VLM) демонстрируют высокую эффективность в распознавании визуальных атрибутов и связей между объектами на изображении. Однако, при переходе к более сложным задачам, требующим логических умозаключений, таким как пространственное мышление, понимание временных последовательностей и точный подсчет объектов, наблюдается существенное снижение производительности. Модели успешно идентифицируют, например, цвет или форму, но испытывают трудности при определении относительного положения объектов («слева от», «над»), последовательности событий или точного количества предметов на изображении, что указывает на ограничения в способности к абстрактному мышлению и интеграции различных типов информации.
Результаты тестирования визуальных языковых моделей (VLM) на специализированных бенчмарках, таких как VAW Benchmark, CountBench и контролируемых наборах данных для генерации подписей (Controlled Imcaps), демонстрируют устойчивые недостатки в областях пространственного, временного и количественного рассуждений. Эти недостатки усугубляются недостаточным представлением ключевых концепций, необходимых для таких рассуждений, в обучающих данных. Анализ показывает, что модели испытывают трудности при выполнении задач, требующих понимания относительного положения объектов, последовательности событий или точного подсчета, что указывает на ограниченность их способности к комплексному визуальному анализу и интеграции информации.
Анализ корпуса LAION показал крайне низкое представление ключевых слов, связанных с пространственным мышлением — всего 0,1%. Аналогично, термины, относящиеся к временному и негативному мышлению, встречаются в корпусе также крайне редко. Хотя ключевые слова, связанные со счётом, присутствуют в корпусе, их количество остается недостаточным для обеспечения надежной работы моделей в задачах, требующих точного количественного анализа. Данная неравномерность распределения данных в обучающем корпусе является существенным фактором, способствующим наблюдаемому отставанию визуальных языковых моделей в задачах, требующих сложного логического вывода.
Ограничения современных визуальных языковых моделей (VLM) в решении задач, требующих пространственного, временного или численного рассуждения, не сводятся исключительно к недостатку обучающих данных. Анализ показывает, что проблема заключается в более фундаментальных трудностях, связанных с тем, как модели представляют и интегрируют различные типы информации. Модели демонстрируют способность распознавать визуальные атрибуты, но испытывают затруднения при комбинировании этих атрибутов с неявными знаниями о физическом мире, последовательностях событий или количественных отношениях. Недостаточность заключается не в отсутствии соответствующих данных в корпусе, а в сложности построения внутренних представлений, позволяющих эффективно использовать эти знания для решения сложных задач, требующих комбинирования различных типов рассуждений.

Масштабирование, Данные и Стремление к Надежности
Современный прогресс в области мультимодальных моделей (VLM) достигается за счет использования крупномасштабных наборов данных, таких как LAION, и моделей, включая LLaVA-1.5 и OpenCLIP. Эти модели построены на основе методов контрастного обучения, позволяющих им эффективно сопоставлять визуальную и текстовую информацию. Контрастное обучение предполагает обучение модели различать правильные пары изображение-текст от неправильных, что способствует улучшению понимания и генерации мультимодального контента. Использование больших объемов данных и эффективных методов обучения позволяет VLM достигать более высокой производительности в задачах, связанных с обработкой изображений и текста.
Расширение обучающих данных достигается за счет методов аугментации и включения многоязычного контента. Аугментация данных позволяет искусственно увеличить объем обучающей выборки путем применения различных преобразований к существующим данным, например, изменения масштаба, поворота или добавления шума. Включение многоязычных данных обеспечивает модели возможность обработки и генерации текста на различных языках, повышая ее универсальность и применимость в глобальном масштабе. Кроме того, использование генеративных моделей, способных создавать синтетические данные, позволяет значительно увеличить объем обучающей выборки и улучшить производительность модели, особенно в ситуациях, когда доступ к реальным данным ограничен.
Несмотря на прогресс в области масштабирования данных и улучшения моделей, критически важным остается тщательное внимание к инструкциям для аннотаторов и всесторонняя оценка производительности человека. Недостаточная четкость или неоднозначность инструкций может приводить к систематическим ошибкам и предвзятостям в обучающих данных, что негативно сказывается на надежности и справедливости моделей. Регулярный анализ работы аннотаторов, выявление несоответствий и проведение переобучения с использованием скорректированных данных позволяют минимизировать влияние субъективных факторов и обеспечить более объективные результаты. Кроме того, оценка производительности человека необходима для определения границ применимости моделей и выявления ситуаций, в которых требуется вмешательство человека.
Целенаправленные инструкции для аннотаторов оказали значительное влияние на качество обучающих данных для визуальных языковых моделей. В ходе экспериментов было установлено, что использование конкретных указаний, направленных на увеличение частоты ключевых слов, связанных с подсчетом объектов, привело к увеличению их встречаемости на 39% по сравнению с базовыми корпусами данных. Данный результат демонстрирует, что оптимизация процесса аннотации и фокусировка на конкретных аспектах данных может стать эффективным решением для повышения производительности моделей, подчеркивая потенциал дата-центрированного подхода к обучению.

За Пределами Восприятия: К Комплексному Визуально-Языковому Рассуждению
Несмотря на значительный прогресс в области мультимодальных моделей (VLM), предвзятость обучающих данных продолжает существенно влиять на их производительность при решении задач, требующих отрицания, счета, пространственного и временного рассуждений. Наблюдается заметное несоответствие между возможностями моделей и человеческим восприятием: в то время как люди легко справляются с подобными задачами, VLM часто допускают ошибки. Эта проблема возникает из-за дисбаланса в обучающих данных, где примеры, требующие сложного рассуждения, встречаются значительно реже, чем простые утверждения. В результате, модели склонны к поверхностному анализу и не способны адекватно интерпретировать сложные сценарии, что ограничивает их применимость в задачах, требующих высокой точности и надежности.
Для повышения надежности и точности мультимодальных моделей, объединяющих зрение и язык, необходимо всестороннее изучение взаимодействия между архитектурой модели, качеством обучающих данных и применяемыми метриками оценки. Системные искажения, такие как предвзятость отчетности в данных, могут существенно влиять на способность модели к логическим умозаключениям и обобщению. Понимание того, как выбор архитектуры модели влияет на восприимчивость к этим искажениям, а также разработка более чувствительных и репрезентативных метрик оценки, являются ключевыми задачами. Только комплексный подход, учитывающий все эти факторы, позволит создать модели, способные к действительно всестороннему пониманию и рассуждению о визуальной информации, а не просто воспроизводящие статистические закономерности в данных.
Исследования показали прямую взаимосвязь между частотой встречаемости ключевых слов, связанных с пространственным, временным и отрицательным рассуждением, и эффективностью работы визуально-языковых моделей (VLM). Анализ датасета LAION выявил крайне низкий процент таких ключевых слов — до 0.1%, что напрямую коррелирует с неудовлетворительными результатами VLM в задачах, требующих понимания этих типов рассуждений. Это указывает на то, что недостаток данных, содержащих информацию о пространственных отношениях, временной последовательности событий и отрицаниях, существенно ограничивает способность моделей к комплексному анализу визуальной информации и построению логических выводов. Таким образом, улучшение производительности VLM в этих областях требует целенаправленного расширения обучающих данных, включающих больше примеров, содержащих соответствующие ключевые слова и концепции.
Перспективные исследования в области визуально-языковых моделей (ВЯМ) направлены на создание систем, способных к более надежной интерпретации окружающего мира, даже при наличии неполных или неоднозначных данных. Акцент делается на разработку архитектур, устойчивых к шуму и погрешностям в визуальной информации, а также на совершенствование методов обучения, позволяющих моделям делать обоснованные выводы на основе ограниченного набора данных. Такой подход позволит ВЯМ не просто «видеть» и «понимать» отдельные объекты, но и выстраивать логические связи, учитывать контекст и предсказывать возможные исходы, приближая их возможности к человеческому восприятию и рассуждению. Особое внимание уделяется созданию моделей, способных распознавать и учитывать неопределенность, что критически важно для применения ВЯМ в реальных условиях, где информация часто бывает неполной или противоречивой.
Исследование, представленное в статье, демонстрирует, что кажущаяся эффективность моделей обработки изображений и языка может быть обманчивой, если не учитывать систематические ошибки в обучающих данных. Авторы выявили предвзятость в отчетах, где люди склонны опускать важную информацию, необходимую для логических выводов. Это подтверждает необходимость строгого подхода к формированию обучающих выборок и тщательному контролю за инструкциями по аннотированию. В этой связи, замечание Анри Пуанкаре: «Математия — это искусство логического мышления», как никогда актуально. Истинная проверка алгоритма заключается не в его способности «работать» на заданных тестах, а в его способности к строгому, математически обоснованному выводу, что напрямую связано с качеством и полнотой данных, на которых он обучается.
Куда Далее?
Представленная работа выявляет закономерность, которую можно было бы предвидеть, если бы разработчики моделей не поддавались искушению полагаться исключительно на эмпирические результаты. «Оптимизация без анализа» — самообман и ловушка для неосторожного разработчика. Выявленная предвзятость в данных, связанная с неполнотой предоставляемой информации, требует переосмысления подходов к сбору и аннотированию данных для задач, требующих рассуждений. Простое увеличение масштаба моделей не решит проблему, если сама основа обучения построена на неполных или искаженных данных.
Следующим шагом представляется не просто улучшение инструкций для аннотаторов, но и разработка формальных методов верификации полноты и непротиворечивости данных. Необходимо исследовать, как можно автоматически выявлять случаи упущения ключевой информации и дополнять данные, сохраняя при этом их достоверность. Крайне важно отделить корреляцию от причинно-следственной связи при оценке эффективности предлагаемых решений, избегая ложных выводов, основанных на поверхностном анализе.
В конечном итоге, истинный прогресс в области моделей, способных к рассуждениям, потребует отхода от парадигмы «больше данных» к парадигме «лучшие данные». Следует сосредоточиться на создании небольших, но тщательно проверенных и формально верифицированных наборов данных, которые позволят разрабатывать алгоритмы, способные к действительно надежным и обоснованным выводам. Любое решение либо корректно, либо ошибочно — промежуточных состояний нет.
Оригинал статьи: https://arxiv.org/pdf/2602.23351.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Функциональные поля и модули Дринфельда: новый взгляд на арифметику
- Квантовая самовнимательность на службе у поиска оптимальных схем
- Квантовый Борьба: Китай и США на Передовой
- Интеллектуальная маршрутизация в коллаборации языковых моделей
- Квантовый скачок: от лаборатории к рынку
2026-03-01 11:16