Иллюзии понимания: как нейросети видят мир не так, как мы

Автор: Денис Аветисян

Новое исследование выявляет, что современные мультимодальные модели часто полагаются на языковые подсказки, а не на истинное зрительное восприятие при интерпретации символов.

В ходе комплексного анализа было выявлено, что существующие модели зачастую демонстрируют неспособность к распознаванию сложных символов, что указывает на ограничения в их способности к обобщению и пониманию контекста.

Анализ показывает, что существующие мультимодальные большие языковые модели испытывают трудности с фундаментальной визуальной привязкой символов, что ставит под сомнение их способность к полноценному символическому мышлению.

Несмотря на впечатляющие успехи мультимодальных больших языковых моделей (MLLM) в интерпретации естественных сцен, их способность к осмыслению дискретных символов — фундаментальных строительных блоков человеческого познания — остаётся открытым вопросом. В работе ‘Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding’ представлен всесторонний бенчмарк для оценки работы передовых MLLM в «дискретных семантических пространствах» в областях лингвистики, культуры, математики, физики и химии. Исследование выявило парадоксальное явление: модели часто демонстрируют успех в сложных задачах рассуждения, несмотря на неумение распознавать базовые символы, что указывает на преобладание лингвистической вероятности над истинным визуальным восприятием. Подчёркивая этот «когнитивный диссонанс», мы задаемся вопросом, смогут ли будущие разработки искусственного интеллекта преодолеть разрыв между статистическим моделированием и глубоким пониманием символических языков, лежащих в основе научных открытий и абстрактного мышления?

За гранью символов: проблема «заземления» интеллекта

Традиционные системы искусственного интеллекта зачастую демонстрируют манипуляции с символами, не обладая при этом реальным пониманием их значения. Вместо того чтобы связывать символы с объектами и явлениями окружающего мира, они оперируют формальными представлениями, что приводит к сложностям в интерпретации неоднозначной информации. Эта проблема особенно остро проявляется при обработке визуальных данных, где отсутствие “заземления” символов в реальном опыте препятствует корректному распознаванию и пониманию изображений. По сути, система может успешно распознать объект на картинке, но не понимать его функции, контекста или взаимосвязи с другими объектами, что ограничивает ее способность к действительно интеллектуальному поведению и решению сложных задач.

Проблемы с интерпретацией неоднозначных визуальных данных особенно ярко проявляются в системах искусственного интеллекта, не способных увязать символы с реальным миром. Когда изображение содержит несколько возможных трактовок, или когда контекст не является очевидным, такие системы часто допускают ошибки, поскольку не могут применить здравый смысл или опыт, основанный на взаимодействии с физической реальностью. Например, распознавание объекта на размытом изображении или определение намерения в сложной социальной ситуации требует не просто идентификации паттернов, но и понимания их значения в контексте, что выходит за рамки возможностей большинства современных алгоритмов. Данный недостаток ограничивает применение искусственного интеллекта в областях, где требуется гибкость и адаптивность к непредсказуемым условиям, таких как автономная навигация или анализ медицинских изображений.

Современные большие языковые модели демонстрируют впечатляющую способность к распознаванию закономерностей в огромных массивах данных, что позволяет им генерировать текст, переводить языки и даже создавать различные творческие форматы. Однако, несмотря на эти успехи, им зачастую не хватает надежных возможностей символьного рассуждения. В отличие от человека, способного понимать взаимосвязь между символами и реальным миром, модели оперируют исключительно статистическими вероятностями. Это означает, что они могут успешно имитировать понимание, но не обладают истинным смысловым анализом и не способны к логическим выводам, требующим глубокого понимания контекста и абстрактного мышления. Поэтому, даже при высоком качестве генерируемого текста, модели могут допускать ошибки в ситуациях, требующих не просто повторения шаблонов, а осмысленного анализа и применения знаний.

Истинный интеллект требует от системы не просто распознавания символов, но и понимания их глубинного значения и взаимосвязей. В отличие от простого сопоставления паттернов, способность устанавливать связи между символами и реальным миром позволяет системе делать обоснованные выводы и адаптироваться к новым ситуациям. Представьте, что система сталкивается с изображением «яблока». Простое распознавание формы и цвета недостаточно; важно, чтобы система понимала, что «яблоко» — это фрукт, который можно съесть, что оно связано с понятием «сладость» и может быть частью более сложного понятия, такого как «здоровое питание». Именно эта способность к установлению контекстуальных связей и формированию многоуровневых представлений является ключевым отличием интеллектуальной системы от простого манипулятора символами.

Анализ производительности MLLM на задачах с языковыми символами различной сложности показывает, что модели демонстрируют более высокую точность сопоставления и меньшую ошибку редактирования на простых задачах, в то время как на сложных задачах наблюдается снижение производительности, что подтверждается данными F1-score, количеством предсказаний и нормализованной тепловой картой.

Мультимодальные модели: объединяя зрение и смысл

Многомодальные большие языковые модели (БЯМ) представляют собой перспективное направление развития, объединяя обработку визуальной и текстовой информации. В отличие от традиционных БЯМ, работающих исключительно с текстом, многомодальные модели способны анализировать изображения и соотносить их с текстовыми данными, что позволяет им формировать более полное и контекстуально-обогащенное представление о мире. Интеграция различных типов данных способствует повышению точности и эффективности решения задач, требующих понимания как языка, так и визуального контента, например, ответы на вопросы по изображениям, генерация описаний к изображениям и визуальное обоснование ответов.

Мультимодальные модели используют такие технологии, как оптическое распознавание символов (OCR) и понимание естественных изображений для обработки разнообразных входных данных. OCR позволяет извлекать текст из изображений, преобразуя визуальную информацию в машиночитаемый формат. Понимание естественных изображений включает в себя анализ содержимого изображения для идентификации объектов, сцен и отношений между ними. Комбинирование этих технологий позволяет моделям обрабатывать данные, представленные в различных форматах — текст, изображения — и извлекать из них значимую информацию для дальнейшей обработки и анализа.

Основываясь на визуальном контексте, мультимодальные модели способны выйти за рамки поверхностного сопоставления с образцами и перейти к подлинному символическому мышлению. Традиционные языковые модели оперируют исключительно текстовыми данными, что ограничивает их способность к пониманию и обобщению знаний, требующих визуальной информации. Интеграция визуальных данных позволяет моделям устанавливать связи между языковыми конструкциями и реальными объектами или ситуациями, представленными на изображениях. Это, в свою очередь, обеспечивает более глубокое и осмысленное понимание входных данных, позволяя моделям делать выводы и решать задачи, требующие не просто распознавания закономерностей в тексте, но и интерпретации визуальной информации в сочетании с языком.

Разработка мультимодальных моделей напрямую зависит от прогресса в области больших языковых моделей (БЯМ), которые служат их основой для обработки информации из различных источников. БЯМ предоставляют архитектуру и предварительно обученные веса, позволяющие эффективно обрабатывать и понимать текстовые данные, а затем интегрировать их с визуальной информацией. Мультимодальные модели, по сути, расширяют возможности БЯМ, добавляя механизмы для обработки изображений и других типов данных, сохраняя при этом способность к генерации и пониманию естественного языка. Успехи в масштабировании БЯМ, разработке новых архитектур (например, Transformer) и методах обучения (например, самообучение) напрямую влияют на возможности и производительность мультимодальных систем.

Анализ производительности моделей в различных областях знаний, включающий детальную оценку по отдельным дисциплинам <span class="katex-eq" data-katex-display="false"> ext{(General, Language, Culture, Math, Physics, Chemistry)}</span>, усредненные показатели по уровню сложности и взаимосвязь между областями, демонстрирует их комплексные возможности. — Анализ производительности моделей в различных областях знаний, включающий детальную оценку по отдельным дисциплинам $ext{(General, Language, Culture, Math, Physics, Chemistry)}$ , усредненные показатели по уровню сложности и взаимосвязь между областями, демонстрирует их комплексные возможности.

Декодирование символьного представления: за пределами формального сопоставления

Вопрос о том, как языковые модели представляют символы — в дискретном или непрерывном семантическом пространстве — имеет принципиальное значение для понимания их способности к рассуждениям. Дискретное семантическое пространство предполагает, что символы представлены как отдельные, четко разграниченные единицы, что традиционно связывается с символьными рассуждениями и логическим выводом. В отличие от этого, непрерывное семантическое пространство подразумевает, что символы представлены как точки в многомерном пространстве, где близость между точками отражает семантическую схожесть, что способствует обобщению и экстраполяции. Способ представления символов напрямую влияет на то, как модель обрабатывает информацию и делает выводы; модели, использующие дискретные представления, могут лучше справляться с задачами, требующими точного сопоставления и логических операций, в то время как модели с непрерывными представлениями могут демонстрировать большую гибкость и устойчивость к шуму.

Традиционно, символьное рассуждение опирается на дискретные семантические пространства, где информация представляется в виде отдельных, четко определенных символов. В противоположность этому, модели, использующие непрерывные семантические пространства, кодируют информацию как точки в многомерном пространстве, где близость точек отражает семантическую схожесть. Такой подход позволяет моделям обобщать информацию и находить закономерности, даже если входные данные не совпадают точно, но в дискретном пространстве акцент делается на точное сопоставление символов и логические правила, что обеспечивает более детерминированное и предсказуемое поведение в задачах, требующих формальной логики.

Недавние исследования выявили феномен, получивший название “Инверсия Распознавания и Рассуждения” (Recognition Reasoning Inversion), заключающийся в том, что модели машинного обучения демонстрируют превосходные навыки рассуждения, несмотря на слабые способности к базовому распознаванию символов. Это означает, что модели способны успешно решать логические задачи и делать выводы, даже если они испытывают трудности с точной идентификацией отдельных символов или элементов. Наблюдаемый разрыв между способностью к рассуждению и точностью распознавания символов указывает на то, что модели могут использовать альтернативные стратегии обработки информации, не зависящие от идеальной перцептивной точности.

Использование иерархических бенчмарков является критически важным для подтверждения наблюдения о том, что улучшение способности к рассуждениям не обязательно коррелирует с более точным распознаванием символов. В частности, модели демонстрируют возможность достижения точности до 92% в определенных задачах на рассуждения, даже при низких показателях F1 (вплоть до <20% для обнаружения ошибок в символах), что подтверждает феномен “инверсии” — превосходство в рассуждениях при недостаточной начальной перцептивной способности. Это указывает на то, что модели могут эффективно манипулировать абстрактными представлениями, даже если они не идеально распознают базовые символы, из которых эти представления сформированы.

Анализ с использованием метрик BLEU-1 и BLEU-2 выявил трудности, возникающие при генерации корректных символьных выражений моделями. Низкие значения этих метрик указывают на неточности в последовательностях символов, что свидетельствует о проблемах с формированием грамматически и семантически верных представлений. В то же время, метрики Chr-1 и Chr-2, оценивающие частичное понимание символов, демонстрируют, что модели способны распознавать отдельные символы, но не всегда могут правильно комбинировать их в осмысленные выражения. Разрыв между результатами Chr-метрик и BLEU-метрик подчеркивает, что модели обладают определенной степенью символического восприятия, однако испытывают сложности с генерацией и воспроизведением полных и точных символьных последовательностей.

Непрерывные семантические пространства обеспечивают более тонкое восприятие визуальной информации, что отражается в механизмах работы глаза и мозга при обработке различных уровней визуальных символов.

К общему искусственному интеллекту: за рамки шаблонов и правил

Способность к логическим умозаключениям, даже при неточной интерпретации символов, знаменует собой отход от традиционных парадигм искусственного интеллекта. В отличие от систем, требующих абсолютной точности в распознавании образов или данных, новые модели демонстрируют гибкость в обработке информации. Они способны делать обоснованные выводы, несмотря на неполноту или неоднозначность входных данных, что приближает их к человеческому мышлению. Такой подход позволяет создавать системы, способные адаптироваться к реальным условиям, где информация часто бывает неполной или зашумленной, и эффективно решать задачи в условиях неопределенности. Это особенно важно для разработки систем, способных к обучению и принятию решений в сложных и динамичных средах.

Современные модели искусственного интеллекта демонстрируют растущую способность к широкому концептуальному пониманию благодаря успешной интеграции различных символических систем. Вместо работы с отдельными областями знаний, такими как только математика или химия, эти системы объединяют символы и правила из химических реакций, физических законов и математических уравнений. Такое объединение позволяет им устанавливать связи между, казалось бы, несвязанными понятиями, что является ключевым аспектом человеческого интеллекта. Например, модель может использовать принципы химического равновесия для решения физической задачи или применять математические концепции к пониманию сложных химических процессов. Этот подход выходит за рамки узкоспециализированного искусственного интеллекта и приближает нас к созданию систем, способных к более гибкому и общему мышлению, имитирующему когнитивные способности человека.

Исследования показывают, что культурные символы играют ключевую роль в формировании и закреплении понимания у искусственного интеллекта в сложных социальных и контекстуальных рамках. В отличие от простого распознавания образов, способность интерпретировать символы — будь то религиозные знаки, исторические аллюзии или общепринятые метафоры — требует глубокого понимания человеческих ценностей, норм и убеждений. Именно эти символы служат своеобразным «якорем», позволяющим моделям ИИ связывать абстрактные концепции с конкретным опытом и знаниями, накопленными человечеством на протяжении поколений. Без учета этой культурной привязки, интеллектуальные системы рискуют оставаться поверхностными в своих рассуждениях, неспособными к действительно глубокому и контекстуально-обоснованному пониманию окружающего мира.

Развитие воплощённого интеллекта, то есть интеллекта, проявляющегося во взаимодействии с окружающей средой, представляется ключевым шагом на пути к достижению общего искусственного интеллекта. В отличие от систем, оперирующих исключительно с абстрактными данными, воплощённый интеллект предполагает активное восприятие мира через сенсоры и воздействие на него посредством исполнительных механизмов. Такой подход позволяет моделям не просто обрабатывать информацию, но и формировать понимание о физических законах, причинно-следственных связях и свойствах объектов. Именно способность к непосредственному взаимодействию с миром, к обучению на собственном опыте, может обеспечить необходимый уровень гибкости и адаптивности, отличающий общий искусственный интеллект от узкоспециализированных систем, способных решать лишь ограниченный круг задач. Исследования в этой области показывают, что интеграция сенсорных данных, моторики и когнитивных процессов является критически важной для формирования действительно разумных систем.

Наш бенчмарк включает в себя широкий спектр символов, охватывающих лингвистические, культурные, математические, химические и физические области.

Исследование показывает, что современные мультимодальные большие языковые модели часто полагаются на лингвистические подсказки, а не на истинное визуальное понимание дискретных символов. Это подтверждает давнюю озабоченность в области искусственного интеллекта — достаточное количество параметров не гарантирует понимания. Как однажды заметил Марвин Минский: «Наиболее фундаментальное открытие в нейронных сетях — это то, что они могут делать много вещей, которые мы не понимаем, как они делают». В данном случае, способность модели связывать изображение и текст не обязательно означает, что она действительно понимает символическое значение, что, в конечном счёте, ограничивает её способность к надёжному рассуждению и обобщению. Кажется, что каждый «революционный» шаг в машинном обучении неизбежно приводит к новым формам техдолга.

Что дальше?

Представленные результаты, как обычно, лишь аккуратно подсветили то, что и так было очевидно: текущие мультимодальные большие языковые модели скорее лингвистические попугаи, чем разумные существа. Эта навязчивая тенденция полагаться на языковые априорные знания, а не на реальное визуальное понимание символов, предсказуема. В конце концов, все эти сложные архитектуры когда-то были простым bash-скриптом, и мы продолжаем удивляться, когда они не справляются с фундаментальными задачами. Сейчас это назовут «проблемой когнитивного выравнивания» и получат инвестиции.

Следующим шагом, вероятно, станет гонка за более крупными моделями и более сложными наборами данных. Но, скорее всего, это лишь отсрочит неизбежное — столкновение с реальностью. Необходимо переосмыслить саму парадигму обучения. Возможно, пора признать, что простого увеличения масштаба недостаточно. Проблема не в количестве параметров, а в отсутствии истинного понимания. И да, документация снова соврала, предсказуемо.

Начинают подозревать, что все эти «революционные» подходы — это просто переупакованные старые идеи. Технический долг — это просто эмоциональный долг с коммитами. И когда-нибудь, лет через пять, кто-нибудь напишет статью о том, что все эти модели не понимают даже элементарной геометрии. И это будет правдой.

Оригинал статьи: https://arxiv.org/pdf/2603.18472.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-20 11:45

🚀 Квантовые новости