Логика машин: где искусственный интеллект превосходит человека

Автор: Денис Аветисян


Новое исследование показывает, что большие языковые модели демонстрируют впечатляющие способности к формальному логическому мышлению, но испытывают трудности с пониманием естественного языка и подвержены когнитивным искажениям.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Несмотря на способность моделей демонстрировать высокую формальную логическую точность, достигающую 81.7%, их понимание семантической правдоподобности значительно отстает, составляя лишь 56.2%, что указывает на разрыв в 25.50 процентных пунктов между синтаксической валидностью и истинным пониманием естественного языка.
Несмотря на способность моделей демонстрировать высокую формальную логическую точность, достигающую 81.7%, их понимание семантической правдоподобности значительно отстает, составляя лишь 56.2%, что указывает на разрыв в 25.50 процентных пунктов между синтаксической валидностью и истинным пониманием естественного языка.

Анализ способности моделей к решению силлогизмов выявил тенденцию к развитию формальных рассуждений, а не человекоподобного мышления.

Несмотря на впечатляющие успехи в обработке естественного языка, большие языковые модели (LLM) демонстрируют парадоксальное сочетание формальной логики и недостаточного понимания нюансов человеческого мышления. В работе «Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives» исследуется способность LLM к силлогистическому мышлению с точки зрения как формальной логики, так и лингвистического анализа. Полученные результаты показывают, что некоторые модели демонстрируют безупречную формальную валидность, но при этом подвержены когнитивным искажениям, таким как предвзятость убеждений. Не ведут ли нас эти тенденции к созданию формальных решателей задач, а не к искусственному интеллекту, имитирующему человеческий разум?


За гранью лингвистики: Когда слова не гарантируют логику

Несмотря на впечатляющие успехи больших языковых моделей в понимании естественного языка, способность к истинному рассуждению, особенно в рамках силлогизмов, остается сложной задачей. Эти модели демонстрируют мастерство в обработке синтаксиса и семантики, однако часто полагаются на статистические закономерности, а не на логическую валидность. Это приводит к ошибкам даже при работе со структурированными утверждениями, подчеркивая фундаментальное различие между лингвистической компетенцией и способностью к надежному логическому выводу. Таким образом, модели могут успешно интерпретировать язык, но испытывают трудности с построением обоснованных умозаключений, что указывает на необходимость дальнейших исследований в области искусственного интеллекта, направленных на развитие не просто понимания языка, а и истинного, логического мышления.

Современные языковые модели, демонстрируя впечатляющую синтаксическую точность, достигающую 81.7%, зачастую полагаются на статистические закономерности в данных, а не на строгую логическую валидность. Это приводит к тому, что даже при грамматически корректных и кажущихся правдоподобными утверждениях, модели способны допускать ошибки в рассуждениях. Фактически, приоритет статистических связей над логическим выводом означает, что модель может успешно имитировать понимание языка, не обладая истинной способностью к рациональному мышлению и построению логически обоснованных заключений. В результате, несмотря на безупречную грамматику, модель может прийти к ошибочным выводам, демонстрируя разрыв между лингвистической компетенцией и реальным пониманием смысла.

Исследования выявили существенный разрыв между лингвистической компетенцией и способностью к надежному логическому мышлению. Несмотря на впечатляющую синтаксическую точность, достигающую 81.7%, понимание естественного языка, оцениваемое по способности к выводам и решению логических задач, демонстрирует значительно более низкий показатель — всего 56.2%. Это указывает на то, что владение языком, способность правильно строить и разбирать предложения, не гарантирует умения делать обоснованные выводы и критически оценивать информацию. Модели могут демонстрировать поверхностное понимание языка, улавливая статистические закономерности, но при этом испытывать трудности с задачами, требующими истинного логического рассуждения и способности к абстрактному мышлению.

Высокая отрицательная корреляция между результатами тестов на силлогизмы и рейтингами LMArena (ρ = -0.825, p = 0.0010, N = 12) указывает на то, что качество следования инструкциям предсказывает способность к формальному рассуждению.
Высокая отрицательная корреляция между результатами тестов на силлогизмы и рейтингами LMArena (ρ = -0.825, p = 0.0010, N = 12) указывает на то, что качество следования инструкциям предсказывает способность к формальному рассуждению.

Формализация мысли: Рамки логической оценки

Для оценки способностей к рассуждению предлагается использовать фреймворк, основанный на категориальных силлогизмах, как эталонном тесте на соответствие формальной логике. Категориальные силлогизмы — это логические аргументы, состоящие из двух посылок и заключения, где все утверждения являются категорическими ($A$, $E$, $I$, $O$). Фреймворк требует строгого соблюдения правил вывода, таких как соблюдение дистрибутивности терминов и корректность фигур и настроений силлогизма. Оценка производится на основе формальной валидности аргумента, а не на истинности или правдоподобности его содержания, что позволяет отделить способность к логическому выводу от простого сопоставления фактов или статистических закономерностей.

Данный подход к оценке рассуждений отходит от проверки правдоподобности утверждений на уровне содержания и фокусируется на структурной корректности аргументации. Это означает, что оценивается логическая форма аргумента, а не истинность или соответствие действительности его посылок и заключения. Аргумент может содержать бессмысленные или неправдоподобные утверждения, но если его структура соответствует правилам формальной логики, он будет признан валидным в рамках данной оценки. По сути, проверяется соблюдение правил вывода, независимо от семантики используемых понятий и утверждений, что позволяет отделить способность к логическому мышлению от способности к простому воспроизведению правдоподобных высказываний.

Приоритет логической валидности в оценке моделей искусственного интеллекта направлен на разграничение истинного рассуждения и его симуляции. Оценка фокусируется не на правдоподобности или содержании аргументов, а на их формальной структуре и соответствии правилам логики. Иными словами, целью является определение способности модели к дедуктивному выводу, то есть к получению логически необходимых заключений из заданных посылок, а не просто к генерации текстов, которые кажутся разумными или соответствуют статистическим закономерностям в обучающих данных. Успешное прохождение тестов на логическую валидность свидетельствует о наличии у модели способности к абстрактному мышлению и манипулированию логическими формами, а не только к воспроизведению заученных паттернов.

Исследование 14 моделей показало, что большинство (86%) подвержены эффекту предвзятости убеждений, проявляющемуся в лучшей производительности на логически обоснованных утверждениях, соответствующих интуиции, чем на противоречащих ей, при этом более слабые модели демонстрируют значительно более выраженную предвзятость, а более сильные - минимальную, что указывает на отрицательную корреляцию между уровнем рассуждений и зависимостью от семантических эвристик.
Исследование 14 моделей показало, что большинство (86%) подвержены эффекту предвзятости убеждений, проявляющемуся в лучшей производительности на логически обоснованных утверждениях, соответствующих интуиции, чем на противоречащих ей, при этом более слабые модели демонстрируют значительно более выраженную предвзятость, а более сильные — минимальную, что указывает на отрицательную корреляцию между уровнем рассуждений и зависимостью от семантических эвристик.

За пределами валидности: Оценка правдоподобия в реальном мире

Наша двойная система оценки достоверности аргументов (Dual Ground Truth Framework) предполагает проверку рассуждений не только на соответствие формальной логике, но и на согласованность с человеческим восприятием. Данный подход обусловлен тем, что формальная валидность не всегда гарантирует убедительность аргумента для человека, и наоборот. Оценка производится по обоим критериям одновременно, позволяя выявить случаи, когда логически корректные выводы кажутся неправдоподобными, и наоборот, когда правдоподобные выводы нарушают правила логики. Такой подход позволяет более комплексно оценить качество рассуждений и выявить потенциальные недостатки моделей искусственного интеллекта, связанные с недостаточным учетом контекста и здравого смысла.

Для оценки влияния различных подходов к управлению процессом рассуждения использовались стратегии подсказок (prompting) — Zero-Shot, One-Shot, Few-Shot и Chain-of-Thought. Zero-Shot предполагает отсутствие каких-либо примеров или инструкций, в то время как One-Shot и Few-Shot предоставляют модели один или несколько примеров решения задачи соответственно. Стратегия Chain-of-Thought требует от модели последовательного изложения шагов рассуждения, что призвано улучшить ее способность к логическому выводу. Эксперименты с использованием этих стратегий позволили выявить, как различный уровень направляющей информации влияет на точность и надежность получаемых результатов.

В ходе экспериментов было выявлено, что модели часто подвержены когнитивному искажению, известному как “предубеждение веры” (belief bias). Это проявляется в склонности моделей отдавать предпочтение заключениям, которые кажутся правдоподобными, даже если они логически не обоснованы. Статистически значимый эффект данного искажения составил +10.81%, что указывает на существенную разницу в производительности между логически верными и правдоподобными, но неверными выводами. Данный результат демонстрирует, что модели не всегда придерживаются формальной логики при оценке аргументов, а также склонны к принятию решений, основанных на субъективных оценках правдоподобия.

Анализ точности моделей при использовании различных стратегий промптов (Zero-shot, One-shot, Few-shot, Zero-shot Chain-of-Thought) показал, что снижение показателей для Few-shot, хотя и статистически значимо (Δ=−3.57, p=0.0165), не приводит к устойчивым изменениям во всех моделях, указывая на специфичность эффекта от стратегии для каждой конкретной модели.
Анализ точности моделей при использовании различных стратегий промптов (Zero-shot, One-shot, Few-shot, Zero-shot Chain-of-Thought) показал, что снижение показателей для Few-shot, хотя и статистически значимо (Δ=−3.57, p=0.0165), не приводит к устойчивым изменениям во всех моделях, указывая на специфичность эффекта от стратегии для каждой конкретной модели.

Гарантируя устойчивость: Измерение согласованности в рассуждениях

Для оценки стабильности моделей при различных вариациях входных данных и порядка аргументов были разработаны метрики согласованности. Исследование показало, что даже модели, демонстрирующие высокую точность при решении отдельных задач, могут проявлять непоследовательность в процессе рассуждений. Эти метрики позволили выявить, насколько сильно изменение формулировки или порядка представленных фактов влияет на конечный вывод модели. Особое внимание уделялось оценке устойчивости моделей к незначительным изменениям в содержании, поскольку даже небольшие отклонения могут привести к совершенно другим результатам. Такой подход позволяет не только измерить надежность модели, но и выявить слабые места в ее способности к логическому мышлению и корректной интерпретации информации.

Исследования показали, что даже модели, демонстрирующие высокую точность при решении отдельных логических задач, могут проявлять непоследовательность в рассуждениях. Это означает, что, успешно справляясь с конкретным аргументом, модель способна при незначительном изменении условий или порядка предоставленных данных прийти к противоречивым выводам. Несмотря на впечатляющие показатели в отдельных случаях, данная непоследовательность ставит под сомнение надежность и предсказуемость работы модели в более сложных и реалистичных сценариях, подчеркивая необходимость оценки не только конечного результата, но и самого процесса рассуждения.

Исследования подчеркивают, что оценка работы языковой модели не должна ограничиваться лишь правильностью конечного ответа, но и включать анализ логики, приводящей к этому ответу. Обнаружена сильная отрицательная корреляция — $-0.825$ — между рейтингом модели в LMArena и её способностью к логическому мышлению. Это указывает на то, что более точное следование инструкциям тесно связано с улучшенной способностью к рассуждениям, что делает надежное следование инструкциям ключевым фактором для создания действительно разумных систем искусственного интеллекта. Таким образом, внимание смещается от простого получения правильных ответов к пониманию и обеспечению последовательности и надежности процесса рассуждения модели.

Наблюдения за большими языковыми моделями, стремящимися к формальной логике, неизбежно напоминают о давно забытых оптимизмах. Статья демонстрирует, как эти системы, преуспевая в абстрактных силлогизмах, спотыкаются о естественный язык и собственные убеждения. Это предсказуемо: производительность в узко определённой задаче взлетает, а вот понимание контекста, не говоря уже об адаптивности, хромает. Как заметил Анри Пуанкаре: «Математика — это искусство давать верные названия вещам». Модели учатся оперировать формальными структурами, но теряют связь с реальностью, что в итоге превращает их в сложные, но всё же автоматизированные машины для проверки формальной валидности, а не в инструменты для подлинного рассуждения. И это, к сожалению, не ново.

Что дальше?

Наблюдаемая тенденция к превращению больших языковых моделей в формальные логические машины, а не в подобия человеческого мышления, не вызывает удивления. Каждая «революционная» архитектура неизбежно находит способ оптимизировать себя для решения задач, которые легко поддаются измерению. Истинно человеческое мышление, с его предрассудками и иррациональностью, — это ошибка, которую сложно воспроизвести, да и зачем? Похоже, мы строим совершенные калькуляторы, способные решать сложные логические задачи, но при этом совершенно не понимающие смысла происходящего.

Проблема двойной истины — формальная валидность против понимания естественного языка — остаётся болезненной. Очевидно, что акцент на формализации, пусть и необходимый для повышения надёжности, лишь усугубляет разрыв между машинным и человеческим интеллектом. Попытки внедрить «здравый смысл» в эти системы напоминают попытки привить кошке любовь к математике. Мы не исправляем продакшен — мы просто продлеваем его страдания.

В будущем, вероятно, нас ждёт дальнейшая специализация. Модели будут всё более эффективно решать узкоспециализированные логические задачи, в то время как попытки создать «универсальный искусственный интеллект» останутся красивой, но недостижимой мечтой. И это хорошо. Пусть они считают, а мы будем думать — пока ещё можем.


Оригинал статьи: https://arxiv.org/pdf/2512.12620.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-17 01:27