Автор: Денис Аветисян
Новый бенчмарк RiddleBench выявляет слабые места современных ИИ в решении сложных логических задач.

Исследование представляет RiddleBench – комплексный тест, оценивающий способность больших языковых моделей к многоступенчатым рассуждениям, пространственному мышлению и коррекции ошибок.
Несмотря на впечатляющие успехи больших языковых моделей в решении структурированных задач, их способность к гибкому и многоаспектному рассуждению остается недостаточно изученной. В данной работе представлена новая оценка – ‘RiddleBench: A New Generative Reasoning Benchmark for LLMs’, – предназначенная для всестороннего анализа этих когнитивных способностей. Результаты тестирования современных моделей на RiddleBench выявили фундаментальные слабости в логическом выводе, пространственном мышлении и соблюдении ограничений. Сможем ли мы создать действительно разумные языковые модели, способные к надежному и самокритичному рассуждению, преодолевая склонность к галлюцинациям и предвзятости?
Предел Масштаба: За Гранью Поверхностных Закономерностей
Большие языковые модели (LLM) демонстрируют впечатляющие возможности в обработке естественного языка, однако часто испытывают трудности в решении сложных задач, требующих глубокого логического мышления, а не просто сопоставления с шаблонами.
Несмотря на зависимость производительности от размера модели, LLM подвержены ошибкам. Исследования показывают, что они не могут решить почти треть головоломок в RiddleBench, что указывает на необходимость эталонных тестов, оценивающих способности к глубокому логическому мышлению.

Оценка LLM на задачах, требующих надежного логического мышления, позволяет понять их истинный потенциал и ограничения. Истинное знание системы проявляется в способности увидеть ее скрытые механизмы.
RiddleBench: Новая Проверка для LLM
Для оценки сложных навыков рассуждения в больших языковых моделях (LLM) разработан набор данных RiddleBench, включающий 1737 головоломок. Этот набор предназначен для всесторонней оценки способностей моделей к решению задач, требующих логического мышления и дедукции.
RiddleBench охватывает различные категории рассуждений, включая кодирование-декодирование, установление родственных связей, последовательное рассуждение и расстановку по местам. Такое разнообразие обеспечивает комплексную оценку, выявляя сильные и слабые стороны моделей в различных областях рассуждений.

Оценка производительности моделей в RiddleBench осуществляется посредством zero-shot подхода, что позволяет оценить способность модели к обобщению на новые типы головоломок. Для проведения стандартизированной оценки использовался доступ к API нескольких LLM через платформу DeepInfra, что потребовало затрат в 314 долларов США.
Каскад Галлюцинаций: Когда Ошибки Усиливаются
Анализ выявил эффект «каскада галлюцинаций», при котором LLM распространяет неверные рассуждения, возникшие в другой модели, что приводит к цепочке ошибок. Это демонстрирует, что LLM могут генерировать беглый текст, но не обладают внутренними механизмами для критической оценки достоверности информации.

Это ставит под сомнение предположение о том, что простое увеличение размера модели автоматически решит проблемы с рассуждениями. Эксперименты показали снижение производительности на 6.70 процентных пункта в головоломках «Родственные связи» при случайном перемешивании ограничений, что свидетельствует о чувствительности к вариациям входных данных.
Полученные результаты указывают на необходимость разработки новых подходов к оценке и улучшению способности LLM к логическому мышлению и проверке фактов.
Архитектура Надежных LLM: Уроки и Перспективы
Результаты исследований подчеркивают важность разработки LLM с надежными внутренними механизмами логического мышления и самокоррекции. Простое увеличение размера модели недостаточно для обеспечения надежной работы; архитектуры должны уделять приоритетное внимание логической согласованности и обнаружению ошибок.
В рамках RiddleBench модель GPT-oss-120B достигла общей точности 69.26%, что демонстрирует текущие ограничения даже самых современных моделей в решении сложных задач. Это указывает на необходимость более глубокой интеграции механизмов логического вывода в архитектуру LLM.

Модель Qwen QwQ 32B достигла точности обнаружения логических ошибок в 44.1% и успешности самокоррекции в 17.3%, что демонстрирует потенциал, но и трудности, связанные с обеспечением способности моделей выявлять и исправлять собственные ошибки. Это указывает на то, что способность к самоанализу и исправлению ошибок является ключевым фактором для дальнейшего развития LLM. Понимание границ современных языковых моделей подобно взлому системы, позволяющему увидеть её скрытые уязвимости и найти путь к более совершенному решению.
Исследование демонстрирует, что даже самые передовые языковые модели сталкиваются с трудностями при решении задач, требующих последовательного логического вывода и коррекции ошибок – явление, авторы называют ‘каскадами галлюцинаций’. Этот процесс напоминает попытку сборки сложного механизма, где каждая неверная деталь усугубляет последующие ошибки. В этой связи, уместно вспомнить слова Пола Эрдеша: «Математика — это искусство находить закономерности в хаосе». Подобно тому, как математик ищет скрытую структуру в кажущемся беспорядке, так и авторы RiddleBench стремятся выявить слабые места в логических цепочках больших языковых моделей, провоцируя их на ошибки, чтобы лучше понять принципы их работы и возможности улучшения.
Что дальше?
Представленный бенчмарк, RiddleBench, обнажил не просто недостатки современных больших языковых моделей в области логического вывода и пространственного мышления, а закономерности их ошибок. Это не провал отдельных алгоритмов, а скорее подтверждение того, что текущие подходы к построению ИИ склонны к каскадированию галлюцинаций – к аккуратному, но неуклонному отклонению от истины. Иными словами, система, стремящаяся к правдоподобию, зачастую оказывается куда более убедительной в своей неправоте, чем в правильности.
Будущие исследования неизбежно столкнутся с необходимостью создания моделей, способных не просто генерировать текст, но и самокритически оценивать его достоверность. Необходимо выйти за рамки простого увеличения объемов обучающих данных и сосредоточиться на разработке механизмов, позволяющих модели осознавать границы своей компетенции и признавать собственные ошибки. Решение этой задачи требует взлома самой парадигмы обучения – перехода от пассивного запоминания к активному исследованию.
В конечном итоге, RiddleBench – это не финальная точка, а отправная. Это приглашение к реверс-инжинирингу интеллекта, к пониманию того, что делает рассуждение действительно надежным. И пусть попытки создания идеальной модели неизбежно потерпят крах, сам процесс поиска ценен – он позволяет лучше понять не только возможности машин, но и природу самого мышления.
Оригинал статьи: https://arxiv.org/pdf/2510.24932.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Квантовый прыжок: сможем ли мы наконец разгадать тайну сворачивания белков?
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Память как основа разума: новый подход к генерации ответов
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Разделяй и властвуй: Новый подход к классификации текстов
2025-11-05 21:08