Автор: Денис Аветисян
Новое исследование раскрывает фундаментальные ограничения современных больших языковых моделей в области композиционного мышления и предлагает пути для их преодоления.

Работа представляет фреймворк ‘Законы Рассуждений’ (LoRe), формализующий связь между сложностью задач и способностью моделей к логическим выводам, и демонстрирует важность обеспечения композиционности для повышения точности.
Несмотря на впечатляющую производительность больших языковых моделей в решении сложных задач, их логические рассуждения зачастую кажутся неинтуитивными и приводят к субоптимальным результатам. В статье ‘When Reasoning Meets Its Laws’ предложена концепция «Законов Рассуждений» (LoRe) — унифицированная структура, описывающая закономерности в работе больших моделей. Авторы выявили, что вычислительная сложность рассуждений должна линейно возрастать с усложнением вопроса, и продемонстрировали, что современные модели часто не обладают свойством композиционности, необходимым для эффективного решения сложных задач. Возможно ли, используя эти законы, создать более надежные и эффективные системы искусственного интеллекта, способные к истинному логическому мышлению?
Разоблачение Рассуждений: Пределы Масштабирования
Современные большие языковые модели демонстрируют впечатляющие возможности в обработке информации и генерации текста, однако их способность к логическому мышлению и решению задач остается хрупкой и зачастую неэффективной. Несмотря на значительные успехи в выполнении различных заданий, модели нередко допускают ошибки в ситуациях, требующих последовательного применения логических правил или обобщения полученных знаний. Это проявляется в склонности к поверхностному анализу данных, неспособности к выявлению скрытых закономерностей и трудностях в решении задач, требующих глубокого понимания контекста. Таким образом, несмотря на кажущуюся интеллектуальность, текущие модели часто демонстрируют недостаток настоящей рациональности и нуждаются в дальнейших исследованиях для повышения надежности и эффективности их логических способностей.
Существенная проблема, с которой сталкиваются большие языковые модели (LLM), заключается в распределении так называемого “вычислительного ресурса для рассуждений” — вычислительных мощностей, направленных на последовательное решение задач. Несмотря на впечатляющий рост масштаба этих моделей, простое увеличение размера не гарантирует надежности и эффективности рассуждений. Исследования показывают, что LLM часто тратят значительные ресурсы на избыточные или нерелевантные шаги, вместо того чтобы концентрироваться на ключевых аспектах проблемы. Это указывает на то, что простое увеличение вычислительной мощности без оптимизации алгоритмов рассуждений не приводит к качественному улучшению способности решать сложные задачи и может приводить к неэффективному использованию ресурсов.
Оценка способности к рассуждениям требует перехода от простого определения правильности ответа к анализу того, как вычислительные ресурсы используются в процессе решения задачи. Исследования показывают, что простое увеличение масштаба языковой модели не гарантирует надежного мышления. Важно оценивать, соответствует ли процесс рассуждений принципам монотонности — когда добавление новой информации не приводит к противоречивым выводам — и композиционности — способности объединять простые рассуждения в более сложные. Иными словами, необходимо исследовать, использует ли модель вычислительные ресурсы эффективно и логически последовательно, а не просто полагается на статистические закономерности в данных. Такой подход позволит более точно оценить истинный потенциал моделей в решении сложных задач и разработать более эффективные алгоритмы рассуждений.

Диагностика Рассуждений с LoRe: Ориентиры для Вычислений
Набор тестов LoRe, включающий в себя ‘LoRe-Mono’ и ‘LoRe-Compo’, был разработан специально для оценки того, демонстрируют ли большие языковые модели (LLM) монотонное масштабирование ‘Вычислительной сложности рассуждений’ (Reasoning Compute) с увеличением сложности решаемых задач. В рамках данного подхода, ‘Вычислительная сложность рассуждений’ измеряется как количество токенов, обработанных моделью при решении задачи. Монотонное масштабирование предполагает, что более сложные задачи требуют пропорционально больше вычислительных ресурсов, что является необходимым условием для надежных и предсказуемых результатов. Тесты LoRe позволяют количественно оценить эту зависимость и выявить потенциальные отклонения от ожидаемого монотонного поведения.
Бенчмарк LoRe-Compo предназначен для оценки композиционности вычислительных затрат в больших языковых моделях (LLM). Он проверяет, соответствует ли суммарное количество вычислений, необходимое для решения сложной задачи, состоящей из нескольких более простых подзадач, сумме вычислений, затраченных на решение каждой подзадачи по отдельности. Иными словами, оценивается, линейно ли масштабируются вычислительные затраты при объединении задач. Если модель не демонстрирует линейное масштабирование, это указывает на отсутствие композиционности в процессе рассуждений, что может ограничивать ее способность эффективно решать сложные задачи, требующие комбинирования нескольких шагов логического вывода.
Анализ, проведенный с использованием бенчмарков LoRe (LoRe-Mono и LoRe-Compo), показал, что современные Большие Рассуждающие Модели (LRM) в целом демонстрируют монотонное масштабирование “вычислительных ресурсов для рассуждений” с увеличением сложности задачи. Однако, в отличие от этого, LRM не проявляют композиционного поведения в отношении вычислительных ресурсов. Это означает, что вычислительные затраты на решение комбинации задач не соответствуют сумме вычислительных затрат на решение каждой задачи по отдельности, что указывает на неэффективность использования ресурсов при решении комплексных проблем.

SFT-Compo: Укрепление Композиционности Через Дообучение
Метод обучения с контролируемым дообучением и композиционными подсказками (SFT-Compo) направлен на устранение недостатка композиционности в процессе логических рассуждений больших языковых моделей (LLM). Композиционность подразумевает способность модели последовательно применять несколько логических шагов для решения сложных задач. SFT-Compo использует специально разработанные обучающие данные, в которых явно выделены отдельные этапы рассуждений, что позволяет модели научиться более эффективно декомпозировать сложные запросы на более простые подзадачи и последовательно решать их. Таким образом, SFT-Compo является методом, ориентированным на прямое улучшение способности LLM к логическому мышлению и решению задач, требующих последовательного применения нескольких логических операций.
Метод SFT-Compo обучает большие языковые модели (БЯМ) более эффективному распределению вычислительных ресурсов, выделяемых на рассуждения. Это достигается путем явного поощрения композиционного поведения — способности последовательно применять логические шаги для решения задачи. В процессе обучения модель получает вознаграждение за демонстрацию структурированного подхода к рассуждениям, что позволяет ей оптимизировать использование вычислительных ресурсов и повысить точность решения задач, требующих последовательного применения логических операций. Фактически, SFT-Compo направлен на улучшение способности модели к декомпозиции сложных задач на более простые, последовательно решаемые подзадачи.
Применение метода SFT-Compo привело к значительному снижению Normalized Mean Absolute Deviation (nMAD) вычислительных ресурсов, задействованных в процессе рассуждений, что свидетельствует об улучшении композиционного поведения модели. На тестовом наборе LoRe-Compo конкретная модель показала повышение точности с 0.25 до 0.875 после применения SFT-Compo. Снижение nMAD указывает на более эффективное распределение вычислительных ресурсов между различными этапами логических рассуждений, что, в свою очередь, коррелирует с улучшением общей точности модели в задачах, требующих композиционного мышления.

DeepSeek-R1: Изучение Вычислительной Мощности Рассуждений
Исследования, проведенные с использованием модели DeepSeek-R1, показали, что ее вычислительные возможности, направленные на рассуждения, соответствуют принципам монотонности и композиционности. Монотонность в данном контексте означает, что добавление релевантной информации не ухудшает способность модели к логическим выводам, а композиционность — способность эффективно обрабатывать и интегрировать несколько этапов рассуждений для решения сложных задач. Данное соответствие принципам, лежащим в основе человеческого мышления, свидетельствует о потенциале DeepSeek-R1 в области искусственного интеллекта и подтверждает возможность создания моделей, способных к более глубокому и последовательному анализу информации, что открывает новые перспективы в решении задач, требующих сложных рассуждений и логических построений.
Исследования показали, что целенаправленные вмешательства, такие как SFT-Compo, способны значительно повысить способность больших языковых моделей к логическому мышлению. Данный подход, фокусирующийся на улучшении способности модели к составлению и анализу сложных вопросов, демонстрирует ощутимый прогресс в решении задач, требующих последовательного применения логических правил. Успешность SFT-Compo указывает на возможность целенаправленной оптимизации архитектуры и обучающих данных для повышения эффективности языковых моделей в областях, требующих не просто обработки информации, а её осмысленного анализа и синтеза. Полученные результаты открывают перспективы для создания более интеллектуальных систем, способных решать сложные проблемы и принимать обоснованные решения.
Применение методики SFT-Compo привело к заметному повышению точности ответа на составные вопросы, что свидетельствует об улучшении способности модели DeepSeek-R1 к решению сложных задач, требующих логического мышления. Этот результат демонстрирует, что целенаправленное обучение, фокусирующееся на композиционных способностях, позволяет значительно усилить навыки модели в области рассуждений. В частности, наблюдалось улучшение в обработке вопросов, требующих объединения нескольких логических шагов для достижения корректного ответа, что подтверждает эффективность SFT-Compo как инструмента для повышения интеллектуальных возможностей больших языковых моделей и их способности к решению комплексных проблем.

Представленное исследование закономерно подчеркивает слабость современных больших языковых моделей в области композиционного рассуждения. Устремление к усложнению архитектур зачастую заслоняет фундаментальную потребность в ясности и последовательности логических шагов. Как однажды заметил Марвин Минский: «Самое важное — это не знать всё, а знать, где это искать и как это упростить». Данный принцип особенно актуален в контексте сформулированных Законов Рассуждения (LoRe), поскольку именно от способности модели к монотонному и точному построению логических цепочек зависит ее эффективность при решении сложных задач. Работа акцентирует внимание на том, что истинный прогресс в области искусственного интеллекта заключается не в увеличении масштаба, а в очищении и оптимизации базовых принципов рассуждения.
Куда же дальше?
Представленная работа, за кажущейся строгостью формализации, обнажает досадную истину: современные большие языковые модели, столь уверенно демонстрирующие успехи в решении задач, по сути, лишь имитируют разумность. Законы Рассуждений (LoRe) — не столько открытие новых принципов, сколько констатация неспособности существующих систем к истинному композиционному мышлению. Очевидно, что наращивание вычислительных мощностей и объемов данных не является панацеей, если фундаментальная архитектура моделей не обеспечивает соблюдение принципов монотонности и точности.
Будущие исследования неизбежно столкнутся с необходимостью переосмысления самой парадигмы обучения. Вместо слепого подражания статистическим закономерностям, акцент должен быть сделан на построении моделей, способных к дедуктивным умозаключениям и проверке гипотез. Вопрос заключается не в том, чтобы научить машину решать задачи, а в том, чтобы научить её понимать, почему решение верно. Попытки обойти необходимость в строгой формализации, заменяя её эвристиками и приближениями, обречены на провал.
Ирония заключается в том, что стремление к сложности, столь характерное для современной науки, лишь усугубляет проблему. Возможно, ключ к созданию действительно разумных систем лежит не в усложнении моделей, а в их упрощении — в поиске элегантных и минималистичных решений, основанных на фундаментальных принципах логики и рассуждений. Сложность — это тщеславие; ясность — милосердие.
Оригинал статьи: https://arxiv.org/pdf/2512.17901.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Нейронные Операторы в Энергетике: Новый Подход к Моделированию
- Ранговая оптимизация без градиента: Новые границы эффективности
- Синергия лекарств: поиск комбинаций с помощью квантовых вычислений
- Искусство отбора данных: Новый подход к обучению генеративных моделей
- Квантовая химия: Новый подход к возбужденным состояниям
- Геометрия Хаоса: Распознавание Образов в Сложных Системах
- Квантовые ядра: Гарантированная оценка точности
- Квантовые Загадки: Размышления о Современной Физике
- Восстановление потенциала Шрёдингера: новый численный подход
- Спектральная оптимизация: новый подход к созданию квантовых состояний
2025-12-22 22:55