Мышление машин: как большие языковые модели учатся рассуждать

Автор: Денис Аветисян

Новое исследование рассматривает, как гибридные архитектуры больших языковых моделей превосходят традиционные в задачах, требующих последовательного мышления и запоминания информации.

В условиях повышенной сложности рассуждений, модели, использующие аугментацию, демонстрируют высокую точность извлечения астрономической информации, основанную на состояниях, что указывает на их способность эффективно оперировать знаниями в динамичной среде.

В работе анализируется роль отслеживания состояния и запоминания как фундаментальных вычислительных примитивов в гибридных и негибридных архитектурах больших языковых моделей.

Несмотря на заметные успехи в обучении больших языковых моделей (LLM), механизмы, лежащие в основе их способности к рассуждению, остаются недостаточно изученными. В работе ‘Reasoning Primitives in Hybrid and Non-Hybrid LLMs’ исследуется, как гибридные архитектуры, сочетающие внимание и рекуррентные обновления состояний, сравниваются со стандартными трансформаторами в поддержке рассуждений, выделяя примитивы отслеживания состояния и извлечения информации. Полученные результаты демонстрируют, что гибридные модели демонстрируют преимущества в сложных задачах, требующих сохранения последовательных вычислений, в то время как добавление токенов, предназначенных для рассуждений, значительно расширяет диапазон сложности, в котором модели остаются эффективными. Не является ли архитектурная поддержка устойчивого распространения состояния ключевым фактором для раскрытия полного потенциала LLM в задачах, требующих сложных логических выводов?

Пределы масштабируемости: Рассуждения в больших языковых моделях

Несмотря на впечатляющие успехи в генерации текста и понимании языка, современные большие языковые модели (LLM) демонстрируют заметные трудности при решении задач, требующих сложного рассуждения. Эти модели зачастую испытывают ограничения в удержании и манипулировании информацией на протяжении длинных последовательностей текста. Например, при попытке проследить логическую связь между событиями, описанными в длинном повествовании, или при решении математических задач, требующих нескольких шагов, точность LLM заметно снижается. Это связано с тем, что архитектура моделей, хотя и позволяет эффективно обрабатывать локальные зависимости, испытывает затруднения при улавливании и поддержании контекста на больших расстояниях, что существенно ограничивает их способность к глубокому и последовательному анализу информации. В результате, сложные задачи рассуждения зачастую требуют от моделей значительных вычислительных ресурсов и не всегда приводят к корректному решению.

Доминирующая архитектура, основанная на Softmax-трансформерах, несмотря на свою гибкость, сталкивается с ограничениями масштабируемости, которые препятствуют эффективной обработке зависимостей на больших расстояниях в тексте. Суть проблемы заключается в том, что механизм Softmax, используемый для определения вероятности следующего слова, требует экспоненциального роста вычислительных затрат с увеличением длины последовательности. Это означает, что при попытке учесть контекст, охватывающий множество предыдущих слов, модель сталкивается с резким увеличением потребляемых ресурсов и снижением производительности. В результате, способность модели к пониманию сложных связей и удержанию информации на протяжении длинных текстов существенно ограничена, что представляет собой серьезное препятствие для решения задач, требующих глубокого семантического анализа и долгосрочной памяти.

Ограничения современных больших языковых моделей (LLM) в решении сложных задач не сводятся исключительно к вычислительным затратам. Наблюдаемые трудности с удержанием и манипулированием информацией в длинных последовательностях указывают на необходимость переосмысления принципов, по которым LLM представляют и поддерживают своё внутреннее вычислительное состояние. Традиционные архитектуры, такие как основанные на Softmax-трансформерах, хоть и обладают гибкостью, сталкиваются с ограничениями масштабируемости, препятствующими эффективной обработке долгосрочных зависимостей. По сути, проблема заключается не только в скорости вычислений, но и в фундаментальном способе организации информации внутри модели, что требует разработки новых подходов к представлению и управлению её «памятью» и состоянием.

Зависимость производительности больших языковых моделей от масштабирования во время инференса — важный показатель фундаментальной проблемы. Вместо эффективной внутренней обработки информации, модели часто полагаются на генерацию огромного количества вероятных вычислений, из которых затем выбирается наиболее подходящий ответ. Это означает, что улучшение результатов достигается не за счет повышения способности к рассуждению, а за счет грубой силы — увеличения объема вычислений. Данный подход, хоть и позволяет добиваться определенных успехов, указывает на необходимость пересмотра архитектуры и методов представления информации в языковых моделях, чтобы обеспечить более эффективное и рациональное решение сложных задач.

По мере увеличения сложности задач точность восстановления данных методом Astro снижается для моделей, обученных с подкреплением на основе инструкций.

Состояние как вычисление: Новая парадигма рассуждений

Концепция “Состояние поверх токенов” (State over Tokens, SoT) предполагает, что токены рассуждений не просто представляют информацию, а кодируют само вычислительное состояние системы. Это означает, что каждый токен содержит в себе не только данные, но и информацию о текущем этапе вычислений, позволяя модели итеративно обновлять и поддерживать внутреннее состояние. В отличие от традиционного подхода, где токены являются пассивными носителями информации, SoT рассматривает их как активные элементы, участвующие в динамическом процессе вычислений и определяющие дальнейший ход рассуждений. Такой подход позволяет модели выполнять вычисления не просто путем последовательной обработки токенов, а путем постоянного обновления и использования внутреннего состояния для получения новых результатов.

В отличие от традиционных подходов, где токены обрабатываются пассивно как отдельные единицы информации, концепция «Состояние над токенами» (State over Tokens) предполагает активное поддержание и обновление представления изменяющегося состояния решаемой задачи. Это означает, что обработка токенов направлена не просто на извлечение информации, но и на модификацию внутреннего состояния системы, отражающего текущий прогресс в решении. Такой подход позволяет избежать повторных вычислений и более эффективно использовать вычислительные ресурсы, поскольку система «помнит» предыдущие шаги и может опираться на них при обработке новых данных. В результате достигается более высокая эффективность рассуждений и снижение требований к объему вычислений по сравнению с моделями, оперирующими исключительно с последовательностями токенов.

Рекуррентные архитектуры, такие как RNN и LSTM, исторически предлагали возможность поддержания внутреннего состояния в процессе обработки последовательностей, однако страдали от проблем масштабируемости и затухания градиентов при работе с длинными последовательностями. Новые методы, в частности, Mamba, развивают эту концепцию, используя механизмы выбора состояния (State Selection Mechanisms) для эффективного управления и обновления внутреннего состояния. Mamba демонстрирует улучшенную масштабируемость и повышенную аппаратную эффективность по сравнению с традиционными рекуррентными сетями и трансформерами, позволяя обрабатывать более длинные последовательности с меньшими вычислительными затратами и сохраняя при этом возможность моделирования зависимостей на больших расстояниях.

Гибридные архитектуры объединяют преимущества механизмов внимания и рекуррентных сетей, используя контентно-ориентированный поиск и постоянное поддержание внутреннего состояния для повышения надёжности рассуждений. В отличие от архитектур, полагающихся исключительно на внимание или рекуррентность, гибридные модели позволяют одновременно извлекать релевантную информацию из входных данных и сохранять контекст на протяжении всей последовательности вычислений. Это достигается путем интеграции слоев внимания, обеспечивающих доступ к различным частям входных данных, и рекуррентных слоев, отвечающих за поддержание и обновление внутреннего состояния. Такая комбинация позволяет более эффективно обрабатывать длинные последовательности и решать сложные задачи, требующие как извлечения информации, так и сохранения контекста, что делает гибридные архитектуры перспективным направлением в развитии систем искусственного интеллекта.

Проверка отслеживания состояния с помощью сложных задач моделирования

Для оценки эффективности различных моделей были использованы два сложных задания: «Симулятор Столкновений» и «Астро-Воспоминания». Оба задания требуют точного отслеживания состояния (State Tracking) и воспроизведения изменяющейся информации. «Симулятор Столкновений» моделирует физические взаимодействия, требуя от модели прогнозирования траекторий и результатов столкновений. «Астро-Воспоминания» представляет собой задачу на запоминание и воспроизведение информации о динамично изменяющихся астрономических объектах и их характеристиках. Оба сценария акцентируют внимание на способности модели поддерживать внутреннюю репрезентацию изменяющегося мира и извлекать релевантную информацию для решения поставленной задачи.

Обе задачи — Collision Simulator и Astro Recall — требуют от моделей не только извлечения информации о текущем состоянии системы, но и способности точно прогнозировать её будущее состояние, основываясь на последовательности предыдущих взаимодействий и преобразований. Это подразумевает моделирование динамики системы, где каждое действие или изменение влияет на последующие состояния. Успешное выполнение этих задач требует от модели способности выводить информацию о будущем состоянии, основываясь на анализе прошлых событий и понимании правил, определяющих эволюцию системы, а не простого воспроизведения заученной информации.

Для повышения способности моделей к рассуждениям использовалась техника «Обогащение рассуждениями» (Reasoning Augmentation) посредством предоставления им «производных трасс» (derivational traces). Данный подход предполагает обучение моделей на тщательно подобранных примерах, демонстрирующих последовательность логических шагов, необходимых для решения задачи. Производные трассы представляют собой структурированные данные, описывающие эволюцию состояния системы и промежуточные результаты вычислений, что позволяет модели изучать не только конечный ответ, но и процесс его получения. Использование таких примеров направлено на улучшение способности модели к дедуктивному и индуктивному мышлению, а также к прогнозированию будущих состояний на основе анализа предшествующих событий.

Для оценки производительности моделей в задачах, требующих отслеживания состояний, применялась метрика Parsed-Weighted Accuracy. Данная метрика комбинирует общую точность с долей успешно распарсенных выходных данных, что обеспечивает интерпретируемость результатов. В ходе экспериментов наблюдалось значительное преимущество гибридных архитектур: модель OLMo-Hybrid-Think при параметрах m=32 и n=32 достигла точности 0.93, в то время как модель OLMo-3-7B-Think показала результат 0.49. Это свидетельствует о повышенной эффективности гибридных моделей в задачах, требующих точного отслеживания и предсказания состояний.

В условиях несложных задач точность алгоритма Astro Recall для моделей, настроенных на выполнение инструкций, демонстрирует стабильные результаты.

За пределами моделирования: Влияние на общее рассуждение и будущие архитектуры

Наблюдаемые улучшения в отслеживании состояния и восстановлении информации выходят за рамки конкретных симуляционных задач, указывая на потенциальное расширение возможностей общего рассуждения. Исследование демонстрирует, что способность модели сохранять и эффективно использовать информацию о предыдущих шагах процесса, изначально отточенная в контролируемой среде, может быть применена к более широкому спектру когнитивных задач. Это говорит о том, что механизмы, позволяющие модели «помнить» и учитывать контекст, являются фундаментальными для развития более продвинутых способностей к логическому мышлению, планированию и решению проблем, не ограничиваясь лишь воспроизведением паттернов из обучающих данных. Такая способность к сохранению и использованию внутреннего состояния может стать ключевым фактором в создании искусственного интеллекта, способного к более гибкому и адаптивному мышлению.

Исследование демонстрирует, что модели Olmo3-7B и Olmo3-Hybrid-7B успешно интегрируют механизмы отслеживания состояния непосредственно в существующие архитектуры больших языковых моделей (LLM). Данный подход подтверждает принципиальную возможность улучшения способности LLM к поддержанию контекста и рассуждению, не требуя кардинальной переработки базовых фреймворков. Внедрение этих механизмов позволяет моделям более эффективно запоминать и использовать информацию из предыдущих шагов рассуждения, что особенно важно для решения сложных задач, требующих последовательного мышления и учета меняющихся условий. Полученные результаты указывают на перспективность дальнейшего развития и оптимизации подобных систем для создания более надежных и интеллектуальных ИИ-агентов.

Ключевую роль в адаптации языковых моделей к человеческим схемам рассуждений играет процесс тонкой настройки с использованием инструкций. Этот метод позволяет существенно повысить эффективность моделей при решении сложных задач, поскольку он направлен на выстраивание соответствия между внутренними представлениями модели и способами, которыми люди подходят к анализу и решению проблем. Тщательно подобранные инструкции служат своеобразным «руководством», помогая модели интерпретировать входные данные и генерировать ответы, соответствующие логическим и контекстуальным ожиданиям. Таким образом, тонкая настройка с использованием инструкций не просто улучшает показатели производительности, но и способствует созданию более интуитивно понятных и надежных систем искусственного интеллекта, способных эффективно взаимодействовать с человеком.

Исследования показали значительный прогресс в точности отслеживания состояния и логических выводов благодаря модели OLMo-Hybrid-Think при настройках m=64 и n=64. В частности, эта модель достигла взвешенной точности разбора 0.45, что является существенным улучшением по сравнению с показателем 0.03, продемонстрированным моделью OLMo-3-7B-Think. Более того, общая точность OLMo-Hybrid-Think при тех же настройках составила впечатляющие 0.97, что свидетельствует о потенциале гибридных архитектур для повышения надежности и эффективности языковых моделей в решении сложных задач, требующих последовательного отслеживания информации и логического мышления.

Инструктивно-настроенные и модели, дополненные рассуждениями, демонстрируют повышенную точность в симуляторе столкновений по мере увеличения сложности задач.

Исследование, представленное в данной работе, подтверждает, что архитектуры, сочетающие в себе различные подходы, демонстрируют превосходство в задачах, требующих последовательных вычислений и отслеживания состояния. Это особенно заметно в контексте сложных рассуждений, где способность модели удерживать информацию на протяжении длительных последовательностей является ключевым фактором. Как однажды заметил Линус Торвальдс: «Если вы думаете, что у вас хорошая идея, просто сделайте её». Подобный подход к проектированию систем, основанный на практической реализации и постоянном улучшении, находит отражение и в разработке гибридных архитектур, стремящихся оптимизировать процесс рассуждения посредством эффективного отслеживания состояния и использования рекурсивных примитивов.

Что дальше?

Представленная работа, исследуя примитивы рассуждений в гибридных архитектурах, неизбежно сталкивается с фундаментальным вопросом: насколько вообще возможно создать систему, способную к подлинному, а не эмулируемому, мышлению? Гибридные модели демонстрируют преимущество в задачах, требующих последовательных вычислений и отслеживания состояния, но это лишь отсрочка неизбежного. Стабильность, достигаемая за счет усложнения архитектуры, может оказаться лишь временной задержкой катастрофы — неспособности системы адекватно реагировать на принципиально новые, не предусмотренные в обучающей выборке ситуации.

Будущие исследования, вероятно, будут направлены на поиск более элегантных, а не просто более сложных, способов интеграции механизмов памяти и рассуждений. Однако, необходимо признать, что сама концепция «памяти» в контексте языковых моделей — это, по сути, статичная запись прошлых взаимодействий. Подлинное понимание требует не просто сохранения информации, но и способности к её переосмыслению, к построению новых связей, к творчеству. Вопрос в том, возможно ли это в рамках текущей парадигмы, или необходим принципиально иной подход.

В конечном итоге, системы стареют не из-за ошибок в коде или недостатка данных, а из-за неумолимого течения времени. Каждая архитектура, какой бы инновационной она ни была, обречена на постепенное устаревание. Задача исследователей — не создать вечную систему, а найти способы, позволяющие этим системам стареть достойно, сохраняя свою полезность и способность адаптироваться к меняющемуся миру.

Оригинал статьи: https://arxiv.org/pdf/2604.21454.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-24 08:12

🚀 Квантовые новости