Хрупкость разума: слабые места языковых моделей в математических задачах

Автор: Денис Аветисян

Новое исследование выявило, что современные большие языковые модели склонны к ошибкам в математических рассуждениях из-за чувствительности к контексту и особенностям внутренней архитектуры.

Средняя длина сгенерированного текста варьируется в зависимости от задачи, при этом точность модели на каждой трансформации отображается внутри соответствующих столбцов, а длина выходного запроса, измеренная в тысячах токенов, указана над ними.

Оценка устойчивости языковых моделей к контекстному шуму и структурным изменениям в задачах алгоритмического мышления.

Несмотря на впечатляющие результаты больших языковых моделей (LLM) в решении математических задач, их способность к надежному логическому выводу остается уязвимой к незначительным изменениям в формулировках. В работе ‘Robust Reasoning Benchmark’ предложен комплекс из 14 техник для оценки устойчивости LLM к таким возмущениям, примененный к датасету AIME 2024 и восьми передовым моделям. Полученные результаты демонстрируют, что модели с открытыми весами подвержены катастрофическому снижению точности при возмущениях, выявляя структурную хрупкость и указывая на проблему «загрязнения» механизма внимания промежуточными шагами рассуждений. Какие архитектурные решения необходимы для создания LLM с надежными алгоритмическими способностями и эффективным управлением рабочей памятью?

Ограничения масштабирования: Рассуждения в больших языковых моделях

Современные большие языковые модели демонстрируют впечатляющие возможности в обработке и генерации текста, однако зачастую их успех обусловлен не глубоким логическим мышлением, а распознаванием закономерностей в данных. По мере увеличения длины входного контекста, эта тенденция усиливается: модели всё больше полагаются на поверхностный анализ, а способность к последовательному, обоснованному рассуждению ослабевает. Это означает, что при решении сложных задач, требующих многоступенчатого анализа и синтеза информации, модели могут давать неверные ответы, несмотря на кажущуюся связность и правдоподобность генерируемого текста. Существующие архитектуры, хоть и способны обрабатывать большие объемы информации, испытывают трудности с сохранением релевантности и точности при увеличении длины контекста, что ставит под вопрос надежность их ответов в ситуациях, требующих критического мышления.

Стандартный механизм плотного внимания, лежащий в основе многих больших языковых моделей, демонстрирует существенные ограничения при увеличении длины контекстного окна. По мере расширения контекста, способность модели фокусироваться на релевантной информации снижается, приводя к феномену, известному как “дрейф внимания в длинном контексте”. Этот дрейф проявляется в том, что модель начинает уделять непропорционально большое внимание менее значимым частям контекста, что негативно сказывается на точности и согласованности генерируемых ответов. Фактически, модель “теряет фокус”, и ее производительность снижается, поскольку она все больше затрудняется в определении наиболее важной информации для решения поставленной задачи. Данное явление представляет собой фундаментальную проблему для масштабирования языковых моделей и требует разработки новых механизмов внимания, способных эффективно обрабатывать большие объемы информации.

Ухудшение производительности больших языковых моделей при увеличении длины контекста связано с явлением, известным как размытие внимания внутри запроса. Суть его заключается в том, что информация из предыдущих шагов рассуждений постепенно “загрязняет” контекст, мешая модели корректно обрабатывать последующие данные. Исследования показали, что эта проблема особенно остро проявляется в моделях с открытым исходным кодом, где деградация качества значительно выше, чем в проприетарных аналогах при работе с длинными последовательностями текста. Это указывает на то, что архитектурные решения и методы обучения, применяемые в закрытых моделях, могут более эффективно справляться с проблемой размытия внимания и поддерживать точность рассуждений даже при значительном увеличении длины контекста.

Эксперименты показали, что последовательное решение нескольких задач в одном запросе приводит к снижению точности рассуждений у моделей, включая Claude Opus 4.6 и open-weight модели (от 7B до 120B параметров), в то время как Gemini 3.1 Pro и GPT-5.4 демонстрируют устойчивость, что указывает на необходимость архитектурного решения для изоляции рабочей памяти в процессе chain-of-thought.

Усиление контекстной фокусировки: Рабочая память и надежность

Ключевое улучшение в современных больших языковых моделях (LLM) заключается в обеспечении изоляции рабочей памяти. Это позволяет моделям приоритизировать текущие шаги рассуждений, минимизируя влияние и помехи от предыдущих этапов обработки информации. В отличие от простого увеличения размера контекстного окна, изоляция рабочей памяти направлена на создание чёткого разделения между активными и неактивными частями памяти модели, что повышает её способность к последовательному и надёжному логическому выводу, особенно при решении сложных задач, требующих многоэтапных рассуждений.

Метод Chain-of-Thought (CoT) позволяет языковым моделям (LLM) демонстрировать последовательность рассуждений, однако он не решает фундаментальные ограничения, присущие механизму внимания. CoT стимулирует LLM к вербализации промежуточных шагов, что улучшает интерпретируемость, но не устраняет проблему «забывания» или неспособности эффективно удерживать релевантную информацию на протяжении всего процесса рассуждения. В частности, механизм внимания по-прежнему подвержен влиянию отвлекающих факторов и может некорректно взвешивать важность различных частей входных данных, даже если промежуточные шаги явно сформулированы. Таким образом, CoT является скорее способом улучшения представления рассуждений, а не фундаментальным решением проблемы ограниченной рабочей памяти и недостаточной устойчивости LLM к помехам.

Для систематической оценки устойчивости рассуждений, в Robust Reasoning Benchmark используются детерминированные структурные возмущения (Deterministic Structural Perturbations), позволяющие протестировать хрупкость логических цепочек больших языковых моделей (LLM). В ходе тестирования наблюдался значительный разрыв в производительности: точность открытых моделей снижалась на 55% при обработке возмущенных входных данных, в то время как для проприетарных моделей этот показатель составлял лишь 7-10%. Данный результат указывает на более высокую чувствительность открытых моделей к небольшим изменениям в структуре входных данных, что свидетельствует о необходимости разработки методов повышения их надежности.

Наблюдаемые шаги внутреннего рассуждения агента демонстрируют утечку контекста, что позволяет визуально отследить ход его мысли.

Атакующее тестирование: Возмущение входных данных для обеспечения надежности

Анализ устойчивости больших языковых моделей (LLM) осуществляется посредством адьверсарных тестов, включающих различные текстовые преобразования. Эти преобразования намеренно изменяют структуру входных данных, не затрагивая при этом их семантическое содержание. Целью является проверка способности модели сохранять логическую последовательность и точность ответов при незначительных, но целенаправленных изменениях входного текста. Такой подход позволяет выявить уязвимости, связанные с зависимостью модели от конкретного синтаксиса или порядка слов, и оценить ее способность к обобщению и адаптации к различным формам представления информации.

Для оценки устойчивости больших языковых моделей (LLM) применяются методы аверсивного тестирования, включающие намеренные изменения структуры входного текста без изменения его семантического значения. В частности, используются такие техники, как реверс слов (изменение порядка слов в предложении), реверс предложений (изменение порядка предложений в тексте), шифр «рельс» (Rail Fence Cipher) и «змеиное» кодирование (Snake Encoding). Эти методы направлены на выявление уязвимостей модели в поддержании логической связности и корректности рассуждений при обработке слегка измененных входных данных, имитируя возможные искажения в реальных сценариях использования.

Тестирование на устойчивость к насыщению контекста, являющееся формой атак на основе возмущений, оценивает способность модели сохранять работоспособность при добавлении в входной контекст специфичного шума, имитирующего сложность реальных данных. В ходе исследований было установлено, что модель Nemotron-7B демонстрирует «когнитивный сбой» и достигает 0% точности после обработки 27 000 токенов с использованием преобразования «Змейка Вертикаль», в то время как Qwen3 показывает лишь 1% точности после обработки 13 000 токенов при том же типе преобразования. Данные результаты демонстрируют чувствительность современных больших языковых моделей к объему и структуре входного контекста.

Анализ уязвимостей показывает, что точность моделей различается в зависимости от типа применяемых преобразований данных.

Оптимизация оценки: Инструменты и платформы для анализа

Для автоматизации и масштабирования процесса оценки возможностей больших языковых моделей (LLM) используется платформа AntiGravity. Данный агентский фреймворк позволяет проводить систематизированное тестирование с применением эталонного набора Robust Reasoning Benchmark. AntiGravity автоматизирует этапы подготовки данных, запуска тестов и анализа результатов, что существенно ускоряет процесс оценки и позволяет охватить значительно больший объем данных, чем при ручной проверке. Это особенно важно при оценке устойчивости моделей к различным искажениям и нештатным ситуациям, поскольку позволяет выявить слабые места и области для улучшения.

Эффективная токенизация, в частности, с использованием алгоритма Byte-Pair Encoding (BPE), играет ключевую роль в обработке и манипулировании текстом как в процессе обучения моделей, так и при проведении состязательных тестов. BPE позволяет разбить текст на подслова, что особенно важно для работы с редкими словами и незнакомыми терминами, встречающимися в математических задачах и других сложных текстах. Такой подход снижает потребность в огромном словарном запасе и повышает обобщающую способность модели. В процессе обучения BPE помогает модели более эффективно усваивать структуру языка, а при состязательном тестировании позволяет оценивать устойчивость модели к незначительным изменениям в тексте, таким как опечатки или синонимичные замены, что крайне важно для обеспечения надежности и предсказуемости работы системы.

Набор данных AIME 2024 служит ключевым инструментом для оценки способностей к математическому рассуждению в условиях намеренных возмущений. Исследования выявили существенную разницу в устойчивости различных моделей: закрытые, проприетарные модели демонстрируют среднюю точность в 80-90% при решении задач AIME 2024 даже после внесения изменений в исходные данные. В то же время, модели с открытым исходным кодом показывают значительно более низкий результат, в среднем от 25 до 35%. Это указывает на то, что в настоящее время проприетарные модели обладают большей устойчивостью к незначительным изменениям в задачах, требующих математического мышления, по сравнению с моделями, доступными для широкой общественности и модификации.

Результаты на бенчмарке AIME 2024 с нашими возмущениями показывают, что полные столбцы соответствуют достигнутой точности, а полупрозрачные сегменты - отказам модели или неправильным ответам. — Результаты на бенчмарке AIME 2024 с нашими возмущениями показывают, что полные столбцы соответствуют достигнутой точности, а полупрозрачные сегменты — отказам модели или неправильным ответам.

Исследование демонстрирует, что современные большие языковые модели обладают хрупким математическим мышлением, подверженным влиянию “загрязнения контекста”. Этот феномен указывает на структурную чувствительность систем, где даже незначительные изменения в входных данных приводят к существенным ошибкам. Как отмечал Марвин Минский: «Искусственный интеллект — это не создание мыслящей машины, а создание машины, которая может думать». Данное исследование подтверждает эту мысль, показывая, что для достижения надежного алгоритмического мышления необходимы архитектурные улучшения и явное разделение рабочей памяти, чтобы система могла эффективно справляться с задачами, не теряя целостности рассуждений. Структура, определяющая поведение системы, требует особого внимания при разработке подобных моделей.

Куда двигаться дальше?

Представленная работа выявляет фундаментальную хрупкость, скрывающуюся за кажущейся способностью больших языковых моделей к математическому рассуждению. Очевидно, что оптимизация отдельных компонентов без понимания целостной архитектуры — это, по сути, лечение симптомов, а не болезни. Модели демонстрируют уязвимость к «загрязнению контекста», что говорит о недостатке внутренней организации и способности к чёткому разграничению информации. Простота, как известно, масштабируется лучше изощрённости, и здесь становится очевидной необходимость в более элегантных решениях.

Архитектурные улучшения, направленные на явное разделение рабочей памяти и снижение чувствительности к структурным изменениям в контексте, представляются наиболее перспективным направлением. Однако, стоит помнить: зависимость от сложной архитектуры — это настоящая цена свободы от фундаментальных ограничений. Попытки «залатать» существующие модели, вероятно, приведут лишь к временным улучшениям, замаскировав более глубокие проблемы.

Настоящий прогресс требует переосмысления принципов построения систем, способных к надежному алгоритмическому мышлению. Хорошая архитектура незаметна, пока не ломается, и только время покажет, какие из предложенных решений окажутся действительно устойчивыми к неизбежным вызовам.

Оригинал статьи: https://arxiv.org/pdf/2604.08571.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-13 22:53

🚀 Квантовые новости