Глубина понимания: где большие языковые модели достигают предела планирования

Автор: Денис Аветисян

Новое исследование показывает, что современные нейросети испытывают трудности с самостоятельным освоением многоступенчатых стратегий, но успешно решают задачи, если промежуточные шаги рассуждений представлены явно.

Исследование скрытого планирования с использованием графов-звезд показало, что, несмотря на масштабирование от трансформера с 1,6 миллионами параметров до GPT-4o, максимальная обнаруженная в процессе обучения способность к скрытому планированию увеличивается лишь на две ступени, однако лучшие языковые модели способны обобщить эту стратегию на несколько дополнительных ступеней во время тестирования, достигая до восьми, при этом производительность GPT-5.4 в режиме few-shot рассматривается как нижняя граница потенциала, поскольку тонкая настройка всегда соответствует или превосходит производительность few-shot для всех остальных оцениваемых моделей.

Работа демонстрирует ограничение в способности больших языковых моделей к открытию стратегий планирования, а не в их исполнении, и исследует роль явного представления шагов рассуждений.

Несмотря на впечатляющие возможности современных больших языковых моделей (LLM), их способность к неявному планированию остается недостаточно изученной. В работе ‘The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning’ исследуются границы скрытого планирования в LLM, демонстрируя, что модели способны обнаруживать стратегии, требующие до семи последовательных шагов неявного рассуждения, но эта способность к открытию стратегий ограничена, в то время как их исполнение может быть более глубоким. Полученные результаты указывают на разрыв между способностью к обнаружению стратегий и их реализации, что ставит под вопрос эффективность методов, полагающихся исключительно на неявные рассуждения. Не потребуются ли для решения сложных задач с многоступенчатым планированием явные инструкции или внешние инструменты для поддержки процесса рассуждений?

Пределы Явного Рассуждения

Современные большие языковые модели, несмотря на свою впечатляющую производительность, часто полагаются на явные цепочки рассуждений, такие как “Chain-of-Thought” (CoT). Хотя этот подход позволяет достичь высокой точности — почти 100% при плотном обучении с использованием CoT — он оказывается вычислительно затратным и плохо масштабируется с ростом сложности задач. Тот факт, что модели способны к практически безошибочному решению при наличии детальных инструкций, указывает на то, что сама по себе сложность задачи не является непреодолимым препятствием, а скорее проблема заключается в способе, которым модели организуют и выполняют процесс рассуждений.

Несмотря на впечатляющую эффективность обучения языковых моделей предсказанию следующего токена, этот подход сам по себе не стимулирует развитие многоступенчатого планирования или формирования внутренних представлений о целях. Исследования показывают, что увеличение масштаба моделей до 32 миллиардов параметров лишь незначительно увеличивает глубину обнаруживаемого скрытого планирования — с трех до четырех-пяти шагов. Это явление, названное “потолком открытий”, указывает на фундаментальное ограничение текущей парадигмы обучения, где модели, по сути, учатся воспроизводить паттерны, а не разрабатывать сложные стратегии решения задач. Таким образом, простой рост вычислительных ресурсов не гарантирует значительного улучшения способности модели к долгосрочному планированию и достижению целей, требуя новых подходов к обучению и архитектуре моделей.

Обучение с использованием полной трассировки от <span class="katex-eq" data-katex-display="false">v_{target}</span> к <span class="katex-eq" data-katex-display="false">v_{source}</span> обеспечивает быструю сходимость всех языковых моделей (примерно за 20 обновлений) и подтверждает, что сложность задачи не является принципиальной причиной низкой эффективности. — Обучение с использованием полной трассировки от $v_{target}$ к $v_{source}$ обеспечивает быструю сходимость всех языковых моделей (примерно за 20 обновлений) и подтверждает, что сложность задачи не является принципиальной причиной низкой эффективности.

Раскрытие Скрытого Планирования

Концепция латентного планирования предполагает, что модели могут формировать и выполнять многошаговые рассуждения без явного использования цепочки мыслей (Chain-of-Thought, CoT) в качестве обучающего сигнала. Это означает, что модель способна самостоятельно выстраивать последовательность действий для достижения цели, не требуя примеров пошагового решения задач в процессе обучения. Вместо этого, модель опирается на внутреннее представление о задачах и возможных путях их решения, что позволяет ей адаптироваться к новым ситуациям и решать задачи, которые не были явно продемонстрированы в обучающих данных. Данный подход позволяет исследовать возможности модели к автономному планированию и рассуждению, отделяя способность к планированию от необходимости в явном руководстве.

Архитектура Transformer, оснащенная механизмом внимания (Attention Mechanism), предоставляет базовую структуру для реализации и оценки стратегий скрытого планирования. Механизм внимания позволяет модели взвешивать различные части входной последовательности, эффективно моделируя зависимости между шагами планирования и позволяя ей фокусироваться на наиболее релевантной информации. Само внимание (self-attention) особенно важно, поскольку оно позволяет модели устанавливать связи между различными элементами входных данных без необходимости явного кодирования этих связей. Эта способность к моделированию сложных взаимосвязей делает Transformer подходящей архитектурой для задач, требующих многошагового рассуждения и планирования, где важна возможность учитывать контекст и зависимости между различными действиями.

Оценка возможностей скрытого планирования требует использования сред, изолирующих способность к рассуждению, и в качестве контролируемой среды оценки используется Star Graph. Эксперименты показали, что без использования плотного обучения (dense supervision) модели демонстрируют ограниченную способность к скрытому планированию, называемую Latent Planning Capacity (LPC), которая составляет 7 шагов. Этот показатель представляет собой улучшение на два шага по сравнению с предыдущими исследованиями в данной области, указывая на прогресс в развитии моделей, способных к внутреннему многошаговому рассуждению без явного контроля.

Визуализация внимания демонстрирует, что при увеличении параметра <span class="katex-eq" data-katex-display="false">k</span> от 2 до 5, внимание последовательно концентрируется на узлах вдоль пути от целевого (<span class="katex-eq" data-katex-display="false">v_{target}</span>) к исходному (<span class="katex-eq" data-katex-display="false">v_{source}</span>) узлам, при этом более поверхностные слои сети фокусируются на целевом узле, а более глубокие - прослеживают путь к исходному. — Визуализация внимания демонстрирует, что при увеличении параметра $k$ от 2 до 5, внимание последовательно концентрируется на узлах вдоль пути от целевого ( $v_{target}$ ) к исходному ( $v_{source}$ ) узлам, при этом более поверхностные слои сети фокусируются на целевом узле, а более глубокие — прослеживают путь к исходному.

Количественная Оценка Внутреннего Рассуждения

Традиционные метрики оценки эффективности планирования, такие как процент успешных попыток, часто не учитывают фактор случайности, особенно в сложных задачах, где существует множество возможных путей к решению. Это приводит к завышенной оценке реальных способностей модели, поскольку даже случайные действия могут привести к успеху. Необходимость более надежной системы оценки обусловлена тем, что в стохастических средах, где результат зависит от случайных событий, простая оценка успешности не позволяет отличить осознанное планирование от случайных совпадений. Поэтому требуется методика, способная отделить вклад реальных навыков планирования от влияния случайности, что необходимо для объективной оценки и сравнения различных алгоритмов и моделей.

Эмпирическая компетентность (Empirical Skill) представляет собой метрику, позволяющую количественно оценить производительность агента в стохастических задачах планирования, учитывая влияние случайности. В отличие от традиционных метрик, которые могут завышать или занижать результаты из-за случайных факторов, Empirical Skill обеспечивает более точную оценку скрытых способностей к планированию, позволяя дифференцировать реальные навыки от случайных успехов. Оценка производится путем моделирования случайных вариаций в среде и измерения стабильности производительности агента в этих условиях. Таким образом, эта метрика предоставляет надежный инструмент для сравнения различных алгоритмов планирования и определения их истинного потенциала в непредсказуемых ситуациях.

Эффективные планировщики активно используют стратегию обратного прослеживания пути (Backtracking) — построения траектории от целевого состояния к исходному. Данный подход значительно усиливается благодаря механизму внимания (Attention Mechanism), который позволяет модели фокусироваться на релевантной информации, необходимой для определения оптимального пути. Использование плотного обучения (Dense Supervision) обеспечивает быструю сходимость модели — приблизительно за 20 итераций обучения — что свидетельствует о высокой эффективности предложенного подхода к планированию и обучению.

Обучение трансформера с нуля демонстрирует двухэтапный процесс: сначала точность валидации достигает уровня случайного выбора, а затем либо резко возрастает при успешном открытии стратегии, либо стабилизируется при продолжающемся снижении потерь, указывая на переобучение без освоения стратегии.

Предел Открытий и Путь Вперед

Несмотря на постоянное увеличение масштаба и усложнение методов обучения, языковые модели демонстрируют так называемый “предел открытий” — точку, после которой дальнейшие улучшения становятся незначительными. Исследования показывают, что увеличение размера модели до 32 миллиардов параметров лишь умеренно повышает глубину выявляемого скрытого планирования — с трех до четырех-пяти шагов. Это указывает на фундаментальные ограничения текущих подходов, где простое увеличение вычислительных ресурсов перестает приносить пропорциональный прирост в способности модели к комплексному рассуждению и планированию действий. Таким образом, для достижения существенного прогресса необходимы принципиально новые архитектурные решения и парадигмы обучения, способные преодолеть этот предел.

Метод ICoT (Internalization of Chain-of-Thought) представляет собой перспективный подход к усилению возможностей неявного планирования в больших языковых моделях. Суть данного метода заключается в постепенном “внутреннем усвоении” процесса рассуждения, изначально представленного в виде цепочки мыслей (Chain-of-Thought). В процессе обучения модели последовательно удаляются отдельные токены из этой цепочки рассуждений, побуждая модель самостоятельно восстанавливать логические связи и выводить решения, опираясь на уже приобретенные знания. Такой подход позволяет модели не просто имитировать рассуждения, но и действительно понимать задачу, что потенциально преодолевает ограничения, связанные с “поверхностным” применением цепочки мыслей и способствует развитию более глубокого и гибкого планирования.

Понимание границ скрытого планирования становится ключевым фактором для определения дальнейших направлений исследований в области больших языковых моделей. Анализ выявленного “потолка открытий” указывает на необходимость выхода за рамки простого увеличения масштаба и совершенствования существующих методов обучения. Будущие разработки, вероятно, сосредоточатся на инновациях в архитектуре моделей, направленных на расширение их способности к многоступенчатому рассуждению, а также на разработке принципиально новых парадигм обучения, способствующих преодолению текущих ограничений в области скрытого планирования и позволяющих языковым моделям демонстрировать более глубокое понимание и эффективное решение сложных задач.

Обучение моделей Qwen 3 (8B и 32B) демонстрирует стабильную двухэтапную динамику, подтверждая, что узкое место в процессе обнаружения сохраняется независимо от семейства моделей и масштаба.

Исследование, представленное в данной работе, подчеркивает фундаментальное ограничение современных больших языковых моделей: неспособность к скрытому планированию. Модели демонстрируют эффективность лишь тогда, когда промежуточные шаги рассуждений становятся явными. Это напоминает о глубокой мысли Давида Гильберта: «В математике нет предварительных знаний, только знания, которые можно доказать». Подобно тому, как математику необходимы доказательства, языковым моделям требуется явное изложение логических шагов для успешного решения задач. Данная работа показывает, что архитектура — это способ откладывать хаос, и в данном случае, хаос — это неспособность к самостоятельному обнаружению стратегий планирования. Порядок — это кеш между двумя сбоями, и явные шаги рассуждений позволяют избежать этих сбоев.

Куда же дальше?

Представленные результаты, кажется, лишь подтверждают старую истину: системы не открывают новые пути, они лишь освещают уже проложенные. Модели демонстрируют способность исполнять планы, когда их им предоставили, но не способны их создавать самостоятельно. Это напоминает садовника, который умело подстригает ветви, но не может вырастить новое дерево. Каждая зависимость от явного представления шагов — это обещание, данное прошлому, ограничение, которое будет преследовать будущие архитектуры.

Очевидно, что проблема кроется не в вычислительной мощности или масштабе моделей, а в самом подходе к обучению. Если каждая архитектурная оптимизация — это пророчество о будущем сбое, то стоит задуматься: не является ли стремление к универсальным планировщикам иллюзией? Более вероятно, что будущее за специализированными системами, способными адаптироваться к конкретным задачам, а не за всеобъемлющими алгоритмами.

Контроль над сложными системами — это иллюзия, требующая соглашения об уровне обслуживания (SLA). Попытки построить идеальный планировщик обречены на неудачу. Вместо этого, необходимо научиться выращивать системы, которые способны к самовосстановлению и адаптации, системы, которые, подобно живым организмам, учатся на своих ошибках и эволюционируют.

Оригинал статьи: https://arxiv.org/pdf/2604.06427.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-09 19:31

🚀 Квантовые новости