Пространственное мышление нейросетей: от основ к планированию

Автор: Денис Аветисян

Новый подход позволяет большим языковым моделям решать сложные задачи, требующие многошагового пространственного рассуждения и планирования действий.

В рамках предложенной схемы обучения модель <span class="katex-eq" data-katex-display="false">Qwen-Instruct</span> последовательно совершенствуется: сначала, посредством тонкой настройки на наборе данных Building Block, она осваивает базовые пространственные преобразования - трансляцию, масштабирование и вращение, формируя промежуточную модель <span class="katex-eq" data-katex-display="false">Qwen-Physics</span>, а затем, с использованием алгоритма GRPO и LoRA-адаптеров в замкнутом цикле обучения, приобретает навыки многошагового пространственного рассуждения и планирования, что приводит к созданию финальной модели <span class="katex-eq" data-katex-display="false">Qwen-PhysRL</span>. — В рамках предложенной схемы обучения модель $Qwen-Instruct$ последовательно совершенствуется: сначала, посредством тонкой настройки на наборе данных Building Block, она осваивает базовые пространственные преобразования — трансляцию, масштабирование и вращение, формируя промежуточную модель $Qwen-Physics$ , а затем, с использованием алгоритма GRPO и LoRA-адаптеров в замкнутом цикле обучения, приобретает навыки многошагового пространственного рассуждения и планирования, что приводит к созданию финальной модели $Qwen-PhysRL$ .

В статье представлена двухэтапная система обучения, сочетающая контролируемое обучение и обучение с подкреплением для надежного пространственного рассуждения в задачах, основанных на головоломках.

Несмотря на впечатляющие успехи в обработке естественного языка, большие языковые модели (LLM) по-прежнему испытывают трудности с многоступенчатым пространственным рассуждением и планированием. В данной работе, ‘From Building Blocks to Planning: Multi-Step Spatial Reasoning in LLMs with Reinforcement Learning’, предложен двухэтапный подход, разбивающий пространственное мышление на элементарные блоки и их композицию, с использованием обучения с подкреплением. Показано, что предварительное обучение модели базовым пространственным преобразованиям, а затем тонкая настройка с помощью LoRA-адаптеров, значительно превосходит существующие методы в задачах планирования в головоломках. Способны ли подобные архитектуры обеспечить более гибкое и эффективное решение сложных задач, требующих глубокого понимания пространственных отношений?

Пространственное мышление: вызов для искусственного интеллекта

Несмотря на впечатляющие успехи больших языковых моделей (БЯМ) в обработке текстовой информации, истинное пространственное мышление остается сложной задачей для искусственного интеллекта. БЯМ, обученные на огромных объемах текста, демонстрируют способность понимать и генерировать язык, но испытывают трудности при решении задач, требующих понимания трехмерных отношений, навигации в динамичных средах или манипулирования объектами в пространстве. Эта проблема обусловлена тем, что текстовые данные, как правило, не содержат явной информации о пространственных взаимосвязях, что затрудняет для моделей извлечение и применение этих знаний. В отличие от человека, который интуитивно воспринимает пространство благодаря зрению и опыту, БЯМ должны учиться этим концепциям косвенно, что требует разработки новых методов и архитектур, способных эффективно моделировать и использовать пространственную информацию.

Традиционные подходы к искусственному интеллекту, основанные на символьных вычислениях и логических правилах, испытывают значительные трудности при решении задач, требующих понимания пространственных взаимосвязей и ориентации в динамически меняющихся окружениях. Эти системы часто полагаются на заранее заданные модели мира и не способны эффективно адаптироваться к новым, непредсказуемым ситуациям, что ограничивает их применение в робототехнике, навигации и других областях, где необходимо взаимодействие с реальным миром. Например, робот, использующий традиционные методы, может испытывать сложности при планировании маршрута в загроможденном пространстве или при манипулировании объектами различной формы и размера, в то время как человек легко справляется с этими задачами благодаря врожденным навыкам пространственного мышления и адаптации.

Анализ внимания по слоям показывает, что модель Qwen-Physics демонстрирует расхождение внимания от базовой модели Qwen-Instruct, а также различную долю внимания, уделяемого системной подсказке и токенам карты.

Использование головоломок для оценки пространственного интеллекта

Использование головоломок, таких как лабиринты или «Сокобан», предоставляет контролируемые среды для оценки способностей пространственного мышления. Это позволяет проводить строгую проверку и сравнение различных подходов к решению задач, поскольку параметры окружения и требования к решению четко определены. Контролируемость этих сред гарантирует воспроизводимость результатов и возможность количественно оценить эффективность различных алгоритмов и стратегий в контексте пространственного планирования и навигации. Наличие заранее известных состояний и возможных действий упрощает процесс анализа и выявления узких мест в разрабатываемых системах искусственного интеллекта.

Использование дискретного пространства действий в задачах, основанных на головоломках, значительно упрощает процесс разработки и тестирования алгоритмов искусственного интеллекта. Вместо работы с непрерывными значениями, агенты оперируют четко определенным набором действий, что позволяет сосредоточиться на ключевых механизмах рассуждения. Это особенно полезно при реализации алгоритмов, таких как Tree of Thoughts и Q-Learning, поскольку дискретизация пространства действий снижает вычислительную сложность и облегчает процесс обучения с подкреплением. Такой подход позволяет более эффективно оценивать и сравнивать различные алгоритмы, а также ускорить процесс итеративной разработки.

Представление пространственных задач в виде головоломок позволяет исследователям выделить и проанализировать ключевые когнитивные процессы, лежащие в основе пространственного интеллекта. Это достигается за счет упрощения сложности задачи и контроля над переменными, что позволяет более точно определить, какие конкретно умственные операции используются для решения пространственных проблем. Изоляция этих процессов, таких как ментальный поворот, визуально-пространственная память и планирование пути, осуществляется путем стандартизации структуры головоломки и последующего мониторинга стратегий решения, используемых испытуемыми или алгоритмами. Такой подход способствует более глубокому пониманию механизмов пространственного мышления и позволяет разработать и оценить модели, имитирующие когнитивные способности человека.

Обучение с использованием заранее обученной физически осведомленной модели (<span class="katex-eq" data-katex-display="false">Qwen-PhysRL</span>) демонстрирует повышенную стабильность и более быструю сходимость по сравнению с обучением без предварительной подготовки (<span class="katex-eq" data-katex-display="false">Qwen-DirectRL</span>). — Обучение с использованием заранее обученной физически осведомленной модели ( $Qwen-PhysRL$ ) демонстрирует повышенную стабильность и более быструю сходимость по сравнению с обучением без предварительной подготовки ( $Qwen-DirectRL$ ).

Тонкая настройка больших языковых моделей для освоения пространственного мышления

Супервизированное дообучение моделей, таких как DeepSeek-R1 и Qwen2.5-1.5B-Instruct, основанных на архитектуре Transformer, демонстрирует значительное повышение производительности в задачах, требующих пространственного мышления. Этот подход предполагает обучение предварительно обученной модели на размеченном наборе данных, содержащем примеры пространственных задач и соответствующих решений. В результате дообучения модели способны более эффективно выявлять и использовать пространственные связи, что приводит к улучшению точности и скорости решения задач, связанных с пониманием и манипулированием пространственной информацией. Эффективность данного метода подтверждается результатами экспериментов, показывающими превосходство дообученных моделей над базовыми моделями в задачах, требующих анализа и обработки пространственных данных.

Метод LoRA (Low-Rank Adaptation) представляет собой параметрически-эффективную технику дообучения больших языковых моделей, позволяющую оптимизировать их производительность при решении задач пространственного мышления. В отличие от полного переобучения всех параметров модели, LoRA фокусируется на адаптации лишь небольшого числа параметров, что снижает вычислительные затраты и требования к памяти. Алгоритм GRPO (Gradient-based Reasoning Path Optimization) использует LoRA для выделения и оптимизации ключевых шагов рассуждений, необходимых для решения пространственных задач, что приводит к повышению точности и эффективности модели. Этот подход позволяет добиться значительного улучшения производительности при минимальных изменениях исходной модели, делая дообучение более доступным и масштабируемым.

В ходе обучения модели Qwen-PhysRL, использовался двухэтапный конвейер, позволивший достичь среднего кумулятивного вознаграждения в 2.457 в задаче пространственного рассуждения. Данный показатель демонстрирует значительное улучшение производительности по сравнению с прямым обучением с подкреплением (Reinforcement Learning). Двухэтапный подход обеспечил не только более высокую эффективность, но и более быструю сходимость модели к оптимальному решению, что подтверждает преимущества поэтапного обучения в задачах, требующих пространственного анализа и планирования.

Методы представления в виде ASCII-графики и визуализации процесса мышления (Visualization-of-Thought) позволяют преодолеть разрыв между текстовым вводом и пространственным пониманием языковых моделей. Эти техники преобразуют текстовые описания в визуально интерпретируемые ASCII-схемы, что облегчает моделирование пространственных отношений и логических связей. Визуализация процесса мышления, в частности, позволяет модели явно отображать промежуточные шаги решения задачи, повышая ее способность к интерпретации визуальной информации и, как следствие, улучшая результаты в задачах, требующих пространственного рассуждения.

Анализ распределения внимания на уровне токенов показывает, что модели Qwen-Physics и Qwen-Instruct используют различные стратегии фокусировки на входных данных при обработке информации.

К интеллектуальной навигации и планированию: взгляд в будущее

Сочетание обучения с подкреплением и алгоритмов поиска, таких как Монте-Карло-дерево поиска, демонстрирует значительный прогресс в создании интеллектуальных агентов, способных к планированию и действиям в сложных, динамически меняющихся средах. Подход, реализованный в системе XoT, позволяет агенту исследовать различные варианты развития событий, оценивать их потенциальную выгоду и выбирать оптимальную стратегию. Вместо слепого перебора действий, агент, опираясь на алгоритмы поиска, прогнозирует последствия своих решений, что особенно важно в ситуациях, требующих долгосрочного планирования и адаптации к непредсказуемым обстоятельствам. Такой симбиоз обучения с подкреплением, позволяющего агенту учиться на собственном опыте, и алгоритмов поиска, обеспечивающих эффективное планирование, открывает новые возможности для создания автономных систем, способных решать сложные задачи в реальном мире.

Ключевым элементом в реализации интеллектуального поведения агентов является модуль обработки действий, или Action Parser. Он выполняет функцию перевода текстовых команд, генерируемых моделью, в конкретные, дискретные действия, понятные среде выполнения. Без этого преобразования, сложная логика, сформулированная моделью, остается нереализуемой, поскольку среда требует четких указаний для осуществления движения или взаимодействия. Эффективный Action Parser обеспечивает не только корректное исполнение команд, но и позволяет модели гибко адаптироваться к различным условиям, интерпретируя текстовые инструкции и преобразуя их в оптимальные действия для достижения поставленной цели. Таким образом, данный модуль выступает своеобразным «переводчиком» между «мышлением» модели и физическим миром, обеспечивая возможность воплощения интеллектуальных стратегий в реальные действия.

В статических условиях, требующих отслеживания внутреннего состояния, модель Qwen-PhysRL продемонстрировала выдающиеся результаты, достигнув среднего суммарного вознаграждения в 1.717. Этот показатель значительно превосходит все базовые модели, что свидетельствует об эффективности двухэтапного подхода, применяемого в данной системе. Полученные данные подтверждают, что предложенная архитектура позволяет агенту успешно ориентироваться и планировать действия, даже в сложных сценариях, требующих учета внутренней информации и поддержания последовательности действий. Успех Qwen-PhysRL подчеркивает важность разработки алгоритмов, способных к эффективному внутреннему моделированию и долгосрочному планированию.

Эффективная функция вознаграждения является ключевым элементом обучения агента, направляя его действия и определяя успешность выполнения задачи. Она представляет собой количественную оценку желаемого поведения, стимулируя агента к оптимизации стратегии для получения максимального вознаграждения. Правильно спроектированная функция вознаграждения не только указывает на конечную цель, но и формирует промежуточные этапы обучения, поощряя желательные действия и наказывая нежелательные. Именно благодаря четко определенной системе поощрений и наказаний агент способен адаптироваться к сложным условиям окружающей среды, приобретать новые навыки и демонстрировать оптимальное поведение в динамически меняющихся ситуациях. От качества функции вознаграждения напрямую зависит скорость и эффективность обучения, а также способность агента достигать поставленных целей.

Исследование демонстрирует, что сложные задачи пространственного мышления требуют не просто вычислительной мощности, но и четкой, поэтапной организации действий. Подход, предложенный в работе, подчеркивает важность последовательного обучения — сначала точной настройке, а затем обучению с подкреплением — для формирования надежных навыков планирования. В этом контексте, слова Тим Бернерс-Ли: «Интернет — это для всех, и все должны иметь возможность использовать его.» отражают суть необходимости создания систем, доступных для решения широкого круга задач. Как и интернет, эффективная система пространственного мышления должна быть построена на ясных принципах и гибкой структуре, чтобы адаптироваться к новым вызовам и обеспечивать надежные результаты, подобно хорошо организованной экосистеме, где каждая деталь имеет значение.

Куда же дальше?

Представленная работа, безусловно, демонстрирует потенциал двухэтапного обучения — предварительной тонкой настройки с последующим обучением с подкреплением — для наделения больших языковых моделей способностью к пространственному мышлению. Однако, следует признать, что элегантность подобного подхода кроется не в сложности его реализации, а в ясности границ решаемых задач. Успех в головоломках — это лишь первый шаг. Более сложные, неструктурированные среды потребуют от моделей не просто планирования последовательности действий, но и адаптации к непредсказуемости мира.

Ключевым вопросом остаётся проблема символической репрезентации. Преобразование визуальной информации в понятные модели — сложная задача, требующая не только распознавания объектов, но и понимания их взаимосвязей. Попытки “насильно” внедрить символику могут привести к хрупким системам, неспособным к обобщению. Более устойчивым решением представляется развитие способности моделей к извлечению символов непосредственно из данных, подобно тому, как живой организм усваивает информацию из окружающей среды.

В конечном счете, задача состоит не в создании искусственного интеллекта, решающего головоломки, а в разработке систем, способных к гибкому и адаптивному мышлению. Простота и ясность архитектуры, в сочетании с глубоким пониманием принципов самоорганизации, представляются более перспективным путем, чем бесконечное усложнение моделей.

Оригинал статьи: https://arxiv.org/pdf/2512.24532.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-03 17:25

🚀 Квантовые новости