Искусственный интеллект, планирующий путешествия: новый подход к сложным задачам

Автор: Денис Аветисян

Исследователи представили STAgent — систему искусственного интеллекта, способную эффективно решать задачи, требующие планирования во времени и пространстве, например, организацию поездок.

Представлена архитектура STAgent — специализированный агент на основе больших языковых моделей, использующий стабильную среду инструментов, тщательно отобранные данные и обучение с учетом сложности задачи.

Несмотря на успехи больших языковых моделей, решение сложных задач, требующих пространственно-временного рассуждения и взаимодействия с внешними инструментами, остается сложной проблемой. В настоящей работе, представленной в ‘AMAP Agentic Planning Technical Report’, мы предлагаем STAgent — специализированного агентского LLM, предназначенного для решения таких задач, как планирование маршрутов и поиск объектов с учетом пространственных и временных ограничений. STAgent демонстрирует высокую эффективность благодаря стабильной инструментальной среде, тщательно отобранным данным для обучения и многоступенчатому процессу обучения, учитывающему сложность запросов. Открывает ли это новые перспективы для создания интеллектуальных систем, способных эффективно ориентироваться и планировать действия в реальном мире?

За пределами Статических Моделей: Потребность в Целенаправленном Рассуждении

Традиционные языковые модели демонстрируют впечатляющую способность к распознаванию закономерностей в данных, однако сталкиваются с существенными трудностями при решении сложных, многошаговых задач, требующих привлечения внешних знаний. В то время как они превосходно справляются с предсказанием следующего слова или фразы на основе имеющегося контекста, их возможности ограничены, когда требуется синтезировать информацию из различных источников, применять логическое мышление или адаптироваться к новым, не встречавшимся ранее ситуациям. Эта неспособность к комплексному рассуждению обусловлена тем, что модели обучаются на статичных наборах данных и не обладают механизмами для активного поиска и интеграции дополнительной информации, необходимой для решения сложных проблем. В результате, их производительность резко снижается при переходе от простых задач предсказания к более сложным сценариям, требующим не только анализа данных, но и понимания контекста, планирования действий и адаптации к изменяющимся обстоятельствам.

Современные методы искусственного интеллекта, несмотря на впечатляющие успехи в обработке информации, часто демонстрируют ограниченность в решении задач, требующих активного взаимодействия с окружающей средой. В отличие от человека, способного использовать инструменты и адаптироваться к меняющимся условиям, существующие модели, как правило, пассивны и ограничены рамками предоставленных данных. Неспособность к активному исследованию, планированию и применению инструментов существенно снижает их эффективность в сложных, многоступенчатых задачах, требующих не только распознавания закономерностей, но и целенаправленных действий для достижения конкретной цели. Это фундаментальное ограничение подчёркивает необходимость разработки принципиально новых подходов, где модель выступает не просто предсказателем, а активным агентом, способным к взаимодействию и решению проблем в динамичной среде.

Традиционные языковые модели демонстрируют впечатляющую способность к распознаванию закономерностей, однако их возможности ограничены при решении сложных, многоступенчатых задач, требующих доступа к внешним знаниям и активного взаимодействия с окружающей средой. Возникает необходимость в принципиально новом подходе, переходящем от пассивного предсказания к активному, целеустремленному рассуждению — когда модель не просто анализирует данные, а действует для решения поставленной задачи. Вместо того, чтобы ограничиваться вероятностными оценками, системы должны обладать способностью к планированию, выбору инструментов и адаптации к изменяющимся условиям, фактически функционируя как интеллектуальные агенты, способные к самостоятельному решению проблем и достижению поставленных целей. Такой переход предполагает создание моделей, способных к активному исследованию, обучению на опыте и проактивному взаимодействию с миром.

Для эффективного решения сложных задач, языковые модели должны обладать способностью не просто анализировать данные, но и активно взаимодействовать с внешними инструментами и адаптироваться к меняющимся обстоятельствам. Исследования показывают, что статичные модели, лишенные возможности применять инструменты и корректировать свои действия в ответ на обратную связь, быстро достигают пределов своей эффективности. Способность использовать, например, поисковые системы, калькуляторы или специализированные API, позволяет моделям получать доступ к актуальной информации и расширять свои вычислительные возможности. Более того, критически важным является умение адаптироваться к динамично меняющейся среде, что требует от модели не только понимания текущей ситуации, но и прогнозирования возможных изменений и корректировки стратегии действий на основе полученных данных. Такой подход открывает путь к созданию действительно интеллектуальных систем, способных решать сложные проблемы в реальном времени.

STAgent: Основа для Действий и Обучения

В качестве базовой модели для STAgent используется Qwen3-30B-A3B, представляющая собой языковую модель с 30 миллиардами параметров. Выбор данной модели обусловлен её способностью к эффективной обработке и генерации естественного языка, что обеспечивает прочную основу для последующей специализированной тренировки. Использование предварительно обученной модели позволяет значительно сократить время и ресурсы, необходимые для достижения целевых показателей производительности STAgent, поскольку большая часть лингвистических знаний уже заложена в базовой модели.

Для обеспечения STAgent релевантными и точными обучающими примерами осуществляется высококачественная курация данных, основанная на таксономии интентов. Процесс включает строгую фильтрацию, в результате которой только один пример из десяти тысяч проходит отбор. Такой подход позволяет исключить нерелевантную или некачественную информацию, что критически важно для эффективного обучения модели и достижения высоких показателей в задачах рассуждения и решения проблем.

Обучение STAgent осуществляется посредством SFT-управляемого обучения с подкреплением (RL). На первом этапе применяется контролируемое обучение (Supervised Fine-Tuning, SFT) для создания базовой модели. Затем следует этап обучения с подкреплением (RL), направленный на дальнейшую оптимизацию производительности. Внедрение инфраструктуры ROLL позволило повысить эффективность RL-обучения на 80%, что значительно ускорило процесс доработки и улучшения качества модели STAgent.

Каскадный подход к обучению STAgent обеспечивает последовательное улучшение его способностей к рассуждению и решению задач. Данная методика включает в себя несколько этапов, начиная с контролируемого обучения (SFT) для формирования базового уровня производительности. Далее следует обучение с подкреплением (RL), направленное на дальнейшую оптимизацию и повышение эффективности. Использование инфраструктуры ROLL позволило увеличить эффективность RL-обучения на 80%, что свидетельствует о значительном ускорении процесса и улучшении конечных результатов. Такая поэтапная структура обучения позволяет STAgent постепенно осваивать более сложные навыки и демонстрировать прогрессивное улучшение в задачах, требующих логического мышления и решения проблем.

Интерактивная Среда для Надежного Использования Инструментов

Агент STAgent функционирует в интерактивной среде, включающей десять специализированных инструментов, что позволяет ему решать сложные задачи посредством внешних взаимодействий. Данная среда обеспечивает возможность использования различных утилит для выполнения операций, выходящих за рамки внутренних возможностей агента. Инструменты охватывают широкий спектр функциональности, позволяя STAgent взаимодействовать с внешними системами и данными. Внешние взаимодействия необходимы для решения задач, требующих доступа к информации или выполнения действий, которые не могут быть реализованы исключительно внутри агента, обеспечивая тем самым расширение его возможностей и повышение эффективности.

Для обеспечения эффективного и асинхронного взаимодействия с инструментами в интерактивной среде используется алгоритм FastMCP. Данный алгоритм позволяет STAgent выполнять рассуждения, интегрируя внешние инструменты, без синхронных задержек, что значительно повышает скорость отклика системы. Асинхронная природа FastMCP позволяет STAgent одновременно выполнять несколько задач, используя различные инструменты, и адаптироваться к изменяющимся условиям в реальном времени, обеспечивая повышенную гибкость и эффективность решения сложных задач.

Инфраструктура ROLL выполняет функцию платформы для обучения с подкреплением (RL), обеспечивая оптимизацию производительности STAgent и его функций вознаграждения. ROLL предоставляет надежную среду для экспериментов с различными алгоритмами RL, настройкой гиперпараметров и разработкой эффективных стратегий обучения. Это включает в себя инструменты для определения и масштабирования вознаграждений, а также механизмы для оценки и улучшения политики агента в интерактивной среде. Использование ROLL позволяет STAgent адаптироваться к различным задачам и повышать свою эффективность в использовании инструментов за счет непрерывной оптимизации на основе получаемых вознаграждений.

Агент Amap расширяет функциональные возможности STAgent, специализируясь на сценариях, связанных с картами, и пространственно-временным рассуждением. Это достигается за счет интеграции специализированных алгоритмов и данных, позволяющих агенту эффективно обрабатывать информацию, представленную в виде карт, и планировать действия с учетом временных факторов и географических ограничений. Специализация Amap включает анализ картографических данных, определение местоположения, навигацию, а также прогнозирование и планирование на основе пространственно-временных взаимосвязей, что позволяет ему решать задачи, требующие понимания и анализа географической информации.

Проверка STAgent: Бенчмарки и Производительность

Для всесторонней оценки возможностей STAgent в области общих знаний и навыков программирования была проведена его строгая проверка на общепринятых бенчмарках, таких как TravelBench, MMLU-Pro и LiveCodeBench. Эти тесты позволили установить базовый уровень производительности агента в различных задачах, требующих как широкого кругозора, так и умения генерировать и понимать программный код. Результаты, полученные на этих бенчмарках, служат основой для сравнения с другими моделями и демонстрируют способность STAgent эффективно решать сложные задачи, опираясь на свои знания и навыки кодирования.

Для всесторонней оценки возможностей STAgent в области использования инструментов и проявления самостоятельности, помимо стандартных бенчмарков, применялись специализированные тесты, такие как ACEBench и τ 2-Bench. ACEBench, в частности, оценивает способность агента эффективно использовать различные инструменты для решения сложных задач, требующих последовательного применения нескольких функций. τ 2-Bench, в свою очередь, проверяет способность STAgent к планированию и выполнению многошаговых действий, необходимых для достижения определенной цели, демонстрируя уровень автономности и адаптивности в условиях, требующих проявления инициативы и принятия решений. Результаты этих тестов позволили подтвердить, что STAgent не просто обрабатывает информацию, но и способен самостоятельно определять необходимые шаги для решения поставленной задачи, что делает его перспективным кандидатом для реализации сложных автоматизированных систем.

Агент Amap продемонстрировал выдающиеся результаты на специализированных бенчмарках, таких как C-Eval, что подтверждает его высокую компетентность в задачах, требующих пространственного мышления и работы с географическими данными. Данные тесты позволили оценить способность агента эффективно использовать картографическую информацию для решения сложных задач, включающих навигацию, поиск объектов и анализ территориальных данных. Превосходство Amap Agent в этой области указывает на потенциал применения данной технологии в широком спектре приложений, от интеллектуальных систем навигации до сервисов геолокации и анализа городских пространств.

В ходе тестирования на бенчмарке TravelBench, STAgent продемонстрировал выдающиеся результаты, набрав 70.33 балла и превзойдя по эффективности более крупные модели, такие как DeepSeek R1 и Qwen3-235B-Instruct. Особенно впечатляющим стало достижение в многоходовом взаимодействии — 66.61 балла, что является лучшим показателем среди протестированных систем. Более того, STAgent смог улучшить показатель нерешенных задач на 26.06% по сравнению с базовыми моделями, подтверждая свою способность успешно справляться со сложными и многоэтапными задачами планирования путешествий. Данные результаты подчеркивают высокую эффективность STAgent в задачах, требующих последовательного рассуждения и поддержания контекста.

Исследование, представленное в отчете, демонстрирует стремление к взлому системы планирования, но не в деструктивном смысле, а в смысле глубокого понимания её принципов. Создание STAgent, агента, способного к сложным пространственно-временным рассуждениям, требует не просто написания кода, а реверс-инжиниринга самой реальности планирования путешествий. Как заметил Марвин Минский: «Наиболее ценные идеи приходят от тех, кто осмеливается подвергнуть сомнению устоявшиеся правила». Этот подход к разработке, с акцентом на качественную подготовку данных и сложность обучения, подтверждает, что понимание системы — ключ к её эффективному использованию и совершенствованию, а не просто слепое следование алгоритмам.

Что Дальше?

Представленная работа, демонстрируя возможности STAgent в решении пространственно-временных задач, неизбежно поднимает вопрос о границах применимости подобных систем. Успех, достигнутый благодаря тщательному отбору данных и продуманному учебному процессу, лишь подчеркивает хрупкость кажущегося интеллекта. Каждый “эксплойт” начинается с вопроса, а не с намерения, и стабильность инструментальной среды — это не гарантия, а лишь временное отсрочивание неизбежной встречи с непредсказуемостью реального мира.

Очевидным направлением дальнейших исследований представляется выход за рамки предопределенных инструментов. Способность агента к самостоятельному открытию и адаптации к новым средствам решения задач — вот где кроется истинный потенциал. Однако, это требует не просто увеличения вычислительных мощностей, но и принципиально нового подхода к обучению, основанного на исследовании и самообучении, а не на пассивном следовании инструкциям.

В конечном итоге, ценность подобных систем определяется не столько их способностью решать конкретные задачи, сколько их способностью задавать новые вопросы. И если STAgent действительно открывает путь к созданию агентов, способных к самостоятельному мышлению, то необходимо быть готовым к тому, что ответы на эти вопросы могут оказаться неожиданными и, возможно, даже нежелательными.

Оригинал статьи: https://arxiv.org/pdf/2512.24957.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-04 23:46

🚀 Квантовые новости