Когда зрение становится разумом: как научить ИИ долгосрочному планированию с помощью инструментов

Автор: Денис Аветисян

Как новая архитектура позволяет большим языковым моделям понимать визуальный мир, планировать сложные действия и эффективно использовать инструменты для достижения целей.

Инструмент ToolScope структурирован как триединая система: глобальный навигатор определяет подмножество инструментов и задает общее направление, агентский исполнитель итеративно обдумывает, применяет инструменты и продолжает рассуждения на их основе, а синтезатор ответов консолидирует логическую цепочку в удобный для пользователя результат.

Представлен ToolScope – обучающаяся мультимодальная платформа, расширяющая возможности ИИ в задачах, требующих визуального восприятия и долгосрочного планирования.

Несмотря на значительные успехи больших языковых моделей в решении сложных задач, эффективное использование внешних инструментов в мультимодальных сценариях остается сложной проблемой. В данной работе представлена система ‘ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use’, – агентский фреймворк, объединяющий глобальное планирование с локальным мультимодальным восприятием для улучшения использования инструментов и долгосрочного рассуждения. ToolScope позволяет мультимодальным большим языковым моделям более эффективно решать задачи визуального вопросно-ответного типа, демонстрируя прирост производительности до +6.69% на различных бенчмарках. Сможет ли предложенный подход стать основой для создания более гибких и интеллектуальных систем, способных эффективно взаимодействовать с окружающим миром?

За Пределами Восприятия: Рождение Разумного Агента

Современные мультимодальные большие языковые модели (MLLM) впечатляют в восприятии, но испытывают трудности в решении сложных задач, требующих последовательного анализа и взаимодействия. Традиционные подходы ограничены в динамическом выделении релевантной информации и интеграции внешних знаний. Это приводит к непоследовательности рассуждений и неспособности адаптироваться к меняющимся условиям. Возникает потребность в агентах, способных планировать, исследовать и использовать инструменты для достижения целей. Иногда, чтобы увидеть порядок, необходимо намеренно создать хаос.

Инструмент ToolScope демонстрирует преимущества агентного рассуждения с использованием инструментов в мультимодальных задачах, позволяя большим мультимодальным моделям (MLLM) детально изучать изображения и получать внешние знания для улучшения рассуждений.

ToolScope: Архитектура Визуально-Ориентированного Действия

ToolScope – унифицированная архитектура, объединяющая глобальное планирование и локальное мультимодальное восприятие для решения сложных задач. В основе лежит Глобальный Навигатор, формирующий стратегии, а Агентный Исполнитель оркестрирует пошаговое рассуждение и использование инструментов, таких как Инструмент Поиска и Инструмент Кода, для расширения возможностей получения знаний и вычислений.

Динамическое Восприятие и Интеграция Знаний

Агентный исполнитель использует инструмент “Восприятие” для динамического визуального обоснования и повторного внимания к областям изображения, критически важного для фокусировки на релевантных деталях. ToolScope сочетает локальное мультимодальное восприятие с извлечением внешней информации, используя CLIP и инструмент “Поиск”, обеспечивая надежное и контекстуально осведомленное рассуждение. Синтезатор ответов консолидирует траекторию рассуждений, формируя последовательный и точный ответ, интегрируя полученные знания в лаконичную форму.

При использовании модели Qwen2.5-VL-7B, увеличение количества извлеченных документов (top-k) приводит к улучшению производительности на задачах MAT-Search и ScienceQA, однако дальнейшее увеличение может ввести шум.

Валидация на Сложных VQA-Наборах Данных

ToolScope демонстрирует передовые результаты на ScienceQA и MathVista, подтверждая способность решать сложные задачи, требующие научного и математического рассуждения. Успех подчеркивает эффективность сочетания глобального планирования, локального восприятия и интеграции внешних знаний. ToolScope обеспечивает среднее увеличение точности на 6.69% на четырех VQA-наборах данных, достигая точности 39.40% на MAT-Search и 65.3% на MathVista (Qwen2.5-VL-7B), с задержкой от 2.3 до 5.9 секунд на NVIDIA A800. Полученные результаты подтверждают значительный шаг вперед в разработке интеллектуальных мультимодальных агентов.

Исследование на задачах MAT-Search и MathVista демонстрирует возможности предложенного подхода в решении сложных задач, требующих как визуального анализа, так и математических вычислений.

К Агентам Автономного Рассуждения: Будущее за Бесшовной Адаптацией

ToolScope выходит за рамки обучения, ориентированного на конкретные задачи, представляя шаг к созданию Training-Free Agents, способных к обобщению на новые сценарии. Модульная конструкция обеспечивает легкую интеграцию новых инструментов и источников знаний, прокладывая путь к решению все более сложных проблем. Объединяя планирование и восприятие, ToolScope открывает потенциал для создания действительно автономных рассуждающих агентов, способных решать реальные задачи. Хаос — не враг, а зеркало архитектуры, отражающее скрытые связи.

Исследование ToolScope демонстрирует стремление к пониманию системы, а не просто к её использованию. Разработчики, по сути, проводят реверс-инжиниринг взаимодействия между моделью и инструментами, стремясь выявить скрытые закономерности в процессе принятия решений. Это напоминает слова Бертрана Рассела: “Всякое знание есть, в сущности, историческое повторение.” Подобно историку, анализирующему прошлое, ToolScope анализирует последовательность действий, чтобы оптимизировать долгосрочное планирование и использование инструментов. В данном случае, глобальное планирование выступает в роли исторического контекста, а локальное мультимодальное восприятие – в роли детального анализа конкретных событий, что позволяет агенту адаптироваться и эффективно решать сложные задачи.

Что дальше?

Представленная работа, хоть и демонстрирует впечатляющую способность к использованию инструментов в сложных задачах, лишь приоткрывает дверь в область действительно автономных систем. Очевидно, что глобальное планирование, даже в сочетании с локальным мультимодальным восприятием, является лишь частью уравнения. Истинный вызов заключается в создании систем, способных не просто выполнять заданные инструкции, но и формулировать их самостоятельно, адаптируясь к непредвиденным обстоятельствам и нелинейной динамике реального мира. Проще говоря, текущие подходы — это изящное решение хорошо сформулированной задачи, а не рождение интеллекта.

Необходимо признать, что проблема «долгосрочного рассуждения» (long-horizon reasoning) остается открытой. Построение последовательности действий, охватывающих значительный промежуток времени, требует не только предвидения, но и способности к самокоррекции, основанной на обратной связи от окружающей среды. В настоящий момент системы склонны к каскадным ошибкам, когда незначительное отклонение от плана приводит к полному краху. Попытки «обмануть» систему, представив более мелкие, локально оптимальные задачи, – это, скорее, обходной путь, чем решение.

В конечном итоге, вопрос заключается не в том, как научить машину использовать инструменты, а в том, как научить её задавать вопросы. Истинный прогресс будет достигнут, когда системы начнут активно исследовать окружающую среду, формулировать гипотезы и проверять их на практике. В данный момент, мы наблюдаем лишь имитацию разума, а не его зарождение. И это – закономерный этап в любом процессе реверс-инжиниринга реальности.

Оригинал статьи: https://arxiv.org/pdf/2510.27363.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-04 20:00

🚀 Квантовые новости