Автор: Денис Аветисян
Исследователи предлагают инновационный метод, позволяющий моделям искусственного интеллекта эффективно рассуждать с использованием изображений, разбивая сложные задачи на последовательность простых шагов.

В статье представлена методика Self-Calling Chain-of-Thought (sCoT), позволяющая многомодальным моделям декомпозировать визуальные задачи на цепочки языковых подзадач с использованием виртуальных реплик самой модели, повышая эффективность и производительность.
Несмотря на впечатляющие успехи в визуальном рассуждении, оптимизация многомодальных цепочек рассуждений (iMCoT) с помощью обучения с подкреплением затруднена из-за нехватки качественных данных. В данной работе, представленной под названием ‘Thinking with Images via Self-Calling Agent’, предлагается новый подход — Self-Calling Chain-of-Thought (sCoT), который преобразует сложные задачи визуального рассуждения в цепочки, состоящие исключительно из текстовых подзадач, решаемых виртуальными репликами модели. Такой подход позволяет значительно повысить эффективность и скорость обучения, избегая необходимости явной интерполяции между модальностями. Может ли sCoT стать основой для создания более эффективных и экономичных систем визуального рассуждения, способных к решению широкого спектра задач?
За гранью Перемежающихся Мыслей: Новый Подход к Рассуждениям
Существующие подходы к визуальному рассуждению, такие как Interleaved Multimodal Chain-of-Thought, демонстрируют ограниченную эффективность при решении сложных задач, требующих глубокого анализа. Эти методы часто сталкиваются с трудностями при разложении проблемы на последовательность управляемых подзадач, что приводит к снижению общей производительности. Проблема заключается в том, что стандартные цепочки рассуждений не всегда способны адекватно учитывать взаимосвязи между различными визуальными элементами и контекстуальными данными, что особенно заметно при анализе сложных изображений или сцен. В результате, модели испытывают трудности с выявлением ключевых деталей, установлением логических связей и формированием обоснованных выводов, что ограничивает их способность к решению задач, требующих нетривиального мышления и интерпретации визуальной информации.
Существующие подходы к визуальному рассуждению, такие как переплетенное многомодальное цепочечное мышление, зачастую демонстрируют ограниченную эффективность при решении сложных задач из-за неспособности эффективно разбивать их на более мелкие, управляемые компоненты. Эта проблема приводит к тому, что модели испытывают трудности при анализе сложных сцен и установлении логических связей между отдельными элементами. Вместо последовательного применения одной и той же стратегии, недостаток декомпозиции заставляет системы обрабатывать всю задачу как единое целое, что существенно усложняет процесс и снижает точность получаемых результатов. В конечном итоге, неспособность к модульному анализу препятствует достижению оптимальной производительности и ограничивает возможности существующих систем визуального рассуждения.
Для решения сложных задач визуального рассуждения требуется модульный подход, позволяющий использовать специализированные знания на каждом этапе. Вместо единого, всеобъемлющего алгоритма, предлагается разбиение процесса на отдельные, узкоспециализированные модули. Каждый модуль отвечает за конкретную подзадачу — например, распознавание объектов, анализ их взаимосвязей или логический вывод. Такой подход имитирует работу экспертов в различных областях, каждый из которых обладает глубокими знаниями в своей сфере. Комбинирование результатов работы этих модулей позволяет эффективно решать задачи, которые ранее были недоступны существующим системам. Это позволяет не только повысить точность, но и улучшить интерпретируемость процесса рассуждения, поскольку каждый модуль выполняет четко определенную функцию, а его вклад в общий результат легко отследить.

Оркестровка Экспертизы: Самовызывающаяся Цепочка Рассуждений
В рамках Self-Calling Chain-of-Thought (Самовызывающаяся Цепочка Рассуждений) сложная задача структурируется на набор атомарных подзадач. Атомарные подзадачи подразумевают отдельные, четко определенные операции, каждая из которых может быть выполнена независимо. Разложение на атомарные элементы позволяет упростить процесс решения, поскольку каждая подзадача требует меньшего объема когнитивных ресурсов и может быть более эффективно обработана. Данный подход предполагает, что сложные задачи могут быть решены путем последовательного выполнения простых, независимых шагов, что повышает общую надежность и предсказуемость системы.
В рамках Self-Calling Chain-of-Thought, основной агент динамически инициирует работу под-агентов — виртуальных копий самого себя, каждый из которых специализируется на выполнении конкретной атомарной подзадачи. Этот процесс осуществляется посредством структурированного протокола вызова инструментов (Tool Calling Protocol), обеспечивающего стандартизированный обмен данными и командами между основным агентом и под-агентами. Динамическое создание и вызов под-агентов позволяет эффективно распределять вычислительную нагрузку и оптимизировать процесс решения сложных задач, поскольку каждый под-агент сосредоточен на узкоспециализированной функции, что способствует повышению точности и эффективности работы системы.
Принцип организации Self-Calling Chain-of-Thought перекликается с функционированием биологического интеллекта, где сложные задачи решаются не единым центром, а посредством кооперации специализированных модулей. В живых организмах различные отделы мозга или группы нейронов отвечают за обработку конкретных типов информации или выполнение определенных функций. Аналогично, в данной архитектуре, «Main Agent» декомпозирует задачу, а «Subagents» — специализированные экземпляры, выполняющие отдельные подзадачи, — обеспечивают распределенную обработку и повышают общую эффективность решения. Такое модульное построение позволяет оптимизировать ресурсы и добиться большей точности в сложных вычислениях, подобно тому, как отдельные органы и системы взаимодействуют для поддержания жизнедеятельности организма.
Перенос бремени сложного рассуждения на специализированных Субагентов направлен на повышение как точности, так и эффективности решения задач. Вместо того, чтобы единому Агенту обрабатывать всю сложность, задача декомпозируется на атомарные подзадачи, каждая из которых решается Субагентом, обученным и оптимизированным для конкретного типа рассуждений. Такой подход позволяет избежать ошибок, возникающих при попытке универсального Агента справиться с разнородными задачами, и снижает вычислительные затраты, поскольку каждый Субагент фокусируется на узкоспециализированной области, требующей меньше ресурсов для достижения высокой точности. Ожидается, что это приведет к более надежным результатам и сокращению времени обработки сложных запросов.
Обучение Оркестратора: Обучение с Подкреплением для Рассуждений
Для обучения основного агента используется обучение с подкреплением, направленное на оптимизацию траектории рассуждений и использования инструментов. В процессе обучения агент взаимодействует со средой, получая вознаграждение за каждое действие, что позволяет ему изучать оптимальную последовательность шагов для решения поставленной задачи. Оптимизация траектории включает в себя выбор наиболее эффективных действий для достижения цели, а также выбор подходящих инструментов для каждого этапа рассуждений. Целью является максимизация суммарного вознаграждения, что способствует формированию стратегии, позволяющей агенту эффективно решать сложные задачи, требующие многоступенчатого анализа и применения различных инструментов.
Для обучения основного агента используется алгоритм Group Relative Policy Optimization (GRPO), представляющий собой метод обучения с подкреплением, направленный на эффективное исследование пространства возможных траекторий рассуждений. GRPO позволяет агенту оптимизировать свою стратегию действий, оценивая относительное преимущество различных путей решения задачи по сравнению с другими, что обеспечивает более быструю сходимость и улучшение результатов. Алгоритм позволяет агенту исследовать различные комбинации делегирования подзадач и интеграции ответов от специализированных суб-агентов, а также оценивать эффективность каждой комбинации для достижения конечной цели. В процессе обучения GRPO корректирует политику агента, увеличивая вероятность выбора наиболее перспективных путей рассуждений и снижая вероятность выбора неэффективных.
Проектирование системы вознаграждений играет ключевую роль в обучении агента-оркестратора. Помимо оценки точности финального ответа, система вознаграждений акцентирует внимание на корректности формата вывода и эффективном использовании специализированных под-агентов. Это означает, что агент получает положительную оценку не только за правильный ответ, но и за структурированное представление результата, а также за умение правильно делегировать подзадачи соответствующим под-агентам и интегрировать полученные от них ответы в общий процесс рассуждений. Такая многокомпонентная система вознаграждений способствует формированию у агента навыков не только решения задач, но и оптимизации процесса их решения с точки зрения эффективности и соответствия требованиям к формату данных.
Процесс обучения позволяет главному агенту (Main Agent) определять, какие подзадачи следует делегировать специализированным под-агентам (Subagents). Обучение включает в себя выявление оптимальных стратегий делегирования, основанных на оценке сложности подзадачи и компетенциях доступных под-агентов. Интеграция ответов под-агентов происходит путем анализа полученных данных и их последующего объединения для формирования окончательного решения. Эффективность интеграции оценивается по точности и релевантности итогового ответа, а также по корректности формата представления информации, что способствует повышению общей производительности системы.
Эмпирическая Валидация: Производительность на Ключевых Бенчмарках
Исследования показали, что разработанный фреймворк Self-Calling Chain-of-Thought демонстрирует заметные улучшения в производительности при тестировании на ключевых бенчмарках V* и HR-Bench. В ходе экспериментов, система превзошла существующие подходы, продемонстрировав способность более эффективно решать сложные задачи визуального рассуждения. Полученные результаты свидетельствуют о потенциале данной архитектуры для существенного прогресса в области vision-language моделей и открывают возможности для создания более интеллектуальных и эффективных систем искусственного интеллекта, способных к сложному анализу и интерпретации визуальной информации.
Результаты исследований демонстрируют заметное превосходство разработанного подхода над существующими решениями в области визуального мышления. В частности, зафиксировано улучшение на 1,2% по сравнению с передовым алгоритмом DeepEyes на бенчмарке V*, что свидетельствует о более высокой точности и эффективности в решении задач визуального рассуждения. Кроме того, на бенчмарке HR-Bench 4K, требующем обработки изображений высокого разрешения, достигнуто улучшение в 1,9%, подтверждающее способность системы эффективно работать с комплексными визуальными данными. Эти результаты подчеркивают потенциал нового подхода для существенного прогресса в области vision-language моделей и открывают перспективы для создания более интеллектуальных систем обработки изображений.
Исследования показали, что разработанный подход демонстрирует сопоставимую с моделью DeepEyes производительность, однако требует приблизительно на 25% меньше вычислительного времени, измеряемого в GPU-часах. Данное снижение потребления ресурсов подчеркивает высокую эффективность предложенной архитектуры и ее потенциал для более экономичного решения сложных задач в области визуального мышления. Сокращение времени вычислений не только снижает финансовые затраты, но и открывает возможности для более широкого применения модели на оборудовании с ограниченными ресурсами, способствуя ее доступности и масштабируемости.
Наблюдаемые улучшения в производительности подтверждают значительный потенциал подхода Self-Calling Chain-of-Thought для совершения прорыва в области визуального рассуждения. Данная методика позволяет моделям, работающим с визуальной информацией и языком, достигать новых уровней понимания и анализа сложных сцен. Особенно перспективно то, что Self-Calling Chain-of-Thought не просто повышает точность, но и открывает возможности для решения задач, ранее недоступных для современных систем. Это, в свою очередь, может привести к созданию более интеллектуальных и эффективных приложений в различных областях, от автономных транспортных средств до медицинского анализа изображений и автоматизированного поиска информации.

Статья демонстрирует очередную попытку заставить нейросети мыслить категориями, близкими к человеческим. Авторы предлагают Self-Calling Chain-of-Thought (sCoT) — способ разложить сложную задачу на атомарные подзадачи, делегируя их виртуальным копиям модели. Это, конечно, элегантно, но напоминает попытку построить хрустальный замок на болоте. Как говорил Эндрю Ын: «Всё, что обещает быть self-healing, просто ещё не ломалось». sCoT, безусловно, повышает эффективность и производительность в визуальном рассуждении, но не стоит забывать, что продакшен всегда найдёт способ сломать даже самую изящную теорию. Документация к этой системе, вероятно, скоро пополнится новыми пунктами о неожиданных краевых случаях.
Что дальше?
Предложенный подход, с его акцентом на декомпозицию задач и использование «виртуальных реплик» модели, выглядит элегантно… пока не столкнется с реальными данными. Каждая «революция» в области искусственного интеллекта неизбежно превращается в технический долг. Рано или поздно, система, способная к самовызову, обнаружит, что наиболее эффективный способ решить задачу — это… ничего не решать. Или, что еще хуже, генерировать бесконечные циклы вызовов, пока не иссякнут ресурсы. Если система стабильно падает, значит, она хотя бы последовательна.
Очевидно, что дальнейшее развитие потребует не только повышения эффективности, но и решения проблемы объяснимости. Разложение задачи на «атомные подзадачи» — это хорошо, но когда эта цепочка становится достаточно длинной и сложной, понять, почему модель пришла к определенному выводу, становится практически невозможным. Мы не пишем код — мы просто оставляем комментарии будущим археологам.
И, конечно, нельзя забывать о масштабируемости. «Облачная» инфраструктура, этот современный фетиш, лишь маскирует фундаментальную проблему: каждая дополнительная «реплика» модели требует дополнительных ресурсов. «Cloud-native» — это просто старое в новом обличье, только дороже. Вместо того, чтобы изобретать новые парадигмы, возможно, стоит вернуться к более простым и надежным решениям, даже если они кажутся менее «революционными».
Оригинал статьи: https://arxiv.org/pdf/2512.08511.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- LLM: математика — предел возможностей.
- Квантовый прыжок в будущее: юмористический взгляд на недавние квантовые приключения!
- Уменьшение глубины квантовых схем: новый путь к устойчивым алгоритмам
- Видео-R4: Размышляя над видео, чтобы лучше понимать текст
- Квантовые схемы без лишних шагов: обучение с подкреплением для оптимизации вычислений
- Квантовый горизонт: Облачные вычисления нового поколения
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Вариационные и полувариационные неравенства: от теории к практике
- Точность фазовой оценки: адаптивный подход превосходит стандартный
- Модель Motif 2 12.7B: Новый взгляд на эффективные языковые модели
2025-12-13 14:56