Искусственный интеллект, который мыслит ходами: новый тест для мультимодальных систем

Автор: Денис Аветисян


Представлен M3-Bench — комплексный инструмент для оценки способности искусственного интеллекта решать сложные задачи, требующие использования различных инструментов и анализа информации из разных источников.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Лидерская таблица демонстрирует текущее состояние передовых мультимодальных больших языковых моделей (MLLM) на бенчмарке M3, где более высокие показатели свидетельствуют о превосходстве в решении задач.
Лидерская таблица демонстрирует текущее состояние передовых мультимодальных больших языковых моделей (MLLM) на бенчмарке M3, где более высокие показатели свидетельствуют о превосходстве в решении задач.

M3-Bench — это новый бенчмарк для оценки мультимодальных больших языковых моделей с акцентом на последовательное использование инструментов и структурированные метрики оценки.

Несмотря на быстрый прогресс в области мультимодальных больших языковых моделей, оценка их способности к сложным задачам, требующим использования инструментов и логических цепочек рассуждений, остается сложной проблемой. В данной работе представлена новая методика оценки, реализованная в бенчмарке ‘M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark’, предназначенная для тестирования моделей в условиях реалистичных, многошаговых рабочих процессов с применением различных инструментов. Предложенный бенчмарк, охватывающий 28 серверов и 231 инструмент, позволяет оценивать не только точность выполнения задач, но и семантическую согласованность и структуру рассуждений моделей. Какие новые подходы к обучению и оценке мультимодальных моделей потребуются для преодоления выявленных ограничений и достижения надежного использования инструментов в сложных сценариях?


Пределы Масштабирования: Рассуждения за Пределами Трансформеров

Несмотря на впечатляющие успехи больших языковых моделей в распознавании закономерностей, сложные задачи, требующие многоступенчатого рассуждения, остаются серьезным вызовом. Существующие архитектуры, основанные на простом увеличении количества параметров, сталкиваются с фундаментальными ограничениями масштабируемости, когда требуется установить связи между отдаленными фрагментами информации или выполнить последовательность логических операций. Эффективность модели снижается по мере увеличения сложности задачи, поскольку количество необходимых вычислений растет экспоненциально, а способность к обобщению на новые, не встречавшиеся ранее примеры, — уменьшается. Это связано с тем, что модели, обученные на огромных массивах данных, в основном запоминают статистические корреляции, а не осваивают истинное понимание причинно-следственных связей и принципов логики, что ограничивает их возможности в решении задач, требующих глубокого анализа и абстрактного мышления.

Существующие подходы к построению языковых моделей, несмотря на впечатляющие результаты в распознавании образов, демонстрируют ограниченность в решении задач, требующих последовательной обработки информации или интеграции внешних знаний. Особенно это проявляется в сценариях, где для достижения результата необходимо установить взаимосвязь между несколькими этапами рассуждений или использовать данные, не включенные в обучающую выборку. Такие ограничения препятствуют развитию действительно когнитивных способностей, поскольку модели оказываются неспособны к построению сложных логических цепочек и адаптации к новым, незнакомым ситуациям, требующим доступа к внешним источникам информации. Неспособность эффективно обрабатывать последовательные зависимости и использовать внешние знания существенно ограничивает возможности моделей в решении реальных задач, требующих глубокого понимания контекста и способности к рассуждениям.

Недостатки существующих больших языковых моделей стимулируют поиск архитектур, выходящих за рамки простого увеличения числа параметров. Исследования направлены на создание модульных систем, способных к декомпозиции сложных задач на более простые подзадачи, решаемые отдельными специализированными компонентами. Вместе с тем, особое внимание уделяется интеграции внешних инструментов и баз знаний, позволяющих моделям не только оперировать заложенной информацией, но и активно взаимодействовать с внешним миром для получения необходимых данных и расширения своих возможностей. Такой подход позволяет преодолеть ограничения, связанные с объемом хранимой информации, и приблизиться к созданию систем, способных к более сложному и гибкому мышлению.

Результаты тестирования на нашей базе данных показывают среднее количество шагов взаимодействия и обращений к инструментам для различных моделей.
Результаты тестирования на нашей базе данных показывают среднее количество шагов взаимодействия и обращений к инструментам для различных моделей.

Расширение Возможностей ЯМ: Эпоха Использования Инструментов

Возможность использования внешних инструментов принципиально расширяет функциональные возможности языковых моделей, позволяя им получать доступ и обрабатывать информацию, выходящую за рамки их обучающих данных. Традиционно, языковые модели ограничены знаниями, накопленными во время обучения, что делает невозможным предоставление актуальной информации или выполнение задач, требующих доступа к внешним источникам. Интеграция с инструментами, такими как поисковые системы, калькуляторы, базы данных или API, позволяет моделям динамически получать необходимые данные и выполнять сложные операции, значительно превосходящие их изначальные возможности. Это преодолевает статичность знаний и открывает путь к созданию более гибких, адаптивных и полезных систем искусственного интеллекта.

Протокол Контекста Модели (MCP) представляет собой стандартизированный интерфейс, обеспечивающий бесшовную интеграцию больших языковых моделей (LLM) с различными инструментами и серверами. Этот протокол определяет унифицированный формат обмена данными, включающий запросы, ответы и промежуточные результаты, что позволяет LLM динамически подключаться к внешним ресурсам и использовать их функциональность. Внедрение MCP способствует модульной архитектуре, где отдельные инструменты могут разрабатываться и обновляться независимо, не требуя модификации основной модели. Такая расширяемость позволяет легко добавлять новые возможности, например, доступ к специализированным базам данных, сервисам вычислений или API внешних приложений, значительно увеличивая практическую ценность и область применения LLM.

Внедрение возможности использования внешних инструментов принципиально расширяет функциональные возможности больших языковых моделей (LLM), позволяя им выполнять задачи, ранее недоступные из-за ограничений обучающих данных. К таким задачам относятся поиск и извлечение информации из внешних источников, выполнение сложных вычислений, требующих специализированных алгоритмов, и взаимодействие с реальными API для получения актуальных данных или управления внешними сервисами. Это открывает возможности для LLM в сферах, требующих доступа к постоянно обновляемой информации, точных расчетов и интеграции с внешними системами, что значительно повышает их практическую ценность и область применения.

Результаты кросс-модельной оценки мультимодального инструментария MCP на тесте M3-Bench в задаче
Результаты кросс-модельной оценки мультимодального инструментария MCP на тесте M3-Bench в задаче «Музей» демонстрируют его эффективность.

M3-Bench: Строгий Фреймворк Оценки

M3-Bench представляет собой всесторонний бенчмарк, разработанный для оценки возможностей мультимодальных моделей в использовании инструментов в рамках протокола Model Context Protocol (MCP). В отличие от существующих бенчмарков, M3-Bench фокусируется на задачах, требующих от моделей последовательного обращения к внешним инструментам, таким как Wikipedia, OpenLibrary и геокодирующие сервисы, для решения комплексных задач, основанных на одновременной обработке текстовой и визуальной информации. Бенчмарк разработан для строгой оценки не только итоговой точности выполнения задач, но и эффективности процесса вызова инструментов, обеспечивая детализированную оценку возможностей моделей в контексте практического применения.

В основе M3-Bench лежит оценка способности моделей использовать внешние инструменты для решения сложных задач, требующих обработки как текстовой, так и визуальной информации. Тесты включают сценарии, где модели должны применять инструменты, такие как Wikipedia, OpenLibrary и сервисы геолокации, для получения необходимой информации и достижения поставленной цели. Задачи сформулированы таким образом, чтобы модели должны были не просто находить данные, но и эффективно интегрировать их с визуальным вводом для получения окончательного ответа, что требует сложных процессов рассуждения и интеграции знаний.

Оценка в M3-Bench включает в себя не только общую точность выполнения задач, но и эффективность последовательности вызовов инструментов. Для оценки этого аспекта используется алгоритм Similarity-Bucketed Hungarian Algorithm, позволяющий измерить соответствие между предсказанными и эталонными вызовами инструментов. Результаты показывают, что модель GPT-5 достигает среднего балла 0.482 по данному критерию, что свидетельствует о ее способности к последовательному и корректному использованию инструментов для решения комплексных задач, требующих обработки как текстовой, так и визуальной информации.

Сравнительный анализ траекторий вызова инструментов мультимодальной модели на M3-Bench для задачи обработки фильмов показал эффективность подхода.
Сравнительный анализ траекторий вызова инструментов мультимодальной модели на M3-Bench для задачи обработки фильмов показал эффективность подхода.

За Пределами Текущих Бенчмарков: К Интеллектуальным Системам

Исследование M3-Bench демонстрирует значительный прогресс в возможностях многомодальных больших языковых моделей (MLLM) по сравнению с традиционными языковыми моделями. В ходе работы было показано, что MLLM способны эффективно использовать внешние инструменты для решения сложных задач, требующих рассуждений. Этот подход позволяет им преодолевать ограничения, присущие моделям, оперирующим исключительно текстовой информацией. Способность интегрировать и применять инструменты открывает новые горизонты для создания систем, способных не просто генерировать текст, но и активно взаимодействовать с окружающей средой и решать практические задачи, требующие логического анализа и применения специализированных знаний. Такая интеграция является ключевым шагом на пути к созданию действительно интеллектуальных систем.

Новая модель GPT-5 демонстрирует значительный прогресс в решении сложных задач, что подтверждается ведущими показателями по ключевым метрикам. В частности, модель достигла уровня Recall в 0.627, что указывает на высокую способность извлекать релевантную информацию. Показатель Argument Similarity составил 0.583, свидетельствуя о точности и логичности выстраиваемых аргументов. Оценка Step Coherence на уровне 0.502 подтверждает последовательность и взаимосвязь этапов рассуждений, а Order Consistency (0.290) указывает на способность сохранять логическую последовательность действий. Наконец, показатель Merge Purity в 0.453 демонстрирует эффективность объединения различных источников информации для формирования целостного и непротиворечивого решения. Эти результаты в совокупности подчеркивают способность GPT-5 к более глубокому и осмысленному анализу, открывая новые возможности для создания интеллектуальных систем.

Возможность использования инструментов и многомодальных подходов открывает принципиально новые перспективы в создании систем, способных к действительно интеллектуальному взаимодействию с окружающим миром. Больше не ограничиваясь лишь обработкой текста, такие системы способны анализировать информацию из различных источников — изображений, аудио, видео — и использовать специализированные инструменты для решения сложных задач. Это позволяет им действовать не просто как алгоритмы, выдающие статистически вероятные ответы, а как агенты, способные к осмысленному анализу, планированию и адаптации к меняющимся условиям, что приближает нас к созданию искусственного интеллекта, способного решать проблемы с той же гибкостью и интуицией, что и человек. Подобный подход обещает значительный прогресс в автоматизации сложных процессов, научных исследованиях и разработке новых технологий.

Результаты кросс-модельной оценки инструментария многомодального вызова на базе M3-Bench демонстрируют эффективность подхода в задачах исследования зрения.
Результаты кросс-модельной оценки инструментария многомодального вызова на базе M3-Bench демонстрируют эффективность подхода в задачах исследования зрения.

Представленный анализ M3-Bench демонстрирует стремление к созданию не просто метрики, а системы оценки, способной уловить сложность взаимодействия модели с инструментами. Этот подход перекликается с мыслью Тим Бернерс-Ли: «Интернет — это не технологии, а люди». Подобно тому, как человек не просто использует инструменты, но и адаптирует их под свои нужды, M3-Bench пытается оценить не просто точность ответа, а способность модели к построению логичной траектории действий и пониманию структуры задачи. Оценка траектории выравнивания, предложенная в работе, подчеркивает важность не только конечного результата, но и процесса его достижения, что соответствует идее понимания системы для её эффективного использования.

Куда дальше?

Представленный анализ, фокусируясь на оценке многомодальных языковых моделей через призму M3-Bench, неизбежно наталкивается на фундаментальный вопрос: достаточно ли метрик, основанных на структуре, для истинного понимания «интеллекта» агента? Каждая метрика — это, по сути, упрощение, фильтр, накладываемый на сложность реального мира. Агент может идеально соответствовать заданной структуре, но при этом быть слеп к непредвиденным обстоятельствам, к «шуму» за пределами формализованной задачи.

Важным направлением представляется изучение траектории, а не только конечного результата. Как агент приходит к решению? Какие «тупики» он преодолевает? И, что более важно, как он реагирует на намеренные отклонения от идеального сценария, на «эксплойты», встроенные в тестовую среду? Каждый эксплойт начинается с вопроса, а не с намерения, и умение адаптироваться к неожиданностям — вот истинный признак системы, способной к самообучению.

Будущие исследования должны сместить акцент с простого повышения «точности» на создание моделей, способных к критическому анализу, к выявлению и обходу ограничений, наложенных как данными, так и архитектурой. Иначе говоря, необходимо научить агента взламывать систему изнутри, чтобы понять её уязвимости и, возможно, создать нечто новое.


Оригинал статьи: https://arxiv.org/pdf/2511.17729.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-25 07:30