Искусственный интеллект: Новая эра восприятия и действий

Автор: Денис Аветисян

Исследователи представляют OmniGAIA — сложный тест для оценки способностей ИИ-агентов к обработке информации из различных источников и выполнению задач в реальном мире.

В статье представлена платформа OmniGAIA для оценки омнимадальных ИИ-агентов и агент OmniAtlas с улучшенными возможностями использования инструментов и восприятия.

В то время как человеческий интеллект органично сочетает восприятие из различных модальностей — зрения, слуха и языка — с комплексным мышлением и использованием инструментов, современные мультимодальные языковые модели зачастую ограничены взаимодействием лишь двух модальностей. В данной работе, посвященной ‘OmniGAIA: Towards Native Omni-Modal AI Agents’, представлен комплексный бенчмарк OmniGAIA, предназначенный для оценки омнимадальных агентов в задачах, требующих глубокого рассуждения и многошагового использования инструментов на основе видео, аудио и изображений. Разработанный с использованием подхода на основе графов омнимадальных событий, OmniGAIA синтезирует сложные запросы, основанные на реальных данных, требующие кросс-модального рассуждения и интеграции внешних инструментов, а также представлена базовая модель OmniAtlas с улучшенными возможностями восприятия и использования инструментов. Не станет ли это шагом к созданию нового поколения омнимадальных ИИ-ассистентов, способных эффективно взаимодействовать с реальным миром?

Вызов истинного мультимодального рассуждения

Современные системы искусственного интеллекта зачастую испытывают трудности при обработке и анализе информации, поступающей из различных источников — видео, аудио и изображений. Проблема заключается не просто в распознавании отдельных элементов, а в способности объединить эти данные в единую, целостную картину и выполнить сложные логические выводы. Несмотря на успехи в отдельных областях, таких как распознавание лиц или автоматическое транскрибирование речи, ИИ пока не способен эффективно синтезировать разнородную информацию, требующую понимания контекста и установления причинно-следственных связей. Это особенно заметно в задачах, требующих не просто идентификации объектов, но и интерпретации их взаимодействия, предсказания дальнейших событий или понимания намерений, выраженных в мультимедийном контенте. Неспособность к эффективному синтезу данных ограничивает возможности ИИ в решении сложных задач, требующих глубокого понимания окружающей среды и способности к абстрактному мышлению.

Традиционные подходы к обработке многомодальных данных зачастую не способны в полной мере использовать богатый контекст, заключенный в различных модальностях, таких как видео, аудио и текст. Это приводит к снижению эффективности при решении задач, требующих глубокого понимания и логических выводов. Существующие модели, как правило, обрабатывают каждую модальность изолированно, упуская важные взаимосвязи и нюансы, которые возникают при их совместном анализе. Например, при анализе видеоролика с диалогом, модель может не связать мимику говорящего с эмоциональной окраской его слов, что существенно снижает точность интерпретации происходящего. Неспособность улавливать эти скрытые взаимосвязи ограничивает потенциал искусственного интеллекта в решении сложных задач, требующих не просто распознавания объектов, а понимания их значения в конкретном контексте.

OmniAtlas: Новая основа для интеллектуальных агентов

OmniAtlas представляет собой нативного омнимадального агента, функционирующего на принципах интегрированного использования инструментов (Tool-Integrated Reasoning). Это означает, что агент способен динамически подключаться и использовать внешние инструменты — такие как поисковые системы, калькуляторы, API и другие специализированные сервисы — непосредственно в процессе решения задач. В отличие от традиционных систем, где доступ к инструментам ограничен или требует предварительной настройки, OmniAtlas интегрирует эту функциональность непосредственно в цикл рассуждений, что позволяет ему адаптироваться к различным задачам и эффективно использовать доступные ресурсы для получения наиболее точных и полных ответов. Данный подход позволяет агенту не только обрабатывать информацию, но и активно взаимодействовать с окружающей средой для поиска и проверки данных, необходимых для решения поставленной задачи.

В основе OmniAtlas лежит механизм активного омнимадального восприятия, позволяющий агенту выборочно обрабатывать релевантную информацию в длинных последовательностях мультимодальных данных. Вместо обработки всего входящего потока, система динамически определяет и концентрируется на наиболее значимых фрагментах, будь то текст, изображения или аудио. Это обеспечивает повышение эффективности за счет снижения вычислительных затрат и, как следствие, повышение точности принимаемых решений, поскольку агент не отвлекается на несущественные данные. Активное восприятие реализуется посредством алгоритмов, оценивающих релевантность каждого фрагмента данных в контексте текущей задачи и приоритезирующих их обработку.

Основой концепции OmniAtlas является переход от пассивной обработки данных к активному, интеллектуальному рассуждению. Традиционные системы, как правило, обрабатывают поступающую информацию без динамической адаптации к конкретной задаче. OmniAtlas, напротив, интегрирует инструменты и использует принципы активного омнимадального восприятия для целенаправленного поиска и анализа релевантной информации в длинных мультимодальных данных. Это позволяет агенту не просто получать данные, но и активно взаимодействовать с ними, формируя логические цепочки и принимая обоснованные решения в процессе решения задач, что существенно повышает эффективность и точность работы.

Обучение и оптимизация поведения агента

Обучение OmniAtlas осуществляется с использованием комбинированного подхода, включающего обучение с учителем на уровне траекторий и исследование дерева с учетом ретроспективной информации. Обучение с учителем на уровне траекторий направлено на формирование последовательного и когерентного поведения агента на протяжении длительных временных горизонтов. В свою очередь, исследование дерева с учетом ретроспективной информации (Hindsight-Guided Tree Exploration) позволяет синтезировать высококачественные траектории, оптимизируя действия агента на основе анализа результатов и корректировки стратегии. Данный подход обеспечивает генерацию более эффективных и надежных планов действий для агента.

Ключевым элементом обучения является OmniDPO — метод точной коррекции ошибок, который фокусируется на исправлении отдельных неточностей внутри траекторий агента. В отличие от подходов, корректирующих всю траекторию целиком, OmniDPO позволяет локализовать и исправить конкретные ошибки в поведении агента, что приводит к более эффективной оптимизации и повышению общей производительности. Этот метод позволяет агенту быстрее обучаться и адаптироваться к новым задачам за счет минимизации влияния отдельных ошибок на общий результат.

Комбинация методов обучения, включающая Trajectory-Level Supervised Learning и Hindsight-Guided Tree Exploration, в сочетании с возможностью использования инструментов, таких как веб-поиск и Code Executor, значительно расширяет возможности агента при выполнении сложных задач. Использование веб-поиска обеспечивает доступ к актуальной информации, необходимой для решения задач, а Code Executor позволяет агенту динамически генерировать и выполнять код для автоматизации определенных процессов или решения вычислительных задач, которые не могут быть выполнены напрямую. Это позволяет агенту адаптироваться к новым ситуациям, находить решения проблем, требующих внешних данных или сложных вычислений, и эффективно выполнять многоэтапные задачи, требующие планирования и координации действий.

Тестирование и валидация: производительность на OmniGAIA

OmniGAIA представляет собой сложный эталонный набор данных (benchmark), разработанный специально для оценки возможностей агентов, работающих с различными модальностями (омни-модальными агентами). Ключевой особенностью OmniGAIA является необходимость глубокого рассуждения и выполнения задач, требующих последовательного использования нескольких инструментов (многошаговое выполнение задач). Это позволяет оценить способность агентов не только понимать запросы, но и планировать и выполнять сложные действия, используя доступные инструменты для достижения поставленной цели. Тесты в рамках OmniGAIA направлены на выявление ограничений существующих моделей и стимулирование разработки более продвинутых систем искусственного интеллекта.

Детальный анализ ошибок, полученных в ходе работы OmniAtlas, позволил выявить конкретные области для улучшения, включая неэффективное использование инструментов и логические ошибки при многошаговом выполнении задач. Этот анализ не является однократным мероприятием, а представляет собой итеративный процесс, результаты которого напрямую используются для оптимизации модели. На основе выявленных проблем внедряются изменения в архитектуру и параметры модели, после чего проводится повторная оценка, что позволяет последовательно повышать производительность и надежность OmniAtlas. Полученные данные об ошибках служат основой для разработки новых стратегий обучения и улучшения алгоритмов планирования действий.

Сравнительные оценки производительности модели OmniAtlas в сравнении с моделью Gemini-3-Pro на наборе данных OmniGAIA демонстрируют её потенциал в достижении передовых результатов. Обе модели показали одинаковый показатель Pass@1, составивший 62.5%. Этот результат указывает на сопоставимый уровень успешного выполнения сложных задач, требующих глубокого рассуждения и многошагового использования инструментов, что подтверждает эффективность подхода, реализованного в OmniAtlas, в контексте современных омнимодальных агентов.

Применение разработанного рецепта OmniAtlas позволило значительно повысить показатель Pass@1 для модели Qwen3-Omni с 13.3 до 20.8. Данное улучшение составляет абсолютное увеличение в 7.5 процентных пункта, что свидетельствует о существенном влиянии OmniAtlas на способность Qwen3-Omni успешно выполнять задачи в рамках платформы OmniGAIA и демонстрирует повышение эффективности агента в многошаговом выполнении задач и взаимодействии с инструментами.

Применение OmniAtlas к модели Qwen3-Omni позволило снизить частоту неэффективного использования инструментов с 81.1% до 65.3%. Данный показатель отражает улучшение способности агента правильно выбирать и применять необходимые инструменты для решения поставленной задачи, что свидетельствует о повышении эффективности и оптимизации процесса выполнения многошаговых операций. Снижение частоты неэффективного использования инструментов напрямую влияет на общую производительность и надежность системы.

К обобщенному мультимодальному интеллекту

Представление в виде графа событий (Event Graph) является мощным инструментом для кодирования и использования знаний, извлеченных из разнородных данных. В отличие от традиционных подходов, фокусирующихся на отдельных моментах восприятия, данная модель позволяет строить сложные взаимосвязи между событиями, что особенно важно для понимания контекста и осуществления многошагового рассуждения (Multi-Hop Reasoning). Каждое событие, полученное из различных источников — текста, изображений, звука — представляется как узел в графе, а связи между узлами отражают причинно-следственные связи, временные отношения и другие типы взаимосвязей. Это позволяет системе не просто идентифицировать отдельные факты, но и делать выводы, основанные на комплексном анализе взаимосвязанных событий, приближая искусственный интеллект к способности к более глубокому и гибкому пониманию окружающего мира.

Система OmniAtlas представляет собой значительный шаг за пределы узкоспециализированного искусственного интеллекта, стремясь к созданию более универсальных и приспосабливаемых интеллектуальных агентов. В отличие от систем, ограниченных заранее определенными задачами, OmniAtlas интегрирует использование различных инструментов и активно воспринимает окружающую среду, что позволяет ей самостоятельно адаптироваться к новым ситуациям и решать задачи, не предусмотренные изначально. Такой подход, основанный на сочетании активного восприятия и инструментальной поддержке, позволяет системе не просто реагировать на данные, но и целенаправленно собирать необходимую информацию, используя инструменты для расширения своих возможностей и достижения поставленных целей. Это открывает перспективы для создания интеллектуальных систем, способных к самостоятельному обучению и адаптации в сложных и динамичных условиях, приближая их к уровню человеческого интеллекта.

Дальнейшие исследования направлены на расширение масштабов предложенных методов для работы со всё более сложными ситуациями и разнообразными модальностями данных. Особое внимание уделяется интеграции новых источников информации — от текстовых описаний и визуальных образов до аудиосигналов и тактильных ощущений — с целью создания действительно универсального искусственного интеллекта. Ученые предполагают, что преодоление текущих ограничений в обработке мультимодальных данных позволит разработать системы, способные не просто распознавать и классифицировать информацию, но и активно взаимодействовать с окружающей средой, адаптироваться к изменяющимся условиям и решать сложные задачи, требующие комплексного анализа и синтеза знаний из различных источников. Такой подход открывает перспективы для создания интеллектуальных агентов, способных к глубокому пониманию мира и эффективному решению проблем в самых разных областях.

Исследование, представленное в данной работе, фокусируется на создании агентов, способных к комплексному восприятию и взаимодействию с окружающим миром. Акцент делается на омнимадальном искусственном интеллекте и способности к долгосрочному планированию — ключевые аспекты, необходимые для создания действительно автономных систем. В этом контексте, слова Винтона Серфа представляются особенно актуальными: «Интернет — это просто инструмент. Самое важное — это люди, которые им пользуются». Подобно тому, как интернет является лишь средством для реализации человеческих возможностей, так и OmniGAIA, и OmniAtlas служат инструментами для развития более совершенных агентов, способных к осмысленному взаимодействию с информацией и окружающей средой. Простота и ясность в дизайне этих систем — залог их эффективности и потенциальной пользы.

Куда же дальше?

Представленная работа, как и любое другое расширение границ возможного, скорее обнажает пустоты, нежели заполняет их. Создание эталонного набора задач, пусть и амбициозного, не отменяет фундаментального вопроса: действительно ли “омнимодальность” — это не просто усложнение существующего, а качественно новый уровень разума? Подобно тому, как добавление новых цветов не делает картину более осмысленной, если композиция бедна. Необходимо помнить, что система, требующая подробных инструкций для оценки, уже проиграла.

Очевидно, что акцент смещается с простого восприятия разнородных данных к осмысленному действию в сложном, меняющемся окружении. Впрочем, истинным испытанием станет не способность агента «видеть» и «слышать», а его умение игнорировать несущественное. Совершенство, как известно, заключается не в количестве добавленных деталей, а в количестве удаленных. Следующим шагом видится не увеличение объема данных, а разработка принципиально новых методов представления знаний, позволяющих агенту строить причинно-следственные связи, а не просто коррелировать события.

Понятность — это вежливость, и будущие исследования должны сосредоточиться на интерпретируемости принимаемых решений. Недостаточно создать агента, который «работает»; необходимо понять, почему он работает. Иначе мы рискуем создать еще один «черный ящик», чья эффективность будет случайной, а не осознанной. Поиск простоты — это не слабость, а признак глубокого понимания.

Оригинал статьи: https://arxiv.org/pdf/2602.22897.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-27 18:58

🚀 Квантовые новости