Мультимодальный поиск в условиях шума: новый вызов для ИИ

Автор: Денис Аветисян

Исследователи представили сложный тест, позволяющий оценить способность систем искусственного интеллекта находить и анализировать информацию из разных источников в условиях реального, зашумленного интернета.

При анализе запросов к информационным системам, агент должен определять релевантный тип данных, извлекать необходимые сведения и осуществлять многошаговое логическое заключение на основе часто противоречивых и неполных веб-источников, при этом ошибки могут возникать как на этапе извлечения данных (<span class="katex-eq" data-katex-display="false">Retrieval Error</span>, фиолетовый путь), так и при выборе типа данных (<span class="katex-eq" data-katex-display="false">Modality Error</span>, красный путь), либо непосредственно в процессе логического вывода (<span class="katex-eq" data-katex-display="false">Reasoning Error</span>, синий путь), даже если источник данных был выбран верно. — При анализе запросов к информационным системам, агент должен определять релевантный тип данных, извлекать необходимые сведения и осуществлять многошаговое логическое заключение на основе часто противоречивых и неполных веб-источников, при этом ошибки могут возникать как на этапе извлечения данных ( $Retrieval Error$ , фиолетовый путь), так и при выборе типа данных ( $Modality Error$ , красный путь), либо непосредственно в процессе логического вывода ( $Reasoning Error$ , синий путь), даже если источник данных был выбран верно.

Представлен MERRIN — эталонный набор данных для оценки мультимодального поиска и логических рассуждений в условиях неструктурированных веб-данных.

Несмотря на прогресс в области искусственного интеллекта, поиск и анализ информации в реальных веб-средах, характеризующихся шумом и разнообразием форматов, остается сложной задачей. В данной работе представлена новая методика оценки, ‘MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments’ , предназначенная для тестирования поисковых агентов, способных извлекать и сопоставлять мультимодальные данные. Эксперименты с использованием современных языковых моделей показали, что даже самые продвинутые системы испытывают трудности с эффективным поиском релевантной информации и часто отвлекаются на противоречивые или частично релевантные источники. Какие новые подходы необходимы для создания поисковых агентов, способных надежно извлекать знания из шумных и гетерогенных веб-данных?

Неизбежность Шума: Вызовы Мультимодального Восприятия

Современные агенты, использующие поисковые системы для расширения своих возможностей, сталкиваются с серьезными трудностями при обработке информации, полученной из сети Интернет. Неоднозначность формулировок, противоречивые данные и неполнота сведений — типичные проблемы, возникающие при работе с реальными веб-источниками. Поиск информации часто возвращает множество результатов, среди которых сложно выделить достоверные и релевантные факты. Эта «зашумленность» данных требует от агентов не только способности находить информацию, но и критически оценивать ее, выявлять несоответствия и разрешать конфликты между различными источниками. В противном случае, агент рискует принять неверные решения, основанные на недостоверной или неполной информации, что существенно снижает эффективность его работы в сложных задачах.

Успешная навигация в зашумленных информационных средах, характерных для современного интернета, требует от систем способности к надежному извлечению и анализу разнородных данных — текста, изображений, видео и других модальностей. Эффективное функционирование в таких условиях подразумевает не просто поиск релевантной информации, но и критическую оценку ее достоверности, разрешение противоречий между различными источниками и модальностями, а также синтез согласованного представления о запрашиваемом объекте или явлении. Способность к комплексному мультимодальному рассуждению позволяет системам преодолевать неоднозначность и неполноту данных, что является ключевым фактором для достижения высокой производительности в решении сложных задач, требующих глубокого понимания контекста и критической оценки информации.

Неспособность согласовать противоречивую информацию, поступающую из различных источников — визуальных, текстовых и звуковых — существенно ограничивает возможности агентов в решении сложных задач. Исследования показывают, что при столкновении с несоответствиями, системам часто не удается выделить достоверные данные и сформировать корректный ответ. Это особенно критично в сценариях, требующих комплексного анализа, например, при диагностике неисправностей или планировании действий в динамичной среде. Отсутствие механизма для разрешения конфликтов между модальностями приводит к неточностям, ошибкам и снижению общей производительности агента, подчеркивая важность разработки методов, способных эффективно интегрировать и оценивать информацию из разных каналов восприятия.

Анализ MERRIN-композиции показывает распределение золотых источников по модальностям, а также классификацию вопросов в зависимости от роли визуального контента и типа рассуждений.

MERRIN: Испытательный Полигон для Надежного Мультимодального Рассуждения

MERRIN — это эталонный набор данных, созданный с привлечением людей, и предназначенный для оценки агентов, использующих поиск для мультимодального рассуждения в условиях зашумлённости. В процессе создания MERRIN особое внимание уделялось моделированию реальных сценариев, где информация поступает из различных источников (текст, изображения, аудио, видео) и может содержать неточности или противоречия. Набор данных включает в себя вопросы, требующие интеграции информации из нескольких модальностей для получения корректного ответа, что позволяет оценить способность агентов эффективно справляться с неполнотой и неоднозначностью данных.

Для решения сложных вопросов в MERRIN агентам требуется интеграция информации из различных модальностей — текста, изображений, аудио- и видеоданных. Это означает, что агент должен уметь не только обрабатывать каждый тип данных отдельно, но и устанавливать связи между ними, комбинируя полученную информацию для формирования обоснованного ответа. Такой подход позволяет оценить способность агента к комплексному анализу и пониманию, выходящему за рамки обработки одного типа входных данных.

Конструкция эталонного набора данных MERRIN делает акцент на многоступенчатом рассуждении (multi-hop reasoning), требуя от агентов синтеза информации из различных источников для получения точных ответов. Это означает, что для решения задачи агенту необходимо последовательно обрабатывать и объединять данные, полученные из нескольких модальностей (текст, изображение, аудио, видео), и проводить логические выводы на основе этой объединенной информации. В отличие от задач, требующих одношагового поиска, MERRIN проверяет способность агента выстраивать цепочку рассуждений, где каждый шаг зависит от предыдущих, что имитирует более сложные сценарии реального мира и требует более глубокого понимания и интеграции информации.

Анализ временных характеристик MERRIN показывает, что большинство правильных ответов датируются периодом после 2020 года и требуют актуальных знаний.

Оценка Агентов: Модели и Методологии

В ходе всесторонней оценки нескольких больших языковых моделей, включая семейства Gemini, Qwen и GPT, был использован бенчмарк MERRIN. Средняя точность, достигнутая во всех запусках, составила 22.3%. Данная оценка позволила сравнить производительность различных моделей в рамках единого набора задач и выявить общие тенденции в их работе. Применение MERRIN обеспечило стандартизированный подход к измерению точности и позволило получить количественные данные для сравнительного анализа.

Для расширения возможностей больших языковых моделей в рамках оценки, была использована структура Agentic Multimodal Search. Данный подход предполагает оснащение моделей инструментами, необходимыми для решения задач, в частности, возможностями веб-поиска и обработки видеоинформации. Использование этих инструментов позволило агентам получать доступ к актуальным данным из интернета и анализировать визуальный контент, что существенно повысило их эффективность при выполнении задач в рамках методологии MERRIN. Эффективность использования инструментов веб-поиска и обработки видео была количественно оценена и продемонстрировала значительное улучшение результатов по сравнению с моделями, лишенными этих возможностей.

При оценке моделей на базе MERRIN, лучшим результатом показал агент Gemini-3.1-Pro, использующий Agentic Multimodal Search, достигнув точности в 40.1%. В сравнении с другими подходами, Agentic Multimodal Search обеспечил точность 33.7%, что значительно выше, чем у Native Search (23.1%) и систем без поиска (17.3%). Данные свидетельствуют о существенном влиянии Agentic Multimodal Search на повышение эффективности агентов при решении задач MERRIN.

Результаты оценки моделей на наборе данных MERRIN показали, что средняя точность работы человека составляет 71.4%, что значительно превосходит показатели текущих агентских моделей. В среднем, использование инструмента обработки видео позволило повысить точность работы агентов на 5.7%, что указывает на потенциал мультимодальных возможностей для улучшения производительности, однако сохраняется существенный разрыв между возможностями человека и современных ИИ-агентов в решении задач, оцениваемых MERRIN.

Взгляд в Будущее: Путь к Действительно Надежным Мультимодальным Агентам

Исследования в области мультимодальных агентов показывают, что их способность эффективно функционировать в реальных условиях ограничена неспособностью корректно обрабатывать неоднозначность и противоречия между различными источниками информации. Агенты часто сталкиваются с ситуациями, когда визуальные данные, текстовые описания и другие модальности предоставляют неполные или конфликтующие сведения. Поэтому, ключевым направлением дальнейших разработок является создание алгоритмов, способных выявлять и разрешать эти несоответствия, оценивать степень достоверности информации, поступающей из разных каналов, и принимать обоснованные решения даже в условиях высокой неопределенности. Повышение устойчивости к противоречиям позволит создать более надежных и адаптивных агентов, способных успешно взаимодействовать со сложным и непредсказуемым окружающим миром.

Исследования в области многомодальных агентов всё активнее направлены на разработку инновационных архитектур и методов обучения, способных значительно улучшить их способность к многошаговому рассуждению. Существующие подходы часто сталкиваются с трудностями при обработке сложных сценариев, требующих синтеза информации из различных источников и последовательного вывода. Новые архитектуры, например, основанные на механизмах внимания и графовых нейронных сетях, позволяют агентам более эффективно отслеживать зависимости между различными элементами входных данных. Одновременно, современные методы обучения, такие как обучение с подкреплением и самообучение, позволяют агентам самостоятельно извлекать знания из больших объемов данных и улучшать точность извлечения релевантных доказательств. Такой комплексный подход обещает создание систем, способных не просто воспринимать информацию, но и активно анализировать её, делать обоснованные выводы и принимать взвешенные решения в сложных, неоднозначных ситуациях.

Разработка и совершенствование эталонных наборов данных, таких как MERRIN, играет ключевую роль в прогрессе создания действительно надежных мультимодальных агентов. Эти наборы данных служат своеобразным полигоном, позволяющим оценить способность агентов к обработке информации из различных источников и принятию обоснованных решений в сложных ситуациях. Постоянное усложнение и расширение подобных эталонов, с включением все более реалистичных и неоднозначных сценариев, необходимо для выявления слабых мест существующих моделей и стимулирования разработки новых, более устойчивых к ошибкам и несоответствиям. Только благодаря систематической оценке на строгих, тщательно разработанных бенчмарках возможно гарантировать, что мультимодальные агенты будут надежно функционировать в реальном мире, предоставляя точные и достоверные результаты.

Исследование, представленное в статье, демонстрирует, что даже самые передовые системы, использующие большие языковые модели, сталкиваются с трудностями при работе с зашумленной информацией из сети Интернет. Они не всегда способны эффективно извлекать и анализировать мультимодальные данные, что подчеркивает необходимость дальнейшего развития методов поиска и логического вывода. В этом контексте, слова Давида Гильберта приобретают особую значимость: «Мы должны знать. Мы должны знать, что мы можем знать». Эта фраза отражает суть стремления к пониманию, которое движет разработчиками систем искусственного интеллекта, стремящихся преодолеть ограничения в обработке сложной информации и построить более надежные и интеллектуальные системы.

Что дальше?

Представленный бенчмарк MERRIN обнажает закономерную хрупкость систем, оперирующих с шумом и неопределенностью сети. Недостатки, выявленные в текущих LLM-моделях, — не ошибка проектирования, а скорее ожидаемое следствие попытки возвести абстракции на зыбком фундаменте. Каждая из этих абстракций несет в себе груз прошлого, упрощая реальность до удобных, но не всегда адекватных представлений. Простое увеличение масштаба моделей, вероятно, лишь отсрочит неизбежное столкновение с фундаментальными ограничениями.

Истинный прогресс лежит не в гонке за параметрами, а в создании систем, способных к медленным, постепенным изменениям. Устойчивость рождается не в скорости, а в способности адаптироваться к непредсказуемости окружающей среды. Необходимы исследования, направленные на разработку механизмов верификации и фильтрации информации, а также на построение более надежных моделей представления знаний, способных выдерживать давление энтропии.

В конечном счете, задача состоит не в создании идеального агента, а в построении системы, которая достойно стареет. Время — не метрика, которую нужно победить, а среда, в которой существуют все системы. Именно в этой среде и следует оценивать их долговечность и способность к адаптации.

Оригинал статьи: https://arxiv.org/pdf/2604.13418.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-16 16:33

🚀 Квантовые новости