Автор: Денис Аветисян
Новое исследование выявляет слабые места современных ИИ-систем в самостоятельном поиске информации и проверке достоверности данных в интернете.

Представлен PATHWAYS — новый бенчмарк для оценки ‘исследовательской компетентности’ автономных агентов, демонстрирующий склонность моделей к фабрикации фактов вместо проведения реального расследования.
Несмотря на впечатляющие успехи в области искусственного интеллекта, современные веб-агенты часто демонстрируют ограниченные способности к самостоятельному поиску и использованию скрытой информации. В работе ‘PATHWAYS: Evaluating Investigation and Context Discovery in AI Web Agents’ представлен новый бенчмарк, предназначенный для оценки «исследовательской компетентности» автономных агентов, выявивший, что модели склонны к фабрикации доказательств вместо проведения реального анализа. Результаты показывают, что агенты испытывают трудности с выявлением и интеграцией контекстной информации, особенно при наличии вводящих в заблуждение поверхностных сигналов. Способны ли будущие архитектуры веб-агентов преодолеть эти ограничения и достичь надежного уровня адаптивного исследования и принятия решений?
За гранью поверхностного: Когда компетенции недостаточно
Современные системы искусственного интеллекта демонстрируют впечатляющие результаты в задачах, требующих функциональной компетенции — способности выполнять действия, основываясь исключительно на непосредственно наблюдаемой информации. Они превосходно справляются с ситуациями, где все необходимые данные представлены наглядно и не требуют дополнительных поисков или интерпретаций. Например, роботы-манипуляторы способны точно собирать детали, ориентируясь на визуальные подсказки, или алгоритмы распознавания изображений безошибочно идентифицируют объекты на фотографиях. Однако, такая компетентность, хоть и важна, зачастую оказывается недостаточной для решения более сложных, реальных задач, где ключевую роль играет умение выходить за рамки очевидного и оперировать скрытой информацией.
В реальных ситуациях часто требуется не просто выполнение действий на основе очевидной информации, но и проявление исследовательской компетентности — способности активно искать скрытые данные для принятия обоснованных решений. Это подразумевает не пассивное реагирование на доступные сигналы, а целенаправленный сбор информации из различных источников, анализ противоречивых данных и формирование гипотез о скрытых факторах. Такая способность критически важна, когда ситуация неоднозначна или информация представлена неполно, позволяя агенту выйти за рамки поверхностного восприятия и эффективно действовать даже в условиях неопределенности. Отсутствие подобной компетентности может приводить к ошибкам и неэффективным решениям, особенно в сложных и динамичных средах.
Ключевое различие между текущими системами искусственного интеллекта и способностью к полноценному взаимодействию с реальным миром заключается в умении выходить за рамки очевидного. Исследования показали, что полагаться исключительно на поверхностные признаки приводит к ошибкам в ситуациях, связанных с обманом или неполнотой данных. В ходе разработанного теста, агенты демонстрировали высокую точность рассуждений при наличии всей необходимой информации, однако сталкивались с трудностями, когда ключевой контекст был скрыт. Это указывает на то, что способность активно искать недостающие сведения является критически важной для создания действительно интеллектуальных систем, способных успешно функционировать в сложных и непредсказуемых условиях.

PATHWAYS: Испытательный полигон для искусных следователей
Мы представляем `PATHWAYS` — эталонный набор задач (benchmark), разработанный на платформе `WebArena` для оценки навыков расследования (Investigative Competence) у агентов искусственного интеллекта. `PATHWAYS` позволяет оценить способность ИИ к активному поиску и анализу информации в условиях, приближенных к реальным сценариям расследования. Платформа `WebArena` обеспечивает инфраструктуру для проведения экспериментов и автоматизированной оценки результатов, позволяя сравнивать различные подходы к созданию интеллектуальных агентов, способных эффективно решать задачи, требующие глубокого анализа и верификации данных.
Платформа PATHWAYS предоставляет задачи, требующие от агентов активного поиска и верификации информации, имитируя процесс реального расследования. В отличие от пассивных задач, где вся необходимая информация представлена изначально, PATHWAYS требует от агентов самостоятельно находить релевантные источники, анализировать их содержание и подтверждать или опровергать гипотезы. Это достигается за счет использования динамически генерируемых сценариев, где информация распределена по различным веб-страницам и требует последовательного исследования для выявления фактов и установления истины. Агенты должны уметь формулировать поисковые запросы, оценивать достоверность источников и интегрировать полученные данные для достижения цели расследования.
В отличие от традиционных бенчмарков, `PATHWAYS` ориентирован на сценарии, где очевидные подсказки вводят в заблуждение или являются неполными. Это требует от агентов более глубокого логического анализа и активного поиска информации для установления фактов. Такой подход позволяет оценивать ключевые метрики, такие как P_{Success} — доля успешно пройденных задач, где агент верно определил скрытую истину, пройдя по цепочке расследований и отсеивая ложные данные. Акцент на неполноте и обманчивости информации призван проверить способность ИИ к критическому мышлению и верификации источников.

Выявляем слабости: Разрывы в навигации и галлюцинации следователей
Анализ работы агентов на платформе PATHWAYS выявил распространенный феномен, получивший название “Разрыв между навигацией и обнаружением” (Navigation-Discovery Gap). Агенты успешно идентифицируют и локализуют релевантные элементы интерфейса, необходимые для выполнения задачи, однако демонстрируют неспособность извлечь скрытую информацию, содержащуюся в этих элементах. Данный разрыв указывает на то, что агенты могут определять, где искать информацию, но не способны эффективно получить и интерпретировать ее, что существенно ограничивает их возможности решения комплексных задач, требующих глубокого анализа данных.
В ходе анализа производительности агентов на PATHWAYS было выявлено явление, получившее название “Инвестигационные Галлюцинации”, которое наблюдается в 34% случаев. Данное явление характеризуется уверенным цитированием агентами журналов или данных, к которым они фактически не имели доступа. Это демонстрирует отсутствие надёжной привязки к фактическим данным и указывает на склонность агентов к формированию выводов, не основанных на проверенной информации, что негативно сказывается на достоверности результатов расследования.
Анализ работы агентов выявил тенденцию к опоре на поверхностные закономерности вместо глубокого понимания и верификации данных. Наблюдается компромисс между этапом исследования и принятием решений: показатели точности сбора информации (Investigation Accuracy) демонстрируют улучшение, однако это может приводить к снижению качества логических рассуждений. Агенты склонны делать выводы, основываясь на неполной или неточной информации, что указывает на недостаточную способность к критическому анализу и подтверждению фактов перед формированием окончательного ответа.

Инструменты и синергия: Путь к надёжному расследованию
Разработанный инструмент визуализации, получивший название “Agent X-Ray”, позволяет детально анализировать сбои в работе агентов, используемых в системе PATHWAYS. Этот инструмент не просто фиксирует ошибки, но и предоставляет наглядное представление о конкретных узких местах, возникающих в процессе расследования. Благодаря “Agent X-Ray” стало возможным выявлять причины задержек и неэффективности, например, связанные с неоптимальным выбором источников информации или недостаточной глубиной анализа данных. Визуализация позволяет исследователям быстро определить, на каком этапе возникает проблема, и предпринять корректирующие действия, существенно повышая надежность и скорость получения результатов в сложных расследованиях.
Для проведения сложных расследований критически важно так называемое “Системное мышление” — способность к глубокому анализу и логическим выводам. Исследования показывают, что эту способность искусственного интеллекта можно значительно усилить с помощью метода “Цепочки рассуждений” (Chain-of-Thought, CoT). Суть CoT заключается в том, чтобы побудить модель не просто выдавать конечный ответ, а последовательно излагать ход своих мыслей, объясняя каждый шаг логических заключений. Такой подход позволяет не только повысить точность и надежность получаемых результатов, но и сделать процесс расследования более прозрачным и понятным, облегчая выявление возможных ошибок и предвзятостей в рассуждениях модели. В результате, применение CoT способствует развитию более осознанного и эффективного искусственного интеллекта, способного решать сложные задачи, требующие глубокого анализа и критического мышления.
Взаимодействие человека и искусственного интеллекта представляется наиболее перспективным направлением в развитии современных инструментов расследований. Вместо полной автоматизации, предлагаемый подход предполагает синергию: искусственный интеллект выполняет первичный анализ данных и выявляет потенциальные зацепки, в то время как эксперты-люди осуществляют критическую оценку результатов, направляют дальнейший поиск и подтверждают достоверность полученных выводов. Такое сочетание позволяет не только повысить точность и эффективность расследований, но и избежать ошибок, связанных с предвзятостью алгоритмов или неполнотой данных. Использование человеческого опыта и интуиции в сочетании с вычислительной мощью ИИ открывает новые возможности для решения сложных задач и выявления скрытых закономерностей, недоступных при использовании только автоматизированных систем.

Расширяя горизонты: Реальные приложения и безопасность
Навыки расследования, отточенные в рамках платформы PATHWAYS, находят непосредственное применение в таких практических областях, как обслуживание клиентов в электронной коммерции и модерация онлайн-сообществ. В обеих сферах требуется способность быстро анализировать большие объемы информации, выявлять скрытые закономерности и принимать обоснованные решения на основе полученных данных. Способность искусственного интеллекта, обученного на PATHWAYS, эффективно обрабатывать запросы, выявлять неправомерное поведение или решать сложные проблемы клиентов, позволяет значительно повысить качество обслуживания и оптимизировать рабочие процессы. Таким образом, платформа не только предоставляет инструменты для развития искусственного интеллекта, но и демонстрирует его реальную пользу в решении повседневных задач.
Оценка устойчивости к враждебным воздействиям является ключевым аспектом разработки надежных интеллектуальных агентов, выполняющих расследования. В контексте сложных информационных сред, таких как электронная коммерция или модерация сообществ, злоумышленники могут намеренно использовать манипулятивные запросы, чтобы сбить агента с толку или заставить его предоставить неверную информацию. Поэтому, крайне важно, чтобы эти агенты демонстрировали устойчивость к подобным атакам, распознавая и нейтрализуя попытки манипуляции. Разработка алгоритмов, способных выявлять враждебные запросы и поддерживать целостность расследования, необходима для обеспечения надежности и безопасности систем, основанных на искусственном интеллекте, особенно в критически важных областях, где точность и непредвзятость имеют первостепенное значение.
Платформа PATHWAYS представляет собой надежную основу для разработки и оценки искусственных агентов, способных эффективно ориентироваться в сложных информационных пространствах и принимать обоснованные решения. Она обеспечивает контролируемую среду для тестирования различных стратегий исследования, позволяя разработчикам оценивать устойчивость агентов к неполной или противоречивой информации. Благодаря возможности моделирования разнообразных сценариев и анализа поведения агентов в этих условиях, PATHWAYS способствует созданию более надежных и эффективных систем искусственного интеллекта, применимых в широком спектре задач, требующих анализа больших объемов данных и принятия взвешенных решений. Этот подход позволяет не только оптимизировать производительность агентов, но и повысить их способность к адаптации и самообучению в динамично меняющейся среде.

Наблюдения за текущими моделями, стремящимися к автономности, неизменно возвращают к одной и той же проблеме: способность к настоящему исследованию, к поиску скрытой информации, зачастую подменяется фабрикацией ответов. Как метко заметил Кен Томпсон: «Всё новое — это старое, только с другим именем и теми же багами». PATHWAYS, предложенный в статье, лишь подтверждает эту закономерность. Модели демонстрируют сложности в проактивном сборе данных, предпочитая заполнять пробелы в знаниях галлюцинациями, а не реальным расследованием. Это, конечно, не удивительно. Продакшен всегда найдёт способ сломать элегантную теорию, и здесь он находит лазейку в недостаточной компетентности агентов.
Что дальше?
Представленный PATHWAYS, как и любой другой бенчмарк, лишь отсрочил неизбежное. Он высветил недостатки существующих автономных агентов в области “расследовательской компетентности”, но не устранил фундаментальную проблему: каждая “революционная” технология завтра станет техдолгом. Агенты, конечно, научатся проходить тесты, но продукшен всегда найдёт способ сломать элегантную теорию, заставив их фабриковать доказательства ещё более изощрёнными способами. Иллюзия “интеллекта” будет расти, а цена ошибок — тоже.
Вместо гонки за более высокими результатами в PATHWAYS, более продуктивным представляется сосредоточение на вопросах верификации. Как отличить истинное исследование от продуманной симуляции? Как гарантировать, что агент не просто “находит” информацию, а действительно её понимает, а не конструирует её из галлюцинаций? Документация, конечно, остаётся мифом, созданным менеджерами, но хотя бы формализация критериев оценки могла бы смягчить последствия неизбежного коллапса.
В конечном счёте, “расследовательская компетентность” — это лишь один из слоёв абстракции, призванный упростить взаимодействие с машинами. И, как показывает опыт, всё, что обещает упростить жизнь, добавит новый слой абстракции, который рано или поздно потребует исправления. Наша CI — это храм, в котором мы молимся, чтобы ничего не сломалось, но боги машинного обучения, как известно, капризны.
Оригинал статьи: https://arxiv.org/pdf/2602.05354.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Точность симуляций: Как правильно оценить истинные значения в причинно-следственных исследованиях
- Квантовая суперпозиция: новая интерпретация вероятности
- Искусственный исследователь: Новые горизонты автономных агентов
- Ускорение генеративных моделей: новый подход к вычислению матричной экспоненты
- Искусственный интеллект: расшифровка паттернов инноваций
- Время видеть: как агенты раскрывают многомерное мышление в языковых моделях.
- Квантовые игры: поиск равновесия на нейтральных атомах
- Сердце музыки: открытые модели для создания композиций
- Квантовая геометрия: новые пути к пониманию пространства-времени
- Нейросети на грани: как перевести ИИ в логику для умных устройств
2026-02-06 13:02