Автор: Денис Аветисян
Новый анализ подходов к обнаружению скрытых отказов в системах, управляемых множеством взаимодействующих агентов.

В статье рассматриваются методы обнаружения аномалий в траекториях агентных систем, с акцентом на выявление тихих сбоев и оценку эффективности алгоритмов XGBoost и SVDD.
Несмотря на растущую популярность многоагентных ИИ-систем, их недетерминированность и склонность к скрытым ошибкам представляют серьезную проблему для надежности. В работе ‘Detecting Silent Failures in Multi-Agentic AI Trajectories’ предложен подход к выявлению аномалий в траекториях работы таких систем, включающий создание и разметку двух новых наборов данных, содержащих более 5000 траекторий. Эксперименты показали, что контролируемые и полуконтролируемые методы обнаружения аномалий, такие как XGBoost и SVDD, демонстрируют высокую точность, но остаются уязвимыми к выявлению незначительных отклонений. Какие новые методы и метрики необходимы для более эффективного обнаружения и предотвращения скрытых ошибок в сложных многоагентных системах?
Тихие Сбои в Агентивных Системах: Поиск Истинной Причины
Агентивные системы искусственного интеллекта, несмотря на свою мощность, подвержены «тихим сбоям» – ошибкам, которые остаются незамеченными и негативно влияют на надежность. Эти сбои возникают в процессе автономной работы и могут иметь непредсказуемые последствия. Традиционные методы мониторинга неэффективны из-за недетерминированности и сложности траекторий выполнения. Понимание и обнаружение тихих сбоев критически важно для создания надежных и заслуживающих доверия приложений. Если решение кажется магией — значит, вы не раскрыли инвариант.
Трассировка Агентов: От Следов к Характеристикам
Предлагаемый подход основан на фиксации полных ‘следов агентов’ – детальных журналов каждого шага, выполненного агентами, инструментами и большими языковыми моделями (LLM). Для инструментирования систем и обеспечения всестороннего сбора следов используется OpenTelemetry, формируя единую картину взаимодействия. Из полученных следов с помощью Feature Engineering извлекаются релевантные характеристики, создавая представление об агентивном поведении, пригодное для анализа. Извлеченные признаки служат основой для оценки и интерпретации действий агентов в различных сценариях.
Аномалии в Поведении: Обнаружение Скрытых Сбоев
Для обнаружения аномалий в извлеченном пространстве признаков применяется комбинация методов машинного обучения, включающая XGBoost и SVDD. XGBoost используется для классификации, а SVDD – для определения границ нормального поведения. Снижение размерности с использованием t-SNE способствует визуализации и интерпретации распределения признаков. Значения SHAP используются для определения важности признаков и понимания факторов, влияющих на аномальное поведение. Модель XGBoost демонстрирует точность до 98.03% при идентификации аномалий на наборе данных фондового рынка.
Практическое Применение: Валидация в Мультиагентных Системах
Разработанный конвейер обнаружения аномалий успешно применен к задачам ассистента для анализа фондового рынка и ассистента для написания научных статей, демонстрируя его универсальность. Особое внимание уделялось выявлению ‘дрифта’ (неожиданный выбор пути) и ‘цикла’ (избыточное повторное обращение к инструментам). XGBoost достиг точности 94.81% на данных ассистента по написанию научных статей и Macro-F1 оценки 97.93% на данных для анализа фондового рынка. SVDD также показал хорошие результаты, достигнув точности 96.47% на данных фондового рынка и 89.63% при работе с данными научных статей.

Оценка согласованности между аннотаторами была высокой для данных фондового рынка (Коэффициент Коэна: 97.6%), но ниже для данных научных статей (Коэффициент Коэна: 80.6%). Конвейер курирования данных облегчает создание размеченных наборов данных на основе следов работы агентов, обеспечивая возможность непрерывного улучшения моделей обнаружения аномалий. Без четко сформулированной задачи любое решение — лишь шум.
Исследование, представленное в данной работе, акцентирует внимание на проблеме скрытых сбоев в многоагентных системах искусственного интеллекта. Подобные системы, по своей природе недетерминированные, требуют особого подхода к обнаружению отклонений от корректной работы. Алан Тьюринг однажды заметил: «Я не думаю, что когда-нибудь приду в голову, что математика может быть неверной, или что математические законы могут быть нарушены.». Эта фраза подчеркивает важность строгой математической основы для любого надежного алгоритма, а в контексте анализа траекторий агентов, представленном в статье, – необходимость разработки методов, способных выявлять даже незначительные отклонения, предвещающие серьезные ошибки. Применение XGBoost и SVDD, как показано в исследовании, представляет собой шаг в этом направлении, хотя и требует дальнейшего совершенствования для обнаружения более тонких дрифтов в поведении агентов.
Что Дальше?
Без чёткого определения критерия «неудачи» все усилия по её обнаружению — лишь бессмысленное накопление данных. Настоящая проблема заключается не в поиске отклонений, а в формализации самого понятия «корректного поведения» в системах, состоящих из множества взаимодействующих агентов. Успех XGBoost и SVDD, продемонстрированный в данной работе, — это не триумф алгоритмов, а признание нашей неспособности создать идеально детерминированную модель мира.
Особое внимание следует уделить выявлению не резких аномалий, а постепенных, едва заметных отклонений. Эти «тихие сбои» — наиболее опасны, поскольку их трудно обнаружить и они могут привести к непредсказуемым последствиям. Необходима разработка метрик, способных улавливать эти тончайшие изменения в траекториях агентов. Иначе, все системы мониторинга превратятся в инструменты оповещения о уже свершившихся катастрофах.
В конечном итоге, задача обнаружения скрытых ошибок в многоагентных системах — это не техническая, а философская проблема. Это поиск истины в мире, где причинно-следственные связи размыты, а случайность играет определяющую роль. И, возможно, самое элегантное решение — это признание невозможности абсолютно надёжного контроля.
Оригинал статьи: https://arxiv.org/pdf/2511.04032.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Квантовый скачок: от лаборатории к рынку
- Визуальное мышление нового поколения: V-Thinker
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Квантовые эксперименты: новый подход к воспроизводимости
- Симметрия в квантовом машинном обучении: поиск оптимального баланса
- Разделяй и властвуй: Новый подход к классификации текстов
- Квантовый прыжок: сможем ли мы наконец разгадать тайну сворачивания белков?
2025-11-08 12:03