Оценка действий: Новый тест для интеллектуальных агентов

Автор: Денис Аветисян

Исследователи представили AgentProcessBench — платформу для анализа качества промежуточных шагов в работе агентов, использующих инструменты, выявив слабость современных моделей в оценке сложных процессов.

Разработанный комплексный эталон AgentProcessBench, основанный на траекториях, полученных от пяти моделей агентов, подвергся экспертной аннотации с достижением 89.1% согласованности, что позволило оценить двадцать различных моделей, используя метрики StepAcc и FirstErrAcc и выявить закономерности в их производительности.

AgentProcessBench позволяет диагностировать качество отдельных шагов в траекториях, выполняемых языковыми моделями, использующими инструменты, и подчеркивает необходимость разработки более точных моделей оценки процессов.

Несмотря на значительный прогресс в области больших языковых моделей (LLM), их надежность в сложных, долгосрочных взаимодействиях, особенно при использовании инструментов, остается проблемой. В данной работе представлена новая методика оценки, реализованная в виде бенчмарка ‘AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents’, предназначенная для диагностики качества промежуточных шагов в траекториях агентов, использующих инструменты. Анализ 1000 разнообразных траекторий с 8509 аннотациями шагов показал, что текущие модели испытывают трудности с точной оценкой каждого этапа, а слабые модели переоценивают свою эффективность из-за преждевременного завершения. Не откроет ли это путь к разработке более совершенных моделей вознаграждения и созданию действительно общих агентов?

За пределами конечного результата: Необходимость оценки процесса

Традиционные системы вознаграждения в искусственном интеллекте зачастую ориентированы исключительно на конечный результат, упуская из виду качество и эффективность промежуточных шагов, предпринятых для его достижения. Такой подход может привести к тому, что агент достигнет верного ответа случайно, без реального понимания принципов решения задачи. В результате, система может демонстрировать кажущуюся компетентность, которая не подкреплена надежной и воспроизводимой логикой, что особенно критично для сложных задач, требующих многоступенчатого рассуждения и адаптации к новым условиям. Игнорирование процесса решения снижает устойчивость и надежность системы в целом, поскольку она не способна оценивать и корректировать ошибки на промежуточных этапах.

Возникает значительная проблема при решении сложных задач, требующих последовательного рассуждения: агенты искусственного интеллекта могут достигать правильного ответа случайно, без реального понимания логики действий. Такой успех, основанный на везении, не отражает истинную способность к рассуждению и может привести к ошибкам в новых, незнакомых ситуациях. Вместо демонстрации глубокого знания предметной области, агент лишь успешно «угадывает» решение, что делает его ненадежным в долгосрочной перспективе и ограничивает возможности масштабирования и адаптации к изменяющимся условиям. Данное явление особенно критично для задач, где важен не только результат, но и процесс его достижения, например, в научных исследованиях или принятии важных решений.

Оценка каждого этапа в траектории агента является критически важной для создания устойчивых и надежных систем искусственного интеллекта. Традиционные методы оценки, фокусирующиеся исключительно на конечном результате, не позволяют выявить неэффективность или ошибки в процессе достижения цели. Анализ промежуточных шагов позволяет определить, действительно ли агент понимает логику решения задачи, а не просто случайно пришел к верному ответу. Такой детальный подход позволяет выявить слабые места в алгоритмах, оптимизировать процесс обучения и повысить общую надежность системы, особенно в сложных задачах, требующих многоступенчатого рассуждения и адаптации к изменяющимся условиям. Игнорирование промежуточных этапов может привести к созданию систем, кажущихся работоспособными, но уязвимых к незначительным изменениям в исходных данных или условиях.

Оценка работы агента проводится путем присвоения каждому шагу его действий (ответам ассистента) оценки: +1 для корректных, 0 для нейтральных и -1 для некорректных, что позволяет оценить полную траекторию взаимодействия с инструментами.

Шаг за шагом к пониманию: Модели вознаграждения за процесс

Модели вознаграждения за процесс (PRM) предоставляют обратную связь об эффективности каждого шага в траектории агента, обеспечивая более детальное обучение. В отличие от традиционных моделей, оценивающих только конечный результат, PRM оценивают промежуточные этапы выполнения задачи. Это позволяет агенту получать сигналы о правильности или ошибочности действий на каждом шаге, что ускоряет процесс обучения и позволяет агенту корректировать свою стратегию в реальном времени. Такая гранулярность обратной связи особенно полезна в сложных задачах, где единичная оценка конечного результата недостаточна для определения причин успеха или неудачи.

Использование моделей вознаграждения за процесс (PRM) требует агентов, способных взаимодействовать с внешними средами посредством инструментов. Это вносит дополнительную сложность в процесс оценки, поскольку необходимо учитывать не только конечный результат, но и эффективность каждого отдельного шага, выполненного агентом при использовании инструментов. Оценка становится многомерной задачей, требующей анализа как успешности выполнения задачи, так и корректности и оптимальности использования инструментов на каждом этапе. Например, необходимо оценивать правильность выбора инструмента, точность его применения и эффективность полученного результата, что значительно усложняет автоматизированную оценку по сравнению с задачами, где оценивается только конечный результат.

Метод оценки “Best-of-NN” (лучший из N) применяется совместно с моделями вознаграждения за процесс (PRM) для отбора наиболее перспективных траекторий, требующих дальнейшей доработки. Суть метода заключается в генерации нескольких траекторий агентом, после чего PRM оценивает каждую из них по промежуточным шагам. Затем выбирается траектория с наивысшей суммарной оценкой PRM, которая и используется для дальнейшего обучения или уточнения модели агента. Это позволяет сосредоточиться на наиболее эффективных последовательностях действий и ускорить процесс обучения, избегая затрат ресурсов на анализ и доработку менее перспективных вариантов.

Сравнение точности выполнения задач различными большими языковыми моделями (LLM) на наборе данных AgentProcessBench показывает различия в их способности решать задачи.

AgentProcessBench: Испытательный полигон для пошаговой оценки

Бенчмарк AgentProcessBench представляет собой комплексную платформу для оценки способности больших языковых моделей (LLM) анализировать промежуточные шаги в траекториях использования инструментов. В отличие от традиционных оценок, фокусирующихся на конечном результате, AgentProcessBench позволяет оценить корректность каждого отдельного шага в процессе решения задачи. Это достигается путем предоставления LLM возможности оценивать промежуточные действия, предпринятые агентом, и выявлять ошибки на ранних стадиях выполнения задачи. Такой подход обеспечивает более детальное понимание сильных и слабых сторон различных моделей в контексте сложных, многоступенчатых задач.

Тестовый набор `AgentProcessBench` использует разнообразные датасеты, включающие `HotpotQA`, ориентированный на многоступенчатые вопросы, требующие поиска информации из нескольких источников; `GAIA`, предназначенный для оценки способности к обобщению знаний и логическому выводу; `BFCL`, представляющий собой набор задач, требующих последовательного применения инструментов; и `τ2-Bench`, фокусирующийся на задачах, требующих построения сложных планов действий. Комбинация этих датасетов позволяет комплексно оценить способность языковых моделей к решению широкого спектра задач, требующих различных типов рассуждений и применения инструментов.

Бенчмарк поддерживает оценку на уровне отдельных шагов (Step-Level Evaluation) посредством введения метрик «Точность первого шага с ошибкой» (First-Error Accuracy) и «Точность шага» (Step Accuracy), обеспечивающих более детальную оценку производительности агентов. Для обеспечения надежности аннотаций, эксперты-аннотаторы достигли 89.1% согласия между собой и коэффициента Коэна κ = 0.767 при разметке шагов, что подтверждает высокую степень согласованности и объективности оценок на уровне отдельных шагов.

Анализ, проведенный в рамках AgentProcessBench, выявил сильную положительную корреляцию между точностью оценки на уровне отдельных шагов и общей точностью траектории выполнения задачи. Коэффициент корреляции Пирсона составил 0.814 при p-значении 1.2×10^-5. Это указывает на то, что модели, демонстрирующие высокую точность при оценке каждого шага в процессе решения задачи, как правило, достигают более высокой общей точности выполнения всей траектории. Данный результат подтверждает важность детальной оценки промежуточных шагов для определения общей эффективности агентов, использующих инструменты.

Высокая корреляция (коэффициент Пирсона r = 0.814, p = 1.2 × 10<sup>-5</sup>) между точностью оценки на каждом шаге и общей точностью траектории указывает на надежность поэтапной оценки. — Высокая корреляция (коэффициент Пирсона r = 0.814, p = 1.2 × 10^-5) между точностью оценки на каждом шаге и общей точностью траектории указывает на надежность поэтапной оценки.

Тонкости оценки: Обращая внимание на каскады ошибок и нейтральные шаги

В рамках AgentProcessBench реализовано правило распространения ошибок, призванное решить проблему каскадных сбоев в задачах с длинными последовательностями действий. Этот механизм обеспечивает последовательную и справедливую оценку агентов, наказывая за каждую ошибку, вне зависимости от того, когда она произошла в траектории. Вместо того чтобы наказывать только за конечный результат, правило распространения ошибок учитывает вклад каждой отдельной ошибки в общую неуспешность, что позволяет более точно определить слабые места в логике агента и способствует созданию более надежных и стабильных систем искусственного интеллекта, способных эффективно функционировать в сложных и продолжительных сценариях.

В рамках оценки агентов, способных к последовательному выполнению задач, учитывается, что не каждое действие, формально не приводящее к ошибке, является конструктивным шагом к цели. Игнорирование «нейтральных шагов» — разумных, но не влияющих на прогресс действий — позволяет избежать несправедливой оценки агентов, исследующих допустимые, хотя и непродуктивные пути. Такой подход позволяет более точно измерить способность агента к эффективному планированию и принятию решений, поскольку фокус смещается с простого избежания ошибок на достижение цели оптимальным способом. Принятие во внимание нейтральных шагов обеспечивает более справедливую и информативную оценку, что особенно важно при сравнении различных моделей и алгоритмов искусственного интеллекта.

Исследования показали существенные различия в точности шагов между различными большими языковыми моделями (LLM). В частности, модель Gemini-3-Flash-Preview демонстрирует точность шагов на уровне 81.6%, однако её точность определения первой ошибки снижается до 65.8%. Этот разрыв указывает на сложность точного выявления начальных ошибок в длинных последовательностях действий, что подразумевает, что модели способны успешно выполнять большинство шагов, но могут допускать критические ошибки на ранних этапах, которые влияют на конечный результат. Такое расхождение подчеркивает необходимость более детальной оценки процесса принятия решений моделями, а не только анализа конечного результата, и требует разработки метрик, способных более точно идентифицировать и оценивать источники ошибок.

Усовершенствования в методике оценки, учитывающие каскад ошибок и нейтральные шаги, позволяют получить более достоверные и информативные результаты при анализе агентов, ориентированных на последовательное выполнение задач. Это не просто повышение точности измерений, но и создание более справедливой системы оценки, где агент не наказывается за разумные, но не приводящие к немедленному успеху действия. Такой подход позволяет более четко выявлять истинные недостатки в работе системы и стимулировать разработку более эффективных и надежных моделей искусственного интеллекта, способных к сложному планированию и последовательному достижению целей. Подобные улучшения в оценке являются ключевым фактором для прогресса в области создания интеллектуальных агентов, способных к решению реальных задач.

Сравнение матриц неточностей показывает, что Gemini-3-Flash-Preview и Qwen3-30B-A3B-Thinking демонстрируют схожие закономерности в ошибках при оценке шагов.

Исследование, представленное в данной работе, демонстрирует, что современные модели, несмотря на впечатляющие успехи в области использования инструментов, испытывают трудности с оценкой промежуточных шагов в сложных траекториях. Это подтверждает необходимость разработки более совершенных моделей вознаграждения, способных оценивать качество отдельных действий агента. Кен Томпсон однажды заметил: «В программировании, как и в жизни, сложность часто возникает из-за попыток создать что-то совершенное сразу». Этот принцип применим и к созданию агентов: оценка каждого шага, даже несовершенного, является ключом к пониманию и улучшению общей стратегии. Работа над AgentProcessBench акцентирует внимание на важности детального анализа, а не только на конечном результате, что позволяет выявить слабые места и направить усилия на создание более надежных и эффективных систем.

Что Дальше?

Представленная работа выявляет любопытный парадокс: агенты, оперирующие инструментами, демонстрируют способность к сложным действиям, однако оказываются бессильны перед оценкой промежуточных шагов. Это не ошибка, а закономерность. Система, оптимизированная для достижения цели, не заинтересована в понимании процесса. Она просто работает — до тех пор, пока не столкнется с непредсказуемостью. AgentProcessBench лишь обнажил эту слепую зону, показав, что текущие модели вознаграждения не способны уловить нюансы эффективного, но не всегда очевидного, поведения.

Будущие исследования, вероятно, сосредоточатся на создании более тонких моделей оценки, способных различать не только конечный результат, но и качество каждого шага. Однако, истинный прогресс лежит не в усложнении существующих систем, а в переосмыслении самой концепции “вознаграждения”. Возможно, необходимо отойти от количественных оценок и обратиться к качественным метрикам, отражающим не эффективность, а потенциал каждого действия.

В конечном счете, AgentProcessBench — это не просто бенчмарк, а приглашение к реверс-инжинирингу интеллекта. Недостаточно научить машину действовать; необходимо научить ее понимать, почему она действует. И, возможно, в этом понимании кроется ключ к созданию действительно разумных агентов.

Оригинал статьи: https://arxiv.org/pdf/2603.14465.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-18 05:41

🚀 Квантовые новости