Искусственный интеллект на службе задач: новый эталон оценки

Автор: Денис Аветисян

Исследователи представили комплексный инструмент для оценки способностей ИИ-агентов решать как простые, так и сложные многоэтапные задачи, выявляя слабые места и определяя ключевые факторы успеха.

Статистические данные, представленные для GTA-Atomic и GTA-Workflow, демонстрируют различия в их характеристиках, раскрывая нюансы производительности и эффективности каждой методологии в контексте заданных задач.

В статье представлен GTA-2 — иерархический бенчмарк для оценки возможностей ИИ-агентов в использовании инструментов и выполнении комплексных рабочих процессов.

Несмотря на прогресс в области искусственного интеллекта, оценка способности агентов к выполнению сложных, реалистичных задач остается сложной проблемой. В данной работе, ‘GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows’, представлен новый иерархический бенчмарк GTA-2, предназначенный для всесторонней оценки агентов, использующих инструменты, как в простых операциях, так и в долгосрочных рабочих процессах. Эксперименты выявили значительный разрыв в возможностях: современные модели демонстрируют низкую эффективность в выполнении комплексных задач, что подчеркивает важность разработки не только самих моделей, но и инфраструктуры их исполнения. Какие новые подходы к проектированию и оценке агентов позволят преодолеть эти ограничения и приблизиться к созданию надежных персональных и профессиональных помощников?

Неизбежность Сложности: Вызовы для Больших Языковых Моделей

Несмотря на впечатляющую способность больших языковых моделей (БЯМ) к распознаванию закономерностей, сложные задачи, требующие последовательного, многоступенчатого рассуждения, представляют для них серьезную трудность. БЯМ, как правило, преуспевают в задачах, где ответ можно найти непосредственно в данных или выведен из очевидных связей. Однако, когда требуется построение логической цепочки, планирование и адаптация на протяжении длительного процесса, их производительность существенно снижается. Это связано с тем, что БЯМ, в основе своей, предсказывают следующее слово в последовательности, а не строят целостные, аргументированные решения, требующие удержания в памяти промежуточных выводов и постоянной оценки их релевантности.

Современные подходы к разработке языковых моделей часто оказываются неэффективными при решении задач, требующих долгосрочного планирования и адаптации к изменяющимся условиям. Исследования показывают, что текущий уровень успешности выполнения сложных, многоэтапных рабочих процессов, так называемых «долгосрочных задач», составляет всего 14.39%. Это свидетельствует о существенных ограничениях в способности моделей последовательно применять логические цепочки и корректировать стратегии на протяжении длительного взаимодействия, что подчеркивает необходимость поиска новых методов для повышения их надежности и эффективности в условиях реальных, динамичных сценариев.

Эффективное использование внешних инструментов представляет собой ключевой фактор для повышения возможностей языковых моделей, однако остается серьезным препятствием на пути к созданию действительно интеллектуальных агентов. Способность обращаться к специализированным ресурсам — будь то поисковые системы, калькуляторы или базы данных — позволяет моделям преодолеть ограничения, заложенные в их обучающих данных, и решать задачи, требующие актуальной информации или сложных вычислений. Несмотря на значительный прогресс в этой области, существующие системы часто сталкиваются с трудностями в выборе подходящего инструмента, правильной интерпретации его результатов и интеграции полученных данных в общий процесс рассуждений. Преодоление этих сложностей требует разработки новых методов, позволяющих моделям не просто «использовать» инструменты, а эффективно планировать и координировать их работу для достижения поставленных целей, что является важным шагом на пути к созданию по-настоящему автономных и интеллектуальных систем.

Сравнительный анализ эталонных тестов для систем на основе больших языковых моделей показывает, что практическая полезность запросов для людей и их логическая последовательность для LLM являются ключевыми факторами производительности.

Lagent: Архитектура для Действий и Планирования

Фреймворк Lagent представляет собой надежную архитектуру для создания агентов на основе больших языковых моделей (LLM), способных к выполнению сложных задач. Он обеспечивает модульную структуру, позволяющую интегрировать различные компоненты, такие как планировщики, исполнители и инструменты. Архитектура Lagent поддерживает динамическое планирование и адаптацию к изменяющимся условиям, что позволяет агентам эффективно решать задачи, требующие последовательных действий и взаимодействия с внешней средой. Ключевым аспектом является возможность масштабирования и расширения функциональности за счет добавления новых инструментов и модулей, что делает Lagent пригодным для широкого спектра приложений, от автоматизации рабочих процессов до разработки интеллектуальных систем поддержки принятия решений.

В основе архитектуры Lagent лежит методология ‘ReAct’, представляющая собой итеративный цикл, объединяющий этапы рассуждения и действия. Агент формирует цепочку мыслей ( $Thought$ ) для анализа текущей ситуации и планирования следующего шага, затем выполняет действие ( $Action$ ) для взаимодействия с окружающей средой. Результат действия используется для обновления внутреннего состояния агента и формирования следующей цепочки мыслей. Этот процесс повторяется до достижения поставленной цели или достижения заданного лимита итераций, обеспечивая динамическое планирование и адаптацию к изменяющимся условиям, в отличие от предопределенных последовательностей действий.

В основе Lagent лежит платформа AgentLego, предназначенная для упрощения процесса предоставления инструментов и обеспечения удаленного доступа к ним. AgentLego стандартизирует взаимодействие с внешними ресурсами, позволяя агентам Lagent эффективно использовать различные инструменты, такие как поисковые системы, калькуляторы или API. Это достигается за счет унифицированного интерфейса и механизмов управления, которые абстрагируют сложность взаимодействия с каждым конкретным инструментом. AgentLego обеспечивает возможность удаленного доступа к инструментам, что позволяет агентам функционировать независимо от локальной установки и масштабироваться при необходимости.

Для создания иерархии GTA-2 используется двухступенчатый подход: экспертное построение базы данных GTA-Atomic, обеспечивающее точность многошагового рассуждения, и полуавтоматический конвейер GTA-Workflow, сочетающий задачи из реальных источников с доработкой и проверкой подлинности при помощи больших языковых моделей и людей.

GTA-2: Комплексная Оценка Производительности Агентов

Набор тестов GTA-2 предназначен для всесторонней оценки возможностей агентов, охватывая как задачи с коротким горизонтом планирования (‘GTA-Atomic’), так и сложные, многоэтапные рабочие процессы. Задачи ‘GTA-Atomic’ проверяют базовые навыки агента в решении простых, изолированных подзадач. В то же время, ‘GTA-Workflow’ задачи требуют от агента планирования и выполнения последовательности действий для достижения конечной цели, что позволяет оценить его способность к долгосрочному планированию и адаптации к изменяющимся условиям. Такой подход обеспечивает более полную картину возможностей агента, чем оценка только по отдельным аспектам его функционирования.

В бенчмарке GTA-2 используется оценка, ориентированная на результат (“Deliverable-Centric Evaluation”), что означает, что ключевым критерием является качество конечного продукта, а не последовательность промежуточных действий. Такой подход позволяет более реалистично оценить производительность агента в практических сценариях, поскольку в реальных задачах часто важен только конечный результат, а способ его достижения может быть различным. Вместо оценки каждого шага, система оценивает, достиг ли агент поставленной цели и соответствует ли полученный результат заданным требованиям, что обеспечивает более точную и объективную оценку эффективности агента.

Для структурированной оценки в бенчмарке GTA-2 используется методика ‘Checkpoint-Based Evaluation’, которая разбивает сложные задачи на верифицируемые подцели. Такой подход позволяет проводить детальный анализ поведения агента на каждом этапе выполнения. Результаты показывают, что даже самые мощные на текущий момент большие языковые модели (LLM) демонстрируют лишь 14.39% успешного завершения комплексных задач GTA-Workflow, что указывает на значительные трудности в решении задач с длинным горизонтом планирования и требующих последовательного достижения нескольких подцелей.

Анализ производительности моделей в GTA-Workflow по шести реальным категориям показывает, что различные модели демонстрируют разную эффективность при решении сложных задач с долгосрочным планированием, что подтверждается средними значениями оценок <span class="katex-eq" data-katex-display="false">\sqrt{scores}</span> (от 0 до 10), рассчитанными с использованием рекурсивной системы оценки контрольных точек. — Анализ производительности моделей в GTA-Workflow по шести реальным категориям показывает, что различные модели демонстрируют разную эффективность при решении сложных задач с долгосрочным планированием, что подтверждается средними значениями оценок $\sqrt{scores}$ (от 0 до 10), рассчитанными с использованием рекурсивной системы оценки контрольных точек.

Надежность Оценки и Валидации: Путь к Объективности

Для автоматизации оценки результатов работы агентов была разработана система “LLM Judge”, представляющая собой масштабируемую альтернативу ручной проверке. Вместо трудоемкого анализа экспертами, система использует возможности больших языковых моделей для оценки качества и соответствия ответов агентов заданным критериям. Это позволяет значительно ускорить процесс верификации, снизить затраты и обеспечить последовательность оценок, особенно при работе с большим количеством данных и задач. Благодаря автоматизации, разработчики и исследователи получают возможность быстро выявлять слабые места в работе агентов и оперативно вносить необходимые корректировки для повышения их эффективности.

Для обеспечения объективности автоматизированной оценки, основанной на больших языковых моделях (LLM), применяются показатели согласованности между оценками, данными разными людьми — так называемая “межэкспертная надежность”. Эти метрики позволяют проверить, насколько стабильны и последовательны результаты, выдаваемые LLM, по сравнению с оценками, которые дали бы люди-эксперты, оценивающие те же самые ответы. Высокая степень согласованности между автоматической и человеческой оценкой подтверждает, что LLM-основанный подход является надежным и не подвержен случайным колебаниям или предвзятости. Использование таких мер позволяет гарантировать, что автоматизированная оценка является валидной и может использоваться для сравнения различных LLM-агентов или отслеживания их прогресса во времени, предоставляя объективную картину их эффективности.

Платформа OpenCompass представляет собой комплексный инструментарий для оценки производительности агентов на основе больших языковых моделей (LLM) в различных задачах. Внедрение OpenClaw совместно с Lagent продемонстрировало существенное улучшение результатов: оценка корневых показателей увеличилась с 2.49 до 6.82, а процент успешного выполнения задач на конечном этапе вырос с 10.14% до 73.55%. Это свидетельствует о значительном повышении эффективности благодаря использованию продвинутых сред исполнения. Более того, LLM Judge, используемый в составе платформы, показал высокую степень соответствия человеческим оценкам, достигнув коэффициента корреляции Пирсона в 0.966, что подтверждает надежность и объективность автоматизированной системы оценки.

Представленное исследование демонстрирует, что оценка агентов, способных к использованию инструментов, требует не просто проверки отдельных действий, но и анализа их способности к построению сложных, долгосрочных рабочих процессов. Это подчеркивает важность иерархических бенчмарков, подобных GTA-2, для выявления слабых мест в существующих системах. Как заметил Эдсгер Дейкстра: «Программирование — это не столько о том, чтобы заставить компьютер делать что-то, сколько о том, чтобы сказать ему, что делать». В контексте GTA-2, это означает, что недостаточно просто научить агента использовать отдельные инструменты; необходимо предоставить ему четкие инструкции для построения комплексных стратегий, что, в свою очередь, позволит оценить его истинный потенциал в решении задач, требующих последовательного применения инструментов и адаптации к меняющимся условиям.

Что дальше?

Представленная работа, выявляя несовершенство систем оценки агентов, лишь подчеркивает фундаментальную истину: каждая система стареет. GTA-2, как и любой бенчмарк, зафиксировал момент времени, но не остановил его течение. Разрыв между атомарным использованием инструментов и построением долгосрочных рабочих процессов — это не просто техническая проблема, а отражение энтропии, неизбежно возникающей в сложных системах. Важно понимать, что совершенствование execution frameworks — это не цель, а лишь временное смягчение последствий неумолимого времени.

Очевидно, что будущие исследования должны сместить фокус с количественной оценки производительности на качественный анализ адаптивности и устойчивости агентов. Рефакторинг — это диалог с прошлым, попытка извлечь уроки из ошибок и несовершенств. Однако, настоящий прогресс требует не просто исправления ошибок, а предвидения будущих сбоев. Необходимо разрабатывать системы, способные не только выполнять задачи, но и предсказывать свою собственную деградацию.

В конечном итоге, вопрос не в том, как создать идеального агента, а в том, как создать систему, способную достойно стареть. Каждый сбой — это сигнал времени, напоминание о том, что ничто не вечно. Истинный тест для LLM агентов — это не их способность решать задачи сегодня, а их способность адаптироваться к неопределенности завтра.

Оригинал статьи: https://arxiv.org/pdf/2604.15715.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-20 08:05

🚀 Квантовые новости