Инструменты в голове: проверка знаний больших языковых моделей

Автор: Денис Аветисян

Новое исследование выявляет, что системы параметрического поиска инструментов часто запоминают связи между запросами и инструментами, а не их функциональное назначение.

В рамках разработанной диагностической системы ToolSense, из каталога инструментов <span class="katex-eq" data-katex-display="false">\mathcal{C}</span> формируются наборы данных <span class="katex-eq" data-katex-display="false">\mathcal{D}\_{\mathrm{RRB}}</span>, <span class="katex-eq" data-katex-display="false">\mathcal{D}\_{\mathrm{MCQ}}</span> и <span class="katex-eq" data-katex-display="false">\mathcal{D}\_{\mathrm{QA}}</span>, предназначенные для всесторонней оценки и отладки функциональности инструментов. — В рамках разработанной диагностической системы ToolSense, из каталога инструментов $\mathcal{C}$ формируются наборы данных $\mathcal{D}\_{\mathrm{RRB}}$ , $\mathcal{D}\_{\mathrm{MCQ}}$ и $\mathcal{D}\_{\mathrm{QA}}$ , предназначенные для всесторонней оценки и отладки функциональности инструментов.

Разработана диагностическая система ToolSense для оценки способности языковых моделей к осмысленному использованию инструментов и обнаружения проблем с обобщением знаний.

Несмотря на успехи параметрического поиска инструментов для больших языковых моделей, часто остается неясным, действительно ли модели понимают функциональность инструментов или просто запоминают их связи. В данной работе представлена система ‘ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs’ — диагностический фреймворк, позволяющий оценить глубину понимания инструментов большими языковыми моделями. Результаты применения ToolSense к обширному каталогу инструментов (~47 тыс.) выявили существенное снижение производительности моделей при переходе от полносвязных запросов к более реалистичным, неоднозначным, что свидетельствует о проблеме диссоциации между извлечением инструмента и фактическим знанием. Не откроет ли это понимание путь к созданию более надежных и обобщающих систем, способных эффективно использовать широкий спектр инструментов?

Вызовы Инструментальной Деятельности в Больших Языковых Моделях

Несмотря на впечатляющие способности к генерации текста и пониманию языка, большие языковые модели (LLM) сталкиваются с серьезными трудностями при надежном использовании инструментов. Часто наблюдается феномен «галлюцинаций», когда модель предоставляет ложную информацию или неверно интерпретирует задачу, приводя к ошибочному применению доступных средств. Это проявляется не только в простых ошибках, но и в неспособности адекватно оценивать контекст и выбирать наиболее подходящий инструмент для достижения желаемого результата, что существенно ограничивает их применимость в реальных сценариях, требующих точного и последовательного выполнения действий.

Традиционные методы поиска инструментов, несмотря на высокую точность извлечения — до 90-96% в стандартных бенчмарках вроде ToolBench — оказываются хрупкими и недостаточно адаптивными при решении реальных задач. Они зачастую не способны уловить тонкие нюансы пользовательского запроса и выбрать наиболее подходящий инструмент для его реализации, что приводит к ошибкам и неэффективности. Суть проблемы заключается в отсутствии глубокого понимания намерений пользователя и контекста задачи; алгоритмы полагаются на поверхностное сопоставление ключевых слов, а не на истинный анализ потребностей. Как следствие, системы демонстрируют значительный разрыв между результатами на искусственно созданных тестовых примерах и их производительностью при обработке реальных запросов от пользователей.

Оценка способности больших языковых моделей к использованию инструментов требует разработки принципиально новых критериев тестирования. Простое измерение точности выполнения задачи недостаточно, поскольку не отражает глубину понимания модели и ее способность адаптироваться к новым ситуациям. Необходимо оценивать не только сам результат, но и ход рассуждений, которые привели к его достижению, а также умение правильно интерпретировать намерения пользователя. Современные бенчмарки зачастую фокусируются на узком спектре задач и не способны выявить реальный потенциал модели в более сложных, непредсказуемых сценариях. Таким образом, для достоверной оценки требуется создание комплексных тестов, проверяющих способность модели к логическому мышлению, пониманию контекста и обобщению полученного опыта при решении разнообразных проблем.

В отличие от многословных и детализированных запросов ToolBench, разработанных для стандартной оценки, запросы RRB представляют собой короткие, ориентированные на намерение фразы, отражающие естественный язык реальных пользователей.

Параметрическое Кодирование Знаний об Инструментах в LLM

Параметрический поиск инструментов представляет собой альтернативный подход к традиционным методам интеграции инструментов с большими языковыми моделями (LLM). В отличие от методов, требующих внешнего поиска или явного вызова инструментов, данный подход заключается в непосредственном кодировании знаний об инструментах в параметры самой LLM. Это достигается путем обучения модели на данных, включающих информацию об инструментах и способах их использования, что позволяет LLM самостоятельно определять необходимость использования конкретного инструмента в процессе генерации ответа, без необходимости внешних запросов или дополнительных этапов обработки. Такой подход потенциально обеспечивает более высокую скорость работы и эффективность, поскольку вся необходимая информация хранится непосредственно в весах модели.

Для непосредственного внедрения знаний об инструментах в большие языковые модели (LLM) используются виртуальные токены — уникальные идентификаторы, присваиваемые каждому инструменту. В процессе обучения LLM, виртуальные токены обрабатываются как обычные токены текста, позволяя модели «выучить» связь между этими идентификаторами и функциональностью соответствующих инструментов. Это позволяет LLM не только распознавать доступные инструменты, но и использовать их в процессе генерации ответов или выполнения задач, без необходимости внешних систем поиска или вызова. Фактически, знания об инструментах кодируются непосредственно в веса модели, что обеспечивает более эффективное и интегрированное взаимодействие.

Исследовались различные стратегии токенизации для оптимизации представления идентификаторов инструментов в моделях LLM, включая плоские (Flat Tokens) и иерархические (Hierarchical Tokens) токены. Эксперименты показали, что иерархические токены демонстрируют значительно более низкий показатель Internalization Score (0.33) по сравнению с плоскими токенами (0.75-0.85). Этот результат указывает на более сильную зависимость иерархических токенов от структуры trie для правильной интерпретации и использования, в то время как плоские токены в большей степени полагаются на внутренние параметры модели для понимания идентичности инструмента.

Сравнительный анализ относительного смещения L2 (dreld\_{\mathrm{rel}}) между виртуальными и случайными токенами словарного запаса на этапах 1→2 показывает разницу в производительности моделей Gemma3-4B.

Двухэтапный Подход к Обучению для Освоения Инструментов

Первый этап обучения направлен на установление связи между метаданными инструментов и виртуальными токенами. Этот процесс заключается в формировании у модели базового понимания функциональных возможностей каждого инструмента. В ходе обучения модели предоставляются данные, описывающие характеристики и назначение каждого инструмента, и она обучается сопоставлять эту информацию с соответствующим виртуальным токеном. Это позволяет модели, в дальнейшем, идентифицировать подходящий инструмент на основе его метаданных, создавая основу для более сложных задач выбора инструментов.

Второй этап обучения направлен на уточнение понимания модели за счет тренировки по поиску соответствующего виртуального токена в ответ на запрос пользователя. Этот процесс предполагает, что модель, получив запрос, должна выбрать виртуальный токен, который наилучшим образом соответствует требуемой функциональности. Успешное выполнение этой задачи обеспечивает точный выбор инструмента для решения конкретной задачи, поставленной в запросе, что является ключевым фактором в обеспечении общей эффективности системы. Обучение на этапе 2 фокусируется на создании связи между семантикой пользовательского запроса и соответствующим виртуальным токеном, что позволяет модели правильно интерпретировать потребности пользователя и выбирать наиболее подходящий инструмент.

Для оптимизации процесса обучения используется LoRA — параметрически-эффективный метод тонкой настройки, позволяющий снизить вычислительные затраты и ускорить проведение экспериментов. Однако, в ходе исследований было зафиксировано, что обучение на втором этапе (Stage 2) может приводить к ухудшению знаний, полученных на первом этапе (Stage 1). При оценке на реалистичных эталонных задачах по поиску информации, это проявляется в снижении производительности на 50-64%.

В процессе обучения на этапе 2 метрика IS@50 для модели Gemma3-4B демонстрирует стабильный рост, о чём свидетельствует 95% доверительный интервал, рассчитанный с помощью bootstrap, подробные результаты для всех вариантов обучения приведены в Приложении G.

Оценка ToolSense и Сила Интернационализации

Проведенные эксперименты с использованием моделей Qwen и Gemma, а также оценка на основе эталонного набора ToolBench, продемонстрировали эффективность предложенного параметрического подхода к поиску инструментов. Данный метод позволяет языковым моделям более точно идентифицировать и применять необходимые инструменты для решения поставленных задач, значительно повышая их функциональность и применимость в различных областях. Полученные результаты свидетельствуют о том, что параметрический поиск инструментов является перспективным направлением для улучшения возможностей больших языковых моделей в области взаимодействия с внешними инструментами и решения сложных задач, требующих специализированных знаний и навыков.

Разработанная платформа ToolSense предоставляет возможность всесторонней оценки способностей больших языковых моделей (LLM) к использованию инструментов благодаря генерации специализированных бенчмарков, включающих в себя RRB (Realistic Retrieval Benchmark), MCQ (Multiple Choice Questions) и QA (Question Answering). Анализ результатов показал существенное расхождение между производительностью на стандартном бенчмарке ToolBench, где достигнута точность 90-96%, и более реалистичным RRB, где показатель отзыва составляет лишь 27.1% — 44.4%. Эта разница указывает на то, что LLM часто демонстрируют высокую эффективность в контролируемых условиях, но испытывают затруднения при работе с инструментами в более приближенных к реальным сценариям, подчеркивая необходимость разработки бенчмарков, отражающих сложность практического применения.

В рамках исследования была предложена метрика — «Коэффициент Интернационализации», позволяющая оценить степень реального усвоения языковой моделью знаний о доступных инструментах, независимо от используемых методов декодирования, таких как Trie-Based Decoding. Анализ показал, что после второй стадии обучения точность решения задач с множественным выбором ответов (MCQ) снижается до 20-41.7%, что указывает на изменение приоритетов в процессе обучения. При этом, была выявлена сильная положительная корреляция (r=0.79, p<0.001) между точностью решения задач MCQ на первой стадии и способностью модели извлекать релевантные инструменты на реалистичном бенчмарке RRB, подтверждающая, что глубина понимания принципов работы инструментов, продемонстрированная на начальном этапе, напрямую влияет на эффективность их применения в более сложных сценариях.

Исследование демонстрирует, что параметрическое извлечение инструментов большими языковыми моделями часто сводится к запоминанию ассоциаций, а не к глубокому пониманию функциональности. Этот подход, как показывает ToolSense, приводит к недостаточной обобщающей способности и зависимости от ограниченного декодирования. В этой связи вспоминается высказывание Джона фон Неймана: «В науке не бывает окончательных ответов, только более точные вопросы». Иными словами, обнаружение поверхностного усвоения знаний инструментами — это не провал, а скорее указание на необходимость более глубокого анализа и постановки новых, более точных вопросов о природе их функционирования и способности к обобщению. Оценка ‘внутреннего балла’ (internalization score), предложенная в работе, служит именно таким инструментом для постановки этих вопросов.

Что же дальше?

Представленная работа демонстрирует, что системы параметрического извлечения инструментов, по сути, строят не знания, а скорее — хрупкие ассоциации. Это напоминает о том, что архитектура есть лишь способ откладывать хаос; чем сложнее система, тем масштабнее потенциальный сбой. Наблюдаемая зависимость от ограниченного декодирования свидетельствует не о «внутреннем понимании» функциональности инструментов, а о необходимости жестких ограничений для поддержания видимости компетентности.

Вместо погони за «лучшими практиками», которых, как известно, не существует — лишь выжившие — необходимо сместить фокус на создание систем, способных к адаптации и самодиагностике. Истинная проверка будет заключаться не в достижении высоких показателей на заранее определенных эталонах, а в способности системы извлекать уроки из собственных ошибок, предвидеть сценарии отказа и — самое главное — восстанавливаться после них. Порядок — это лишь кеш между двумя сбоями, и его иллюзорность следует принимать во внимание.

Будущие исследования должны быть направлены на разработку метрик, оценивающих не просто способность к извлечению инструментов, а глубину понимания их применения в непредсказуемых контекстах. Необходимо исследовать методы построения систем, которые учатся “выращивать” знания о инструментах, а не просто запоминать их связи. Ибо экосистемы процветают, когда способны к эволюции, а не к стагнации.

Оригинал статьи: https://arxiv.org/pdf/2606.12451.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-12 19:31

🚀 Квантовые новости