Автор: Денис Аветисян
Исследователи предлагают инновационную систему, позволяющую значительно повысить скорость обработки запросов в сложных агентных системах.

DualPath: система, разделяющая потоки данных для эффективной загрузки KV-кэша и снижения нагрузки на хранилище при выводе больших языковых моделей.
В современных системах, использующих большие языковые модели (LLM), производительность часто ограничивается пропускной способностью подсистемы хранения данных, а не вычислительной мощностью. В работе ‘DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference’ предложена система DualPath, решающая эту проблему за счет оптимизации загрузки KV-Cache из хранилища по двум путям — как для префилла, так и для декодирования. Это позволяет существенно снизить сетевую загрузку и повысить общую пропускную способность системы до 1.87\times для оффлайн-инференса и 1.96\times для онлайн-сервинга. Возможно ли дальнейшее повышение эффективности распределенного инференса LLM за счет более тонкой гранулярности управления данными и оптимизации коммуникаций между вычислительными узлами?
Узкое Место Масштабирования: LLM и Ограничения Ввода-Вывода
Современные большие языковые модели (LLM) становятся движущей силой прорывов в области агентных систем, открывая новые возможности для создания интеллектуальных помощников и автоматизированных решений. Растущая потребность в сложных рассуждениях и контекстуальном понимании требует от LLM не просто генерации текста, но и способности к глубокому анализу информации, планированию действий и адаптации к изменяющимся условиям. Именно эта способность к сложному мышлению позволяет агентным системам, построенным на базе LLM, успешно решать задачи, ранее доступные только человеку, такие как управление сложными процессами, принятие решений в условиях неопределенности и ведение диалога на естественном языке с высокой степенью понимания.
Масштабирование больших языковых моделей (LLM) сталкивается со значительными трудностями, обусловленными интенсивной нагрузкой на ввод-вывод данных при управлении KV-кэшем. Этот кэш является важнейшим компонентом, обеспечивающим сохранение контекста в процессе многооборотного вывода — то есть, при взаимодействии модели с пользователем в несколько этапов. По сути, KV-кэш хранит информацию о предыдущих запросах и ответах, позволяя модели учитывать историю беседы. Однако, по мере увеличения объема хранимого контекста, возрастают и требования к пропускной способности системы хранения и сети, что приводит к замедлению работы модели и увеличению задержек. Таким образом, управление KV-кэшем становится узким местом, ограничивающим возможности LLM по обработке длинных и сложных диалогов, а также по поддержанию длительного контекста в задачах, требующих запоминания информации.
Традиционные подходы к управлению KV-кэшем, критически важным для сохранения контекста в многооборотном выводе, сталкиваются с серьезными ограничениями пропускной способности сети хранения данных. По мере увеличения длины контекстного окна, необходимого для сложных задач, особенно в системах, управляемых агентами, эта проблема становится узким местом, существенно замедляющим обработку. В задачах, где поддержание доли попаданий в кэш (KV-Cache hit rate) на уровне ≥95% является типичным требованием для обеспечения адекватной производительности агента, недостаточная пропускная способность сети хранения данных приводит к задержкам и снижению общей эффективности системы. Это вынуждает разработчиков искать инновационные решения для оптимизации доступа к данным и повышения скорости обработки запросов, чтобы обеспечить масштабируемость и отзывчивость сложных LLM-агентов.

DualPath: Новая Стратегия Загрузки KV-Кэша
Стратегия DualPath представляет собой принципиально новый подход к управлению KV-кэшем, переосмысливающий процесс загрузки данных с целью преодоления ограничений, связанных с пропускной способностью ввода-вывода. Традиционные методы загрузки KV-кэша часто становятся узким местом, особенно при работе с большими языковыми моделями. DualPath решает эту проблему, разделяя этапы предварительной загрузки и декодирования данных, что позволяет более эффективно использовать доступные ресурсы и минимизировать задержки. Вместо последовательной загрузки всего кэша, DualPath оптимизирует этот процесс, позволяя параллельно выполнять предварительную загрузку и декодирование, тем самым повышая общую производительность системы и снижая зависимость от скорости операций ввода-вывода.
В DualPath разделение этапов предварительной загрузки (prefill) и декодирования (decode) посредством PD Disaggregation позволяет оптимизировать использование ресурсов. Традиционно эти процессы выполняются совместно, что приводит к узким местам при интенсивной нагрузке. DualPath выделяет специализированные аппаратные блоки — Prefill Engines (PE) и Decode Engines (DE) — для выполнения этих задач параллельно. PE отвечают за загрузку данных KV-Cache из памяти, в то время как DE выполняют декодирование и обработку загруженных данных. Такое разделение позволяет PE и DE работать независимо друг от друга, избегая простоя и максимизируя пропускную способность системы, что особенно важно для задач offline inference.
Для повышения производительности система DualPath использует послойную предварительную загрузку (Layer-wise Prefill) KV-кэша, в отличие от традиционного подхода, когда весь кэш загружается целиком. Вместо этого, данные KV-кэша загружаются по слоям нейронной сети последовательно. Такой подход позволяет начать обработку более ранних слоев, пока последующие слои еще загружаются, что уменьшает время ожидания и повышает общую пропускную способность. Послойная предварительная загрузка оптимизирует использование памяти и снижает требования к пропускной способности ввода-вывода, поскольку не требует одновременного выделения ресурсов для всего кэша.
Для повышения эффективности DualPath использует Remote Direct Memory Access (RDMA) для высокоскоростной передачи данных, обходя центральный процессор и снижая задержки. В дополнение к этому, применяется изоляция трафика, разделяющая потоки данных префилла и декодирования, что минимизирует конфликты и обеспечивает более предсказуемую производительность. В результате, при выполнении offline inference наблюдается увеличение пропускной способности до 1.87x по сравнению с традиционными подходами к управлению KV-Cache.

Оптимизация Сетевой Инфраструктуры для DualPath
Производительность DualPath напрямую зависит от высокопроизводительного сетевого стека, использующего карты сетевых интерфейсов вычислений (CNIC) для эффективной коммуникации внутри вычислительной сети. CNIC обеспечивают низкую задержку и высокую пропускную способность, необходимые для обмена данными между вычислительными узлами, что критически важно для параллельной обработки и снижения времени отклика. В отличие от стандартных сетевых интерфейсов, CNIC оптимизированы для задач машинного обучения, поддерживая специализированные протоколы и аппаратную акселерацию сетевых операций. Это позволяет значительно уменьшить накладные расходы на передачу данных и максимизировать эффективность использования вычислительных ресурсов.
Карты сетевого интерфейса хранилища (SNIC) обеспечивают необходимую пропускную способность для доступа к внешнему KV-Cache хранилищу, что является критически важным для поддержки больших контекстных окон. Использование SNIC позволяет значительно увеличить скорость передачи данных между вычислительными узлами и хранилищем KV-Cache, минимизируя задержки при доступе к данным, необходимым для обработки запросов с большими контекстными окнами. Это позволяет эффективно использовать большие объемы данных в процессе обработки, что особенно важно для задач, требующих анализа больших объемов информации и поддержания долгосрочного контекста.
Эффективное распределение рабочей нагрузки является критически важным для производительности DualPath, и достигается за счет использования специализированного алгоритма планирования. Интеграция данного алгоритма позволяет оптимизировать использование ресурсов системы и, как показывают результаты тестирования, приводит к снижению времени выполнения задания (Job Completion Time, JCT) на 45.62% по сравнению с базовой конфигурацией. Алгоритм планирования динамически распределяет задачи между доступными вычислительными узлами, минимизируя задержки и обеспечивая максимальную пропускную способность системы.
Интеграция с внешними системами кэширования, такими как Mooncake и HiCache, значительно повышает производительность DualPath за счет обеспечения быстрого доступа к часто используемым данным KV-Cache. Эти системы функционируют как промежуточный уровень между вычислительными узлами и основным хранилищем KV-Cache, что позволяет снизить задержки и увеличить пропускную способность. Кэширование часто запрашиваемых данных в более быстрой памяти снижает необходимость обращения к внешнему хранилищу, что особенно важно для рабочих нагрузок, требующих интенсивного доступа к данным. Использование Mooncake и HiCache позволяет эффективно масштабировать систему и поддерживать высокую производительность при увеличении объема данных и количества запросов.

Расширение Контекста и Ускорение Вывода
Архитектура DualPath обеспечивает гибкую организацию KV-кэша, используя структуры данных, такие как Layer Block и Full Block, для адаптации к различным размерам контекста. В отличие от традиционных подходов с фиксированным размером кэша, DualPath динамически распределяет память, позволяя эффективно обрабатывать как короткие, так и очень длинные последовательности входных данных. Layer Block оптимизирован для обработки контекстов меньшего размера, обеспечивая высокую скорость доступа, в то время как Full Block предназначен для масштабирования до значительно больших объемов информации. Такая модульная конструкция позволяет системе автоматически выбирать оптимальную конфигурацию кэша в зависимости от конкретной задачи, максимизируя производительность и снижая потребление ресурсов. В результате, DualPath открывает новые возможности для работы с большими языковыми моделями и сложными задачами обработки естественного языка.
Архитектура DualPath преодолевает ограничения, связанные с объемом оперативной памяти устройства, за счет переноса кэша ключей и значений (KV-Cache) во внешнее хранилище. Данный подход позволяет обрабатывать значительно более длинные входные последовательности, что критически важно для сложных задач обработки естественного языка и работы с большими объемами данных. Вместо хранения всей необходимой информации непосредственно в оперативной памяти устройства, DualPath динамически загружает необходимые фрагменты KV-Cache из внешнего хранилища по мере необходимости, эффективно используя доступные ресурсы и расширяя возможности обработки контекста. Это открывает путь к созданию систем искусственного интеллекта, способных к более глубокому пониманию и анализу информации, а также к более сложным рассуждениям и долгосрочному планированию.
В результате сочетания оптимизированной сетевой инфраструктуры, эффективной загрузки KV-Cache и интеллектуального планирования, система DualPath демонстрирует увеличение скорости выполнения задач агентами в 1,96 раза при онлайн-обслуживании. Такая производительность достигается благодаря минимизации задержек при доступе к данным, оптимальному распределению ресурсов и эффективной организации последовательности операций. Это позволяет агентам быстрее обрабатывать запросы, принимать решения и взаимодействовать с окружающей средой, открывая новые возможности для создания более сложных и эффективных систем искусственного интеллекта, способных к длительному планированию и сложному анализу.
Данное достижение открывает новые возможности для создания более сложных агентов, способных к глубокому анализу и стратегическому планированию. Благодаря преодолению ограничений, связанных с объемом памяти, системы на базе данной архитектуры могут обрабатывать значительно большие объемы информации, что необходимо для решения задач, требующих долгосрочной перспективы и учета множества факторов. Это позволяет агентам не просто реагировать на текущие события, но и предвидеть последствия своих действий, формировать долгосрочные цели и эффективно планировать шаги для их достижения. Возможность анализа больших объемов данных и построения сложных логических цепочек открывает путь к созданию интеллектуальных систем, способных к самостоятельному обучению и адаптации к изменяющимся условиям, что существенно расширяет спектр решаемых задач и повышает их эффективность.

Исследование демонстрирует, что узкие места в операциях ввода-вывода хранилища часто становятся ограничивающим фактором при работе с большими языковыми моделями, особенно в контексте агентов, требующих постоянного доступа к данным KV-Cache. Предложенная система DualPath направлена на смягчение этой проблемы посредством инновационного подхода к загрузке данных. Как однажды заметил Пол Эрдёш: «Математика — это искусство логичного мышления». Эта фраза отражает суть DualPath — стремление к элегантному и логичному решению, позволяющему оптимизировать процесс загрузки данных и тем самым повысить пропускную способность системы. В основе лежит принцип разделения нагрузки и балансировки потоков данных, что позволяет избежать перегрузки отдельных компонентов и добиться максимальной эффективности.
Куда Далее?
Представленная работа, безусловно, демонстрирует элегантность решения проблемы пропускной способности хранилища, однако истинная сложность, как всегда, скрывается глубже. Разделение операций префилла и декодирования — логичный шаг, но он лишь отодвигает проблему, а не устраняет её. Асимптотическая устойчивость системы, как и любого алгоритма, требует доказательства, а не просто демонстрации улучшения на ограниченном наборе агентических задач. Следует признать, что масштабируемость KV-кэша остаётся узким местом, и вопрос о его эффективной реализации в условиях постоянно растущих моделей требует дальнейшего изучения.
Очевидным направлением для будущих исследований является разработка алгоритмов, способных динамически адаптировать стратегию загрузки KV-кэша к изменяющимся характеристикам нагрузки. Представление о том, что «двойной путь» — это оптимальное решение, может оказаться преждевременным. Более того, необходимо учитывать влияние алгоритмов квантования и сжатия на производительность системы и исследовать возможности их интеграции с предложенным подходом. По сути, следует стремиться к созданию системы, которая не просто «работает», а предсказуемо и эффективно масштабируется.
В конечном счёте, задача заключается не в оптимизации конкретного алгоритма, а в разработке фундаментально новых подходов к управлению памятью и вычислениями в контексте больших языковых моделей. Истинная элегантность — это не скорость, а математическая чистота и доказанная устойчивость к любым входным данным. Именно к этому и следует стремиться.
Оригинал статьи: https://arxiv.org/pdf/2602.21548.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Функциональные поля и модули Дринфельда: новый взгляд на арифметику
- Квантовая самовнимательность на службе у поиска оптимальных схем
- Реальность и Кванты: Где Встречаются Теория и Эксперимент
- Квантовый скачок: от лаборатории к рынку
- Виртуальная примерка без границ: EVTAR учится у образов
2026-02-26 15:59