Ускорение работы больших языковых моделей: новый подход к загрузке данных

Автор: Денис Аветисян

Исследователи предлагают инновационную систему, позволяющую значительно повысить скорость обработки запросов в сложных агентных системах.

Существующее узкое место в обработке данных контрастирует с предложенным решением DualPath, демонстрирующим потенциал для увеличения пропускной способности и снижения задержек.

DualPath: система, разделяющая потоки данных для эффективной загрузки KV-кэша и снижения нагрузки на хранилище при выводе больших языковых моделей.

В современных системах, использующих большие языковые модели (LLM), производительность часто ограничивается пропускной способностью подсистемы хранения данных, а не вычислительной мощностью. В работе ‘DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference’ предложена система DualPath, решающая эту проблему за счет оптимизации загрузки KV-Cache из хранилища по двум путям — как для префилла, так и для декодирования. Это позволяет существенно снизить сетевую загрузку и повысить общую пропускную способность системы до $1.87\times$ для оффлайн-инференса и $1.96\times$ для онлайн-сервинга. Возможно ли дальнейшее повышение эффективности распределенного инференса LLM за счет более тонкой гранулярности управления данными и оптимизации коммуникаций между вычислительными узлами?

Узкое Место Масштабирования: LLM и Ограничения Ввода-Вывода

Современные большие языковые модели (LLM) становятся движущей силой прорывов в области агентных систем, открывая новые возможности для создания интеллектуальных помощников и автоматизированных решений. Растущая потребность в сложных рассуждениях и контекстуальном понимании требует от LLM не просто генерации текста, но и способности к глубокому анализу информации, планированию действий и адаптации к изменяющимся условиям. Именно эта способность к сложному мышлению позволяет агентным системам, построенным на базе LLM, успешно решать задачи, ранее доступные только человеку, такие как управление сложными процессами, принятие решений в условиях неопределенности и ведение диалога на естественном языке с высокой степенью понимания.

Масштабирование больших языковых моделей (LLM) сталкивается со значительными трудностями, обусловленными интенсивной нагрузкой на ввод-вывод данных при управлении KV-кэшем. Этот кэш является важнейшим компонентом, обеспечивающим сохранение контекста в процессе многооборотного вывода — то есть, при взаимодействии модели с пользователем в несколько этапов. По сути, KV-кэш хранит информацию о предыдущих запросах и ответах, позволяя модели учитывать историю беседы. Однако, по мере увеличения объема хранимого контекста, возрастают и требования к пропускной способности системы хранения и сети, что приводит к замедлению работы модели и увеличению задержек. Таким образом, управление KV-кэшем становится узким местом, ограничивающим возможности LLM по обработке длинных и сложных диалогов, а также по поддержанию длительного контекста в задачах, требующих запоминания информации.

Традиционные подходы к управлению KV-кэшем, критически важным для сохранения контекста в многооборотном выводе, сталкиваются с серьезными ограничениями пропускной способности сети хранения данных. По мере увеличения длины контекстного окна, необходимого для сложных задач, особенно в системах, управляемых агентами, эта проблема становится узким местом, существенно замедляющим обработку. В задачах, где поддержание доли попаданий в кэш (KV-Cache hit rate) на уровне ≥95% является типичным требованием для обеспечения адекватной производительности агента, недостаточная пропускная способность сети хранения данных приводит к задержкам и снижению общей эффективности системы. Это вынуждает разработчиков искать инновационные решения для оптимизации доступа к данным и повышения скорости обработки запросов, чтобы обеспечить масштабируемость и отзывчивость сложных LLM-агентов.

Эксперименты показали, что производительность моделей <span class="katex-eq" data-katex-display="false">DS_{27B}</span>, <span class="katex-eq" data-katex-display="false">DS_{660B}</span> и <span class="katex-eq" data-katex-display="false">Qwen_{32B}</span> при автономном выводе снижается с увеличением числа агентов и максимальной длины контекста, а в некоторых случаях вычисления прерываются из-за ошибок. — Эксперименты показали, что производительность моделей $DS_{27B}$ , $DS_{660B}$ и $Qwen_{32B}$ при автономном выводе снижается с увеличением числа агентов и максимальной длины контекста, а в некоторых случаях вычисления прерываются из-за ошибок.

DualPath: Новая Стратегия Загрузки KV-Кэша

Стратегия DualPath представляет собой принципиально новый подход к управлению KV-кэшем, переосмысливающий процесс загрузки данных с целью преодоления ограничений, связанных с пропускной способностью ввода-вывода. Традиционные методы загрузки KV-кэша часто становятся узким местом, особенно при работе с большими языковыми моделями. DualPath решает эту проблему, разделяя этапы предварительной загрузки и декодирования данных, что позволяет более эффективно использовать доступные ресурсы и минимизировать задержки. Вместо последовательной загрузки всего кэша, DualPath оптимизирует этот процесс, позволяя параллельно выполнять предварительную загрузку и декодирование, тем самым повышая общую производительность системы и снижая зависимость от скорости операций ввода-вывода.

В DualPath разделение этапов предварительной загрузки (prefill) и декодирования (decode) посредством PD Disaggregation позволяет оптимизировать использование ресурсов. Традиционно эти процессы выполняются совместно, что приводит к узким местам при интенсивной нагрузке. DualPath выделяет специализированные аппаратные блоки — Prefill Engines (PE) и Decode Engines (DE) — для выполнения этих задач параллельно. PE отвечают за загрузку данных KV-Cache из памяти, в то время как DE выполняют декодирование и обработку загруженных данных. Такое разделение позволяет PE и DE работать независимо друг от друга, избегая простоя и максимизируя пропускную способность системы, что особенно важно для задач offline inference.

Для повышения производительности система DualPath использует послойную предварительную загрузку (Layer-wise Prefill) KV-кэша, в отличие от традиционного подхода, когда весь кэш загружается целиком. Вместо этого, данные KV-кэша загружаются по слоям нейронной сети последовательно. Такой подход позволяет начать обработку более ранних слоев, пока последующие слои еще загружаются, что уменьшает время ожидания и повышает общую пропускную способность. Послойная предварительная загрузка оптимизирует использование памяти и снижает требования к пропускной способности ввода-вывода, поскольку не требует одновременного выделения ресурсов для всего кэша.

Для повышения эффективности DualPath использует Remote Direct Memory Access (RDMA) для высокоскоростной передачи данных, обходя центральный процессор и снижая задержки. В дополнение к этому, применяется изоляция трафика, разделяющая потоки данных префилла и декодирования, что минимизирует конфликты и обеспечивает более предсказуемую производительность. В результате, при выполнении offline inference наблюдается увеличение пропускной способности до 1.87x по сравнению с традиционными подходами к управлению KV-Cache.

Анализ времени выполнения на сервере показал, что DualPath (<span class="katex-eq" data-katex-display="false">TTFT</span>) сокращает задержки по сравнению с базовым подходом за счет оптимизации операций планирования, выделения ресурсов и чтения кэша KV, что подтверждается результатами экспериментов с длиной контекста 64K. — Анализ времени выполнения на сервере показал, что DualPath ( $TTFT$ ) сокращает задержки по сравнению с базовым подходом за счет оптимизации операций планирования, выделения ресурсов и чтения кэша KV, что подтверждается результатами экспериментов с длиной контекста 64K.

Оптимизация Сетевой Инфраструктуры для DualPath

Производительность DualPath напрямую зависит от высокопроизводительного сетевого стека, использующего карты сетевых интерфейсов вычислений (CNIC) для эффективной коммуникации внутри вычислительной сети. CNIC обеспечивают низкую задержку и высокую пропускную способность, необходимые для обмена данными между вычислительными узлами, что критически важно для параллельной обработки и снижения времени отклика. В отличие от стандартных сетевых интерфейсов, CNIC оптимизированы для задач машинного обучения, поддерживая специализированные протоколы и аппаратную акселерацию сетевых операций. Это позволяет значительно уменьшить накладные расходы на передачу данных и максимизировать эффективность использования вычислительных ресурсов.

Карты сетевого интерфейса хранилища (SNIC) обеспечивают необходимую пропускную способность для доступа к внешнему KV-Cache хранилищу, что является критически важным для поддержки больших контекстных окон. Использование SNIC позволяет значительно увеличить скорость передачи данных между вычислительными узлами и хранилищем KV-Cache, минимизируя задержки при доступе к данным, необходимым для обработки запросов с большими контекстными окнами. Это позволяет эффективно использовать большие объемы данных в процессе обработки, что особенно важно для задач, требующих анализа больших объемов информации и поддержания долгосрочного контекста.

Эффективное распределение рабочей нагрузки является критически важным для производительности DualPath, и достигается за счет использования специализированного алгоритма планирования. Интеграция данного алгоритма позволяет оптимизировать использование ресурсов системы и, как показывают результаты тестирования, приводит к снижению времени выполнения задания (Job Completion Time, JCT) на 45.62% по сравнению с базовой конфигурацией. Алгоритм планирования динамически распределяет задачи между доступными вычислительными узлами, минимизируя задержки и обеспечивая максимальную пропускную способность системы.

Интеграция с внешними системами кэширования, такими как Mooncake и HiCache, значительно повышает производительность DualPath за счет обеспечения быстрого доступа к часто используемым данным KV-Cache. Эти системы функционируют как промежуточный уровень между вычислительными узлами и основным хранилищем KV-Cache, что позволяет снизить задержки и увеличить пропускную способность. Кэширование часто запрашиваемых данных в более быстрой памяти снижает необходимость обращения к внешнему хранилищу, что особенно важно для рабочих нагрузок, требующих интенсивного доступа к данным. Использование Mooncake и HiCache позволяет эффективно масштабировать систему и поддерживать высокую производительность при увеличении объема данных и количества запросов.

Планировщик динамически распределяет трафик данных между двумя путями, обеспечивая отказоустойчивость и оптимизацию пропускной способности.

Расширение Контекста и Ускорение Вывода

Архитектура DualPath обеспечивает гибкую организацию KV-кэша, используя структуры данных, такие как Layer Block и Full Block, для адаптации к различным размерам контекста. В отличие от традиционных подходов с фиксированным размером кэша, DualPath динамически распределяет память, позволяя эффективно обрабатывать как короткие, так и очень длинные последовательности входных данных. Layer Block оптимизирован для обработки контекстов меньшего размера, обеспечивая высокую скорость доступа, в то время как Full Block предназначен для масштабирования до значительно больших объемов информации. Такая модульная конструкция позволяет системе автоматически выбирать оптимальную конфигурацию кэша в зависимости от конкретной задачи, максимизируя производительность и снижая потребление ресурсов. В результате, DualPath открывает новые возможности для работы с большими языковыми моделями и сложными задачами обработки естественного языка.

Архитектура DualPath преодолевает ограничения, связанные с объемом оперативной памяти устройства, за счет переноса кэша ключей и значений (KV-Cache) во внешнее хранилище. Данный подход позволяет обрабатывать значительно более длинные входные последовательности, что критически важно для сложных задач обработки естественного языка и работы с большими объемами данных. Вместо хранения всей необходимой информации непосредственно в оперативной памяти устройства, DualPath динамически загружает необходимые фрагменты KV-Cache из внешнего хранилища по мере необходимости, эффективно используя доступные ресурсы и расширяя возможности обработки контекста. Это открывает путь к созданию систем искусственного интеллекта, способных к более глубокому пониманию и анализу информации, а также к более сложным рассуждениям и долгосрочному планированию.

В результате сочетания оптимизированной сетевой инфраструктуры, эффективной загрузки KV-Cache и интеллектуального планирования, система DualPath демонстрирует увеличение скорости выполнения задач агентами в 1,96 раза при онлайн-обслуживании. Такая производительность достигается благодаря минимизации задержек при доступе к данным, оптимальному распределению ресурсов и эффективной организации последовательности операций. Это позволяет агентам быстрее обрабатывать запросы, принимать решения и взаимодействовать с окружающей средой, открывая новые возможности для создания более сложных и эффективных систем искусственного интеллекта, способных к длительному планированию и сложному анализу.

Данное достижение открывает новые возможности для создания более сложных агентов, способных к глубокому анализу и стратегическому планированию. Благодаря преодолению ограничений, связанных с объемом памяти, системы на базе данной архитектуры могут обрабатывать значительно большие объемы информации, что необходимо для решения задач, требующих долгосрочной перспективы и учета множества факторов. Это позволяет агентам не просто реагировать на текущие события, но и предвидеть последствия своих действий, формировать долгосрочные цели и эффективно планировать шаги для их достижения. Возможность анализа больших объемов данных и построения сложных логических цепочек открывает путь к созданию интеллектуальных систем, способных к самостоятельному обучению и адаптации к изменяющимся условиям, что существенно расширяет спектр решаемых задач и повышает их эффективность.

Эксперименты показали, что увеличение длины добавляемых фрагментов и длины генерируемого текста положительно влияет на производительность модели при использовании DS 660B, контекста 64K и 1024 агентов.

Исследование демонстрирует, что узкие места в операциях ввода-вывода хранилища часто становятся ограничивающим фактором при работе с большими языковыми моделями, особенно в контексте агентов, требующих постоянного доступа к данным KV-Cache. Предложенная система DualPath направлена на смягчение этой проблемы посредством инновационного подхода к загрузке данных. Как однажды заметил Пол Эрдёш: «Математика — это искусство логичного мышления». Эта фраза отражает суть DualPath — стремление к элегантному и логичному решению, позволяющему оптимизировать процесс загрузки данных и тем самым повысить пропускную способность системы. В основе лежит принцип разделения нагрузки и балансировки потоков данных, что позволяет избежать перегрузки отдельных компонентов и добиться максимальной эффективности.

Куда Далее?

Представленная работа, безусловно, демонстрирует элегантность решения проблемы пропускной способности хранилища, однако истинная сложность, как всегда, скрывается глубже. Разделение операций префилла и декодирования — логичный шаг, но он лишь отодвигает проблему, а не устраняет её. Асимптотическая устойчивость системы, как и любого алгоритма, требует доказательства, а не просто демонстрации улучшения на ограниченном наборе агентических задач. Следует признать, что масштабируемость KV-кэша остаётся узким местом, и вопрос о его эффективной реализации в условиях постоянно растущих моделей требует дальнейшего изучения.

Очевидным направлением для будущих исследований является разработка алгоритмов, способных динамически адаптировать стратегию загрузки KV-кэша к изменяющимся характеристикам нагрузки. Представление о том, что «двойной путь» — это оптимальное решение, может оказаться преждевременным. Более того, необходимо учитывать влияние алгоритмов квантования и сжатия на производительность системы и исследовать возможности их интеграции с предложенным подходом. По сути, следует стремиться к созданию системы, которая не просто «работает», а предсказуемо и эффективно масштабируется.

В конечном счёте, задача заключается не в оптимизации конкретного алгоритма, а в разработке фундаментально новых подходов к управлению памятью и вычислениями в контексте больших языковых моделей. Истинная элегантность — это не скорость, а математическая чистота и доказанная устойчивость к любым входным данным. Именно к этому и следует стремиться.

Оригинал статьи: https://arxiv.org/pdf/2602.21548.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-26 15:59

🚀 Квантовые новости