Ускорение рекомендаций: квантование OneRec-V2

Автор: Денис Аветисян

Новое исследование демонстрирует, как снижение точности вычислений позволяет значительно повысить производительность модели OneRec-V2 без потери качества рекомендаций.

В результате оптимизации архитектуры вывода и применения квантования FP8 к линейным и MoE-операторам, пропускная способность системы увеличилась на 92% - с исходных 205 до 394 единиц - благодаря последовательному вкладу оптимизаций на уровне операторов (23%), квантования (42%) и самой архитектуры (27%). — В результате оптимизации архитектуры вывода и применения квантования FP8 к линейным и MoE-операторам, пропускная способность системы увеличилась на 92% — с исходных 205 до 394 единиц — благодаря последовательному вкладу оптимизаций на уровне операторов (23%), квантования (42%) и самой архитектуры (27%).

Квантование до FP8 в сочетании с оптимизацией инфраструктуры обеспечивает существенный прирост пропускной способности для рекомендательных систем.

Квантизация, успешно применяемая для оптимизации больших языковых моделей, сталкивается со значительными трудностями при адаптации к рекомендательным системам. В работе ‘Quantized Inference for OneRec-V2’ исследуется возможность эффективного применения низкоточной квантизации к современной генеративной модели рекомендаций OneRec-V2. Показано, что благодаря особенностям архитектуры и статистике весов и активаций, OneRec-V2 демонстрирует более контролируемое поведение, позволяющее добиться значительного увеличения пропускной способности и снижения задержки — до 49% и 92% соответственно — при использовании FP8 квантизации и оптимизированной инфраструктуры. Не прибегая к ухудшению ключевых метрик онлайн-тестирования, полученные результаты позволяют предположить, что опыт, накопленный в области оптимизации LLM, может быть успешно применен к задачам крупномасштабных рекомендательных систем?

Элегантность Генеративных Рекомендаций

Традиционные системы рекомендаций, несмотря на свою эффективность в ранжировании наиболее подходящих элементов, часто оказываются неспособными адекватно учитывать последовательность действий пользователя. Они рассматривают каждый запрос как независимое событие, игнорируя контекст предыдущих взаимодействий. В результате, рекомендации могут не соответствовать текущим потребностям пользователя, поскольку не учитывают эволюцию его предпочтений во времени. Это особенно заметно в сценариях, где порядок взаимодействия имеет решающее значение, например, при просмотре видео или прослушивании музыки, где следующий выбранный элемент тесно связан с предыдущими. В связи с этим, возникает необходимость в моделях, способных учитывать динамику поведения пользователя и строить рекомендации, основанные на всей истории его взаимодействий.

В последние годы наблюдается значительный интерес к генеративным моделям в области рекомендательных систем, вдохновленным успехами больших языковых моделей. Вместо традиционного подхода, основанного на ранжировании элементов, эти модели рассматривают процесс формирования рекомендаций как задачу последовательного генерирования. Это означает, что система не просто выбирает наиболее релевантные товары, но и предсказывает, какие элементы пользователь, вероятнее всего, добавит в свою последовательность взаимодействий — например, какие фильмы посмотрит дальше или какие товары приобретет. Такой подход позволяет учитывать контекст предыдущих действий пользователя и генерировать более персонализированные и последовательные рекомендации, имитируя естественный процесс принятия решений человеком. $P(item_t | item_{t-1}, item_{t-2}, ... , item_1)$ — вероятность выбора элемента в момент времени t, учитывая всю историю взаимодействий пользователя.

Сравнение статистических распределений различных моделей показывает, что классическая рекомендательная модель характеризуется значительно большим разбросом и дисперсией значений, в то время как OneRec-V2 и Qwen3-8B демонстрируют схожие, более стабильные распределения.

OneRec-V2: Масштабирование Генеративных Рекомендаций

Модель OneRec-V2 представляет собой новый подход к генерации рекомендаций, объединяющий этапы поиска релевантных кандидатов и ранжирования в единую архитектуру. Традиционно, системы рекомендаций используют отдельные модели для извлечения (retrieval) подходящих элементов из большого каталога и последующего ранжирования этих элементов для определения порядка их представления пользователю. OneRec-V2 отказывается от этого разделения, реализуя процесс генерации рекомендаций как единую последовательность, что позволяет модели учитывать взаимосвязь между этапами поиска и ранжирования и оптимизировать их совместно. Это приводит к повышению эффективности и улучшению качества рекомендаций за счет более полного использования информации о предпочтениях пользователя и характеристиках элементов каталога.

В архитектуре OneRec-V2 ключевым элементом является использование разреженной смеси экспертов (Sparse MoE). Данный подход позволяет выборочно активировать только часть экспертов для обработки каждого запроса, что значительно повышает вычислительную эффективность и снижает требования к памяти. Каждый эксперт представляет собой отдельную нейронную сеть, и механизм маршрутизации определяет, какие эксперты наиболее релевантны для конкретного входного сигнала. Это позволяет модели масштабировать свою емкость без пропорционального увеличения вычислительных затрат, поскольку не все параметры модели участвуют в каждом вычислении. Использование Sparse MoE позволяет OneRec-V2 эффективно обрабатывать большие объемы данных и сложные модели, сохраняя при этом приемлемую скорость инференса.

Эффективное управление распределением весов и активаций является критически важным для оптимизации производительности и стабильности модели OneRec-V2. Контроль распределения весов включает в себя балансировку нагрузки между экспертами в разреженной смеси экспертов (Sparse MoE), предотвращая доминирование отдельных экспертов и обеспечивая использование всей емкости модели. Управление распределением активаций направлено на оптимизацию количества токенов, обрабатываемых каждым экспертом, минимизируя перегрузку и обеспечивая эффективное использование вычислительных ресурсов. Недостаточный контроль приводит к дисбалансу, снижению производительности и потенциальной нестабильности обучения, в то время как оптимальное управление обеспечивает более эффективное обучение и повышенную точность рекомендаций. Реализация этих механизмов контроля включает в себя использование штрафных функций и регуляризации для поддержания равномерного распределения как весов, так и активаций.

Квантованная Инференция для Высокопроизводительного Обслуживания

Квантованная инференция (inference) подразумевает снижение разрядности представления весов и активаций нейронной сети, что приводит к существенному уменьшению объема используемой памяти и снижению вычислительной нагрузки. Уменьшение разрядности с традиционных форматов, таких как FP32 или FP16, до INT8 или даже более низких, позволяет хранить и обрабатывать данные более эффективно. Это достигается за счет сокращения количества бит, необходимых для представления каждого значения, что напрямую влияет на требования к памяти и пропускной способности, а также на количество операций, необходимых для вычислений. Снижение вычислительной нагрузки особенно заметно при использовании специализированного оборудования, оптимизированного для целочисленных вычислений.

В OneRec-V2 применяется постобработочное квантование FP8 (Post Training Quantization), позволяющее существенно снизить размер модели и вычислительные затраты. FP8 использует 8-битное представление чисел с плавающей точкой для весов и активаций нейронной сети, что обеспечивает значительное сжатие без существенной потери точности. Данный подход позволяет уменьшить объем памяти, необходимый для хранения модели, и ускорить вычисления, не требуя переобучения или тонкой настройки модели после квантования.

Внедрение 8-битной квантизации (FP8) и оптимизированной инфраструктуры позволило снизить задержку (latency) сквозного инференса на 49%, сократив её с исходных 139 мс до 70 мс. Данное улучшение производительности было достигнуто за счет уменьшения вычислительной нагрузки и снижения требований к памяти, что позволило ускорить обработку запросов и повысить общую эффективность системы. Результаты тестирования подтверждают значительное ускорение инференса при сохранении приемлемого уровня точности.

Оптимизация, включающая квантование, позволила увеличить пропускную способность системы на 92%, подняв её с 205 до 394 единиц. Данный показатель отражает количество запросов, которые система способна обработать за единицу времени, и увеличение на 92% свидетельствует о значительном повышении эффективности обслуживания и масштабируемости. Увеличение пропускной способности напрямую влияет на возможность обработки большего числа пользователей и запросов без снижения производительности системы.

В отличие от вычислений в FP16, которые выполняют матричное умножение напрямую в более высокой точности, FP8 сначала выполняет перемасштабирование и квантование входных данных до низкой точности, затем низкоточное матричное умножение с накоплением в FP32, и в завершение возвращает значения к более высокой точности для последующих слоев.

Оптимизированная Инфраструктура для Максимальной Эффективности

Эффективное развертывание квантованных моделей в крупном масштабе требует тщательно спроектированной инфраструктуры вывода. Ключевую роль в этом процессе играют такие инструменты, как TensorRT и RadixTopK. TensorRT оптимизирует модели глубокого обучения для конкретного оборудования, значительно ускоряя процесс вывода. В свою очередь, RadixTopK позволяет эффективно выбирать наиболее вероятные результаты, что особенно важно для задач классификации и поиска. Комбинация этих технологий позволяет существенно снизить задержку и повысить пропускную способность системы, делая возможным обслуживание большого количества запросов одновременно и обеспечивая высокую производительность даже при ограниченных ресурсах. Без подобной инфраструктуры, масштабирование квантованных моделей становится сложной и неэффективной задачей.

Значительное повышение эффективности аппаратного обеспечения стало возможным благодаря внедрению Hopper Tensor Core, специализированных вычислительных блоков, предназначенных для ускорения матричных умножений — ключевой операции в процессе инференса. Эти ядра обеспечивают параллельную обработку данных, существенно сокращая время, необходимое для выполнения сложных вычислений. В результате, модели машинного обучения способны обрабатывать больше данных за единицу времени, что напрямую влияет на скорость отклика системы и её общую производительность. Использование Hopper Tensor Core позволило оптимизировать вычислительные ресурсы, обеспечивая максимальную отдачу от доступного оборудования и открывая возможности для более эффективного развертывания масштабных моделей.

Модернизация инфраструктуры позволила добиться значительного прироста производительности. В частности, пропускная способность системы увеличилась на 27%. Применение квантования FP8 обеспечило дополнительный скачок эффективности, составив 42%. Улучшения на уровне отдельных операций, такие как оптимизация матричных умножений и других ключевых вычислений, дали еще 23% прироста общей производительности. Таким образом, комбинация этих усовершенствований позволила существенно повысить скорость обработки данных и эффективность использования ресурсов, что критически важно для масштабного развертывания моделей машинного обучения.

Оптимизация размера пакета данных играет ключевую роль в достижении максимальной эффективности системы. Тщательный подбор этого параметра позволяет сбалансировать пропускную способность и задержку обработки запросов. Слишком большие пакеты могут увеличить пропускную способность, но также и значительно увеличить задержку, что критично для приложений, требующих быстрой реакции. И наоборот, небольшие пакеты уменьшают задержку, но могут не полностью использовать вычислительные ресурсы. В результате, грамотная настройка размера пакета позволяет добиться оптимального баланса между этими двумя важными показателями, максимизируя общую производительность системы и обеспечивая высокую скорость отклика даже при большой нагрузке.

Исследование демонстрирует, что применение квантизации FP8 к модели OneRec-V2, в сочетании с оптимизацией инфраструктуры, позволяет значительно повысить эффективность рекомендательной системы без ущерба для производительности. Этот подход подчеркивает важность целостного взгляда на систему, где каждый компонент взаимосвязан. Как однажды заметил Винтон Серф: «Интернет — это просто сеть сетей». Эта фраза отражает принцип, который лежит в основе представленной работы: оптимизация одного элемента — квантизации — оказывает положительное влияние на всю систему, повышая её пропускную способность и общую эффективность. Устойчивость и производительность достигаются благодаря ясности структуры и взаимосвязанности компонентов, а не за счет усложнения.

Куда Дальше?

Представленная работа демонстрирует, что снижение точности вычислений, в частности переход к FP8, действительно способно принести значительные улучшения в эффективности рекомендательных систем, таких как OneRec-V2. Однако, подобно любому упрощению, это лишь перекладывание нагрузки — не устранение проблемы, а её перемещение. Настоящая сложность заключается не в скорости вычислений, а в архитектуре самой системы. Оптимизация одного узла, без понимания его связи с остальными, подобна лечению симптомов, игнорируя болезнь. Подобные “победы” всегда имеют свою цену — потенциальное снижение устойчивости к новым данным, усложнение отладки, и, неизбежно, новые узкие места.

Будущие исследования должны сосредоточиться не только на дальнейшем снижении точности, но и на разработке более гибких и адаптивных архитектур. Необходимо исследовать возможности динамического квантования, учитывающего специфику каждого запроса, и методы автоматического обнаружения и устранения узких мест в системе. Важно помнить, что каждая граница ответственности — потенциальная точка отказа; если эти границы не ясны, последствия могут быть болезненными.

В конечном итоге, истинный прогресс требует целостного взгляда на проблему. Недостаточно просто ускорить вычисления; необходимо создать систему, способную самостоятельно адаптироваться к изменяющимся условиям и поддерживать высокую производительность в долгосрочной перспективе. Иначе, все усилия по оптимизации окажутся лишь временным облегчением, за которым последует новый виток борьбы с неизбежной сложностью.

Оригинал статьи: https://arxiv.org/pdf/2603.11486.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-14 02:39

🚀 Квантовые новости