РеФьюжн: Новая архитектура для генерации текста

Автор: Денис Аветисян

Исследователи представили модель РеФьюжн, объединяющую сильные стороны диффузионных и авторегрессионных подходов для более быстрой и качественной генерации текста.

Система ReFusion использует итеративный цикл «планирования и заполнения» на уровне слотов, сочетая диффузионный этап для планирования и черновиков слотов с параллельным авторегрессионным заполнением и проверкой, при этом повторное использование кэша KV обеспечивается переупорядочиванием сгенерированных слотов, а обучение оптимизирует гибридную функцию потерь, включающую авторегрессионные потери ($ \mathcal{L}\_{\text{ARM}} $) на переставленных чистых слотах и потери шумоподавления ($ \mathcal{L}\_{\text{MDM}} $) на замаскированных слотах.

Предлагается маскированная диффузионная модель с параллельным авторегрессионным декодированием на уровне слотов для повышения эффективности и производительности.

Авторегрессионные модели демонстрируют высокую производительность, но ограничены последовательным характером генерации, в то время как маскированные диффузионные модели, предлагающие параллельный подход, сталкиваются с проблемами вычислительной сложности и когерентности. В данной работе представлена модель ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding, которая решает эти ограничения путем внедрения параллельной генерации на уровне слотов — фиксированных по длине подпоследовательностей текста. Этот подход, основанный на итеративном процессе «планирования и заполнения», объединяет диффузионное планирование и авторегрессионное заполнение, достигая значительного прироста скорости и эффективности. Сможет ли ReFusion стать новым стандартом в области генеративных моделей, сочетающим преимущества как авторегрессионных, так и диффузионных подходов?

Преодолевая Узкое Место Авторегрессии

Традиционные авторегрессионные модели, несмотря на свою эффективность, по своей сути являются последовательными. Это означает, что для генерации каждого нового элемента последовательности необходимо дождаться завершения генерации предыдущего. В результате, возможности параллельной обработки оказываются существенно ограничены, что приводит к увеличению задержки, особенно при работе с длинными последовательностями текста или сложными задачами, требующими многоступенчатого логического вывода. Данное ограничение становится критическим фактором, препятствующим масштабированию моделей и снижающим их производительность при решении задач, требующих обработки больших объемов информации или генерации развернутых текстов. Вместо одновременной обработки различных частей последовательности, модель вынуждена последовательно вычислять каждый следующий элемент, что существенно замедляет процесс.

Последовательная зависимость, присущая авторегрессионным моделям, становится критическим узким местом при масштабировании для обработки более длинных последовательностей и выполнения сложных задач рассуждения. Каждая новая единица генерации требует завершения предыдущей, что существенно ограничивает возможности параллельной обработки и увеличивает задержку. Это особенно заметно в сценариях, где требуется генерация длинных текстов, например, при написании статей или создании подробных отчетов. Невозможность эффективной параллелизации приводит к экспоненциальному росту вычислительных затрат и времени, необходимого для получения результата, что делает решение сложных задач рассуждения, требующих анализа обширного контекста, крайне затруднительным и ресурсоемким.

Существующие методы генерации текста, основанные на последовательной обработке данных, сталкиваются со значительными трудностями при работе с длинными последовательностями и обширным контекстом. Проблема заключается в том, что каждый новый элемент генерируется с учётом всех предыдущих, что требует огромных вычислительных ресурсов и времени при увеличении длины текста. Например, при создании развернутых аналитических отчётов или генерации сложных повествований, модели испытывают трудности с поддержанием согласованности и релевантности на протяжении всей последовательности. Это приводит к замедлению процесса генерации и снижению качества получаемого текста, особенно когда необходимо учитывать большое количество взаимосвязанных фактов и деталей. Попытки параллелизации вычислений часто сталкиваются с ограничениями, связанными с необходимостью сохранения последовательности обработки данных, что делает задачу эффективной генерации длинного контента весьма сложной.

Механизм вывода ReFusion визуализирует процесс объединения и обработки информации для принятия решений.

ReFusion: Параллелизация на Уровне Слотов

ReFusion представляет новый подход к декодированию, переходя от обработки на уровне токенов к параллелизации на уровне слотов. Традиционные методы последовательно генерируют токены, что ограничивает скорость вывода. ReFusion разделяет последовательность на слоты и позволяет выполнять вычисления для этих слотов параллельно. Такой подход основан на предположении об условной независимости между слотами, что позволяет значительно ускорить процесс декодирования и повысить пропускную способность модели. В отличие от токено-ориентированных стратегий, слотно-ориентированная параллелизация позволяет более эффективно использовать аппаратные ресурсы и сократить задержки при генерации текста.

Решение ReFusion ускоряет процесс декодирования за счет перехода от обработки на уровне токенов к параллелизации на уровне слотов. Разделение последовательности на слоты и использование предположения об условной независимости между ними позволяет значительно повысить производительность при выводе данных. В ходе тестирования ReFusion достиг скорости обработки в 92.09 токенов в секунду, что демонстрирует эффективность данного подхода к параллельной обработке последовательностей.

Метод диффузионного планирования в ReFusion определяет слабо зависимые слоты в последовательности входных данных, что позволяет максимизировать возможности параллельной обработки внутри модели. Основываясь на анализе зависимостей между слотами, система выявляет те, которые могут быть обработаны независимо друг от друга. Это позволяет распределить вычисления по нескольким вычислительным блокам, значительно сокращая общее время обработки и повышая пропускную способность модели. Выявление слабо зависимых слотов является ключевым фактором для эффективной реализации параллельного декодирования на уровне слотов.

Результаты показывают, что ReFusion демонстрирует улучшение производительности (точности/Pass@1, %) и скорости обработки (TPS) по мере увеличения объема обучающих данных на наборах GSM8K и MBPP.

Оптимизация Инференса с Продвинутыми Методами

ReFusion использует комплекс оптимизаций для ускорения процесса инференса. В частности, применяется моделирование маскированной диффузии (Masked Diffusion Models), которое позволяет повысить эффективность генерации. Для снижения вычислительных затрат и ускорения доступа к данным реализован механизм KV-кэширования (KV Caching), сохраняющий промежуточные результаты вычислений. Кроме того, для повышения производительности при работе с длинными последовательностями интегрирована технология Flash-Attention, оптимизирующая матричные операции, необходимые для вычисления внимания (attention mechanism). Комбинация этих методов позволяет значительно сократить время инференса без потери качества генерируемого контента.

Полуавторегрессивная перемаскировка (Semi-Autoregressive Remasking) — это метод, повышающий эффективность генерации последовательностей переменной длины. Управление размером блока (Block Size) является ключевым параметром в данном процессе. Алгоритм разбивает входную последовательность на блоки фиксированного размера, позволяя параллельно обрабатывать несколько блоков. После обработки блока, его выходные данные маскируются и используются для предсказания следующего блока. Этот процесс повторяется до тех пор, пока не будет сгенерирована полная последовательность. Оптимальный размер блока позволяет достичь баланса между степенью параллелизма и сохранением контекстной информации, что существенно ускоряет процесс генерации по сравнению с полностью авторегрессионными моделями.

Эффективный размер слота ($Slot Size$) играет ключевую роль в оптимизации процесса декодирования. Увеличение размера слота позволяет повысить степень параллелизма вычислений, что приводит к ускорению генерации последовательностей. Однако, чрезмерное увеличение размера слота может привести к потере контекстуальной связности, поскольку модель будет обрабатывать более длинные сегменты текста без достаточного внимания к взаимосвязям между ними. Таким образом, выбор оптимального размера слота представляет собой компромисс между скоростью обработки и качеством генерируемого текста, требующий тщательной настройки в зависимости от конкретной задачи и характеристик используемой модели.

Эксперименты показали, что ReFusion превосходит Qwen3-8B по точности и скорости обработки токенов в определенном диапазоне размеров блоков (выделено желтым цветом).

Масштабируемость и Варианты Моделей

Архитектура ReFusion позволяет создавать компактные и быстрые языковые модели, такие как GPT-4o Mini и Nova Micro, без существенной потери в производительности. В отличие от традиционных подходов, требующих огромных вычислительных ресурсов, ReFusion оптимизирует процесс обработки информации, что дает возможность развертывать сложные модели на устройствах с ограниченными возможностями. Эта особенность открывает новые перспективы для применения передовых технологий искусственного интеллекта в самых разных областях, делая их более доступными и эффективными. Такая оптимизация не только снижает затраты на вычислительные мощности, но и способствует развитию инноваций в сфере обработки естественного языка, позволяя создавать более гибкие и адаптируемые системы.

В архитектуре ReFusion особое внимание уделяется сохранению информации о позиции токенов при параллельном декодировании, что достигается благодаря применению вращающихся позиционных встраиваний (RoPE). В отличие от традиционных методов, RoPE кодирует позицию токена не как абсолютное значение, а как относительное смещение, используя вращения в пространстве встраиваний. Это позволяет модели эффективно обрабатывать последовательности различной длины и поддерживать высокую производительность даже при одновременном генерировании нескольких токенов. Благодаря такой оптимизации, модель способна точно определять порядок слов и их взаимосвязи, что критически важно для понимания и генерации связного текста. Применение RoPE обеспечивает стабильную работу и высокую точность ReFusion в задачах, требующих обработки последовательностей, таких как машинный перевод или ответы на вопросы.

Оптимизация архитектуры ReFusion позволяет значительно расширить возможности развертывания передовых языковых моделей на устройствах с ограниченными ресурсами, делая их доступными для более широкого круга пользователей и приложений. В ходе тестирования ReFusion продемонстрировал впечатляющие результаты, превзойдя модель Qwen3-8B: зафиксировано улучшение точности на $3.68$ пункта в тесте GSM8K и достигнут показатель успешности в $92.09\%$ (Pass@1) в тесте MBPP. Такие показатели свидетельствуют о том, что ReFusion не только сохраняет высокую производительность, но и открывает новые перспективы для использования сложных языковых моделей в мобильных устройствах, встроенных системах и других средах с ограниченными вычислительными мощностями.

На примере задачи MBPP показано, как ReFusion генерирует функцию Python, где номер в левом верхнем углу каждого слота указывает порядок генерации, а интенсивность цвета отражает время генерации (более тёмные оттенки соответствуют более ранним этапам).

Будущее Параллельных Языковых Моделей

Подход, реализованный в ReFusion, знаменует собой важный прорыв в преодолении ограничений, свойственных авторегрессионному декодированию. Достигнутое увеличение скорости обработки — в 2.33 раза по сравнению с аналогичными моделями — открывает новые перспективы для повышения эффективности языковых моделей. Это достигается за счет инновационной архитектуры, позволяющей параллельно генерировать текст, в отличие от последовательного подхода традиционных моделей. Такая параллелизация значительно сокращает время, необходимое для создания текста, делая ReFusion особенно привлекательным для приложений, требующих высокой скорости отклика и обработки больших объемов данных. Данный прогресс указывает на перспективное направление в развитии языковых технологий, позволяющее создавать более быстрые и эффективные инструменты для работы с текстом.

Перспективные исследования в области параллельных языковых моделей направлены на оптимизацию гибкости и эффективности алгоритмов планирования. В частности, рассматривается возможность динамической настройки размеров слотов — блоков данных, обрабатываемых моделью, — для адаптации к различным типам задач и объемам информации. Совершенствование алгоритмов, основанных на диффузии, позволит более точно и быстро планировать последовательность действий для генерации текста, значительно повышая скорость и качество работы моделей. Такой подход позволит создавать более адаптивные и производительные системы, способные эффективно решать сложные лингвистические задачи и открывать новые возможности для приложений искусственного интеллекта, требующих оперативной обработки больших объемов данных.

Представленный подход к построению языковых моделей открывает новые возможности для приложений, требующих мгновенного отклика и индивидуальной адаптации. Модель ReFusion демонстрирует впечатляющее увеличение производительности — в 11.05 раза по сравнению с Dream — что позволяет создавать системы, способные обрабатывать запросы в реальном времени. При этом, точность генерации, оцениваемая метрикой Pass@1, превосходит показатели Dream почти на 22 абсолютных пункта. Такое сочетание скорости и качества делает возможным создание персонализированных AI-ассистентов, способных оперативно адаптироваться к потребностям каждого пользователя, а также развитие интерактивных приложений, требующих немедленной обработки естественного языка.

График показывает, что повышение пропускной способности (токены/сек) приводит к снижению процента успешных прохождений тестов (pass@1) на MBPP по сравнению с базовой моделью Qwen3-8B.

Исследование представляет собой элегантный подход к решению проблемы масштабируемости в генеративных моделях. ReFusion, объединяя диффузионное планирование на уровне слотов с авторегрессионным заполнением, демонстрирует, что ясные идеи действительно важнее, чем просто вычислительная мощность. Подобно живой системе, где каждая часть взаимосвязана, ReFusion создает целостную архитектуру, позволяющую добиться как высокой пропускной способности, так и отличного качества генерации. Как однажды заметил Пол Эрдёш: «Математика — это искусство открывать закономерности, скрытые в хаосе». В ReFusion эта закономерность проявляется в гармоничном сочетании диффузионных и авторегрессионных методов, открывая новые возможности для генерации последовательностей.

Куда Ведет Этот Путь?

Представленная работа, демонстрируя успешное сочетание диффузионного моделирования и авторегрессии, выявляет фундаментальную истину: любая оптимизация, даже столь элегантная, создает новые точки напряжения. Достижение параллельного декодирования, безусловно, заслуживает внимания, однако вопрос о масштабируемости подобной архитектуры остается открытым. Увеличение количества “слотов” неизбежно ведет к росту вычислительной сложности управления этими параллельными потоками. Архитектура — это поведение системы во времени, а не схема на бумаге, и истинная проверка ждет в условиях реальных, масштабных задач.

Более глубокий анализ необходим для понимания границ применимости такого подхода. В каких областях знания, где контекст имеет решающее значение, подобная архитектура сможет превзойти традиционные авторегрессионные модели? Остается ли диффузионный этап необходимым, или его можно заменить более эффективными механизмами планирования? И, наконец, как подобный подход соотносится с растущим трендом к моделям, способным к самообучению и адаптации к новым данным?

Предложенная работа — это не конечная точка, а скорее, приглашение к дальнейшим исследованиям. Истинный прогресс заключается не в создании более сложных моделей, а в понимании фундаментальных принципов, определяющих их поведение, и в создании систем, способных к эволюции и адаптации. Элегантность рождается из простоты и ясности, и именно к этому следует стремиться.

Оригинал статьи: https://arxiv.org/pdf/2512.13586.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-17 06:22

🚀 Квантовые новости