Ускорение нейросетей: новый подход для процессоров AMD

Автор: Денис Аветисян

Исследователи представили AIE4ML — комплексную систему для эффективной компиляции и развертывания нейронных сетей на перспективных AI-ускорителях AMD.

Конвейер компиляции AIE4ML преобразует высокоуровневые сетевые модели посредством последовательности оптимизаций, включающих квантование, разбиение на блоки, упаковку и связность графа, в оптимизированный проект для AIE, готовый к сборке или моделированию.

AIE4ML — это сквозной фреймворк, оптимизирующий потоки данных и использующий квантование для достижения высокой пропускной способности и минимальной задержки при выполнении нейронных сетей на FPGA.

Эффективная реализация нейронных сетей на специализированном оборудовании требует преодоления сложностей, связанных с управлением ресурсами и оптимизацией потока данных. В данной работе представлена система AIE4ML: An End-to-End Framework for Compiling Neural Networks for the Next Generation of AMD AI Engines, предназначенная для автоматической компиляции нейронных сетей для AI Engine от AMD. Предложенный фреймворк обеспечивает высокую производительность и низкую задержку за счет оптимизации распределения данных и использования квантования, позволяя полностью реализовать вычисления на кристалле. Возможно ли с помощью AIE4ML создать решения для задач, требующих обработки данных в реальном времени, например, в системах триггеров для экспериментов в области физики частиц?

Спрос на специализированное аппаратное ускорение ИИ

Глубокое обучение, проникая во всё большее число областей — от обработки естественного языка и компьютерного зрения до разработки новых лекарств и автономных систем — обуславливает экспоненциальный рост потребности в специализированном аппаратном обеспечении. Традиционные центральные и графические процессоры, изначально не предназначенные для задач машинного обучения, часто оказываются неспособными эффективно обрабатывать огромные объемы данных и сложные вычисления, необходимые для современных нейронных сетей. Эта неэффективность проявляется в высоких затратах энергии, увеличении времени обучения и ограничении возможностей развертывания моделей в реальном времени. В связи с этим, наблюдается закономерный переход к разработке и внедрению специализированных чипов — AI-ускорителей, оптимизированных для выполнения ключевых операций, таких как матричные умножения и свёртки, что позволяет значительно повысить производительность и энергоэффективность систем искусственного интеллекта.

Современные вычислительные системы, изначально проектировавшиеся для традиционных задач, зачастую испытывают затруднения при обработке возросшей вычислительной нагрузки, характерной для передовых моделей глубокого обучения. Это связано с тем, что операции, критичные для нейронных сетей, такие как матричные умножения и свертки, требуют огромного количества вычислений с плавающей точкой. Универсальные процессоры и графические ускорители, хоть и способны выполнять эти задачи, делают это не всегда эффективно, приводя к увеличению времени обучения и снижению энергоэффективности. Проблема усугубляется постоянным ростом размеров моделей и сложности архитектур, что требует еще больших вычислительных ресурсов и стимулирует поиск специализированных решений, способных оптимизировать выполнение ключевых операций и преодолеть ограничения существующих платформ.

В связи с растущей вычислительной сложностью современных моделей машинного обучения наблюдается переход к специализированным архитектурам, известным как AI-ускорители. Эти устройства отличаются от универсальных процессоров тем, что оптимизированы для выполнения ключевых операций, характерных для алгоритмов глубокого обучения, таких как матричные умножения и свертки. Вместо того, чтобы обрабатывать широкий спектр задач, AI-ускорители сконцентрированы на повышении эффективности и снижении энергопотребления при решении конкретных задач искусственного интеллекта. Это позволяет значительно ускорить процессы обучения и инференса, открывая возможности для более сложных и ресурсоемких приложений, включая обработку естественного языка, компьютерное зрение и автономные системы. Разработка и внедрение AI-ускорителей является ключевым фактором для дальнейшего развития и распространения технологий искусственного интеллекта.

Аппаратная архитектура AIE4ML обеспечивает эффективное многослойное выполнение за счет блокировки ядра, масштабирования на уровне слоев и конвейерной обработки данных между плитками памяти.

Versal: Гибкая основа для гетерогенных вычислений

Архитектура Versal объединяет в себе специализированные вычислительные блоки — AI Engines (AIE) — с программируемой логикой (PL) и центральным процессором (PS). Такая гетерогенная интеграция позволяет создать единую вычислительную платформу, способную эффективно обрабатывать широкий спектр задач, от высокопроизводительных вычислений общего назначения, выполняемых PS, до специализированных алгоритмов, реализуемых в PL, и операций машинного обучения, оптимизированных для AIE. Взаимодействие между этими компонентами осуществляется посредством высокоскоростных интерфейсов, обеспечивающих низкую задержку и высокую пропускную способность передачи данных, что критически важно для приложений, требующих обработки больших объемов данных в реальном времени.

Гетерогенная архитектура Versal обеспечивает адаптивность, необходимую для широкого спектра задач искусственного интеллекта. Интеграция AI Engines (AIE), программируемой логики (PL) и процессорной системы (PS) позволяет эффективно распределять вычислительные нагрузки в зависимости от требований конкретного алгоритма. Например, задачи, требующие высокой пропускной способности и параллелизма, такие как сверточные нейронные сети, могут быть реализованы на AIE, в то время как более сложные алгоритмы управления и обработки данных могут выполняться на PS. Такой подход позволяет оптимизировать производительность, энергоэффективность и гибкость системы для различных AI-приложений, включая обработку изображений, машинное зрение, обработку естественного языка и робототехнику.

Ядра AI Engines (AIE) используют архитектуру VLIW (Very Long Instruction Word), что позволяет выполнять несколько операций за один такт. Это делает их особенно эффективными для вычислений, интенсивно использующих данные, таких как матричное умножение (GEMM) и умножение матрицы на вектор (GEMV). В архитектуре VLIW, каждое слово инструкции содержит несколько операций, что обеспечивает высокую степень параллелизма и позволяет AIE оптимизировать выполнение данных задач с минимальными накладными расходами. Данный подход позволяет значительно повысить производительность и энергоэффективность при обработке больших объемов данных, характерных для алгоритмов машинного обучения и других вычислительно сложных приложений.

Архитектура AIE-ML расширяет возможности существующих AI Engines за счет увеличения объемов локальной памяти. Это достигается за счет интеграции более крупных блоков SRAM непосредственно в каждый AIE, что позволяет хранить больше промежуточных данных и коэффициентов непосредственно на чипе. Увеличение локальной памяти снижает необходимость в обращении к внешней памяти, значительно повышая пропускную способность и снижая задержки при выполнении задач, требующих интенсивных вычислений, таких как матричные операции $GEMM$ и $GEMV$. Такая оптимизация особенно важна для приложений искусственного интеллекта, где скорость обработки данных является критическим фактором.

Масштабирование одного линейного слоя демонстрирует почти полную утилизацию доступных AIE-плиток (до 97.4% при 296 из 304), что подтверждает эффективность архитектуры.

AIE4ML: От высокоуровневых фреймворков к аппаратному обеспечению

AIE4ML представляет собой комплексный фреймворк, предназначенный для компиляции нейронных сетей, разработанных в различных средах, для специализированных устройств AMD AIE-ML. Он охватывает весь процесс — от входной модели нейронной сети до сгенерированного кода, оптимизированного для архитектуры AIE-ML. Это позволяет разработчикам развертывать модели машинного обучения на аппаратном обеспечении AMD AIE-ML без необходимости ручной оптимизации или низкоуровневого программирования, обеспечивая полный цикл разработки и развертывания в рамках единой системы.

Фреймворк AIE4ML обеспечивает поддержку популярных платформ машинного обучения, таких как TensorFlow и PyTorch, что значительно упрощает процесс разработки и интеграции нейронных сетей для аппаратных ускорителей AMD AIE-ML. Это позволяет разработчикам использовать знакомые инструменты и модели, избегая необходимости переписывать код или адаптировать архитектуры. Поддержка осуществляется через импорт моделей, обученных в TensorFlow или PyTorch, и последующую компиляцию для целевого оборудования AIE, минимизируя трудозатраты и время, необходимое для развертывания приложений машинного обучения.

В рамках AIE4ML ключевые оптимизации включают в себя эффективные реализации линейных слоев и методы квантования. Реализации линейных слоев оптимизированы для архитектуры AIE, что позволяет минимизировать потребление памяти и увеличить пропускную способность вычислений. Квантование, в свою очередь, снижает точность представления весов и активаций, например, с 32-битной плавающей точки до 8-битного целого числа, что существенно уменьшает объем памяти, необходимый для хранения модели, и повышает скорость выполнения операций, при этом с допустимой потерей точности. Комбинация этих методов позволяет добиться значительного увеличения производительности и энергоэффективности при развертывании нейронных сетей на устройствах AMD AIE-ML.

Фреймворк AIE4ML использует промежуточное представление (IR) для оптимизации генерации кода и алгоритм размещения графа (Graph Placement Algorithm) для сопоставления вычислений с массивом AIE. IR позволяет проводить различные оптимизации на уровне графа вычислений перед генерацией аппаратного кода, что повышает эффективность выполнения на устройстве AIE-ML. Алгоритм размещения графа автоматически определяет оптимальное распределение операций по вычислительным элементам массива AIE, учитывая ограничения по связности и доступным ресурсам. Это позволяет максимально использовать параллелизм и пропускную способность AIE для достижения высокой производительности и энергоэффективности.

Алгоритм ветвей и границ (B&B) обеспечивает более короткие межслойные соединения и меньшее смещение по строкам при автоматическом размещении элементов на массиве AIE размером 38x8 по сравнению с жадными алгоритмами. — Алгоритм ветвей и границ (B&B) обеспечивает более короткие межслойные соединения и меньшее смещение по строкам при автоматическом размещении элементов на массиве AIE размером 38×8 по сравнению с жадными алгоритмами.

Оптимизация потока данных и использования памяти

Плитки памяти (Memory Tiles) в архитектуре AIE-ML функционируют как общие буферы, обеспечивающие обмен данными и перераспределение информации между слоями нейронной сети. Эти плитки представляют собой локальные блоки памяти, расположенные в непосредственной близости от вычислительных элементов (AIE), что минимизирует задержки при передаче данных. Вместо использования глобальной памяти, доступ к которой требует больше времени, данные временно хранятся в этих плитках, позволяя AIE-элементам эффективно получать необходимые данные для выполнения вычислений и передавать результаты другим слоям. Размер и организация плиток памяти оптимизированы для конкретных задач машинного обучения, что повышает пропускную способность и снижает энергопотребление.

Методы двойной буферизации и загрузки параметров во время выполнения (RTP) направлены на повышение эффективности использования ресурсов за счет наложения операций передачи данных и вычислений. Двойная буферизация позволяет начать обработку данных из одного буфера, в то время как следующий набор данных загружается во второй буфер, минимизируя задержки, связанные с ожиданием завершения передачи. RTP, в свою очередь, позволяет загружать параметры, необходимые для вычислений, непосредственно во время выполнения ядра, избегая необходимости предварительной загрузки всех параметров в память и, таким образом, сокращая время простоя и повышая общую производительность. Совместное использование этих методов оптимизирует пропускную способность данных и снижает латентность, особенно в задачах, требующих интенсивных вычислений и больших объемов данных.

AutoMM и CHARM представляют собой инструменты для автоматической композиции ядер GEMM (General Matrix Multiplication) для выполнения на массиве AIE (Array of Intelligent Engines) и программируемой логике (PL). AutoMM оптимизирует вычисление $GEMM$ путем автоматического выбора наиболее эффективной стратегии разбиения матриц и распределения вычислений между AIE и PL, учитывая архитектурные особенности платформы. CHARM (Composable High-performance Arithmetic and Matrix operations) расширяет возможности AutoMM, позволяя создавать более сложные и оптимизированные ядра $GEMM$, адаптированные к конкретным требованиям приложения и размеру матриц, что обеспечивает существенное ускорение операций матричного умножения.

Алгоритм поиска с отсечением (Branch-and-Bound Search), используемый в алгоритме размещения графа (Graph Placement Algorithm), оптимизирует отображение операций на массив AIE. Данный алгоритм систематически исследует различные варианты размещения, используя эвристические оценки для отсечения неперспективных ветвей поиска. Это позволяет минимизировать время поиска оптимального или близкого к оптимальному решения для распределения вычислительной нагрузки по элементам массива AIE, учитывая ограничения по пропускной способности и задержкам передачи данных между ними. Процесс включает в себя построение дерева поиска, где каждый узел представляет собой частичное отображение операций, а ветвление соответствует выбору конкретного элемента AIE для размещения очередной операции. Оценка каждого узла позволяет определить, стоит ли продолжать исследование соответствующей ветви, или же её можно отсечь как неоптимальную.

Влияние и будущие направления

Архитектура AIE4ML предоставляет возможность эффективной реализации широкого спектра нейронных сетей, включая современные MLP-Mixers и модели, активно использующие линейные слои. Это достигается благодаря гибкой структуре, позволяющей оптимизировать вычисления для различных типов операций, характерных для этих архитектур. В отличие от традиционных подходов, AIE4ML позволяет избежать узких мест, связанных с последовательным выполнением линейных преобразований, что особенно важно для моделей, требующих высокой пропускной способности и минимальной задержки. Такая универсальность делает AIE4ML перспективной платформой для ускорения различных приложений машинного обучения, от компьютерного зрения до обработки естественного языка, обеспечивая значительное повышение производительности и энергоэффективности.

Повышенная производительность и энергоэффективность, обеспечиваемые данной архитектурой, открывают широкие возможности для различных областей применения. В частности, системы компьютерного зрения, такие как Vision Transformer (ViT), выигрывают от ускорения вычислений, что позволяет обрабатывать изображения и видеопотоки в реальном времени с меньшими затратами энергии. Аналогичным образом, современные модели, основанные на state space models, например Mamba, получают значительный прирост скорости и эффективности, что критически важно для задач, требующих анализа последовательностей данных, таких как обработка естественного языка и прогнозирование временных рядов. Такое сочетание высокой производительности и энергоэффективности делает данную технологию особенно привлекательной для развертывания на мобильных устройствах и в центрах обработки данных, где оптимизация ресурсов является ключевым приоритетом.

Архитектура AIE4ML демонстрирует исключительную приспособляемость, что делает её особенно ценной для решения сложных вычислительных задач, возникающих в таких учреждениях, как ЦЕРН. Требования к обработке данных в экспериментах, проводимых на Большом адронном коллайдере, чрезвычайно высоки и включают анализ огромных объёмов информации в режиме реального времени. Способность AIE4ML эффективно выполнять разнообразные архитектуры нейронных сетей, в сочетании с высокой производительностью и энергоэффективностью, позволяет значительно ускорить процессы реконструкции треков частиц, идентификации событий и других критически важных задач. Гибкость фреймворка позволяет адаптировать его к специфическим требованиям различных экспериментов и быстро внедрять новые алгоритмы машинного обучения, что делает его незаменимым инструментом для передовых научных исследований в области физики высоких энергий.

Разработанная платформа AIE4ML демонстрирует впечатляющую производительность, достигая пиковой пропускной способности в $113.4$ тераопераций в секунду (TOPS) при обработке 7-слойной MLP-сети с размером $512 \times 512$. Этот показатель значительно превосходит результаты, демонстрируемые современными графическими процессорами (GPU), программируемыми вентильными матрицами (FPGA) и нейронными движками Apple. Достигнутая производительность свидетельствует о высокой эффективности архитектуры AIE4ML при выполнении задач машинного обучения, открывая перспективы для ускорения сложных вычислений и реализации ресурсоэффективных решений в различных областях, включая компьютерное зрение и обработку последовательностей данных.

Достигнутая эффективность обработки целочисленных данных с 8-битной точностью (INT8) на аппаратном обеспечении AIE-ML составляет впечатляющие 82.2% от теоретически возможного максимума. Этот показатель свидетельствует о высокой оптимизации архитектуры и алгоритмов, позволяющей максимально эффективно использовать вычислительные ресурсы. Такая эффективность критически важна для приложений, где важна скорость обработки и энергоэффективность, таких как задачи компьютерного зрения и машинного обучения, особенно при работе с ограниченными ресурсами или в условиях, требующих минимального энергопотребления. Высокий процент использования теоретической производительности демонстрирует, что AIE-ML предоставляет значительный потенциал для ускорения вычислений в широком спектре задач.

Исследования демонстрируют высокую эффективность масштабирования разработанной системы при различных уровнях точности вычислений. В частности, достигнута производительность в $97.3\%$ для 8-битных операций ($i8x8$), $98.6\%$ для 16-битных операций с 8-битным накоплением ($i16x8$) и $97.1\%$ для 16-битных операций с 16-битным накоплением ($i16x16$). Такие показатели свидетельствуют о способности системы эффективно использовать вычислительные ресурсы при переходе к более сложным задачам и большим объемам данных, сохраняя при этом высокую производительность и минимизируя потери точности. Данная особенность делает систему особенно привлекательной для приложений, требующих баланса между скоростью вычислений и потреблением энергии.

Разработанная платформа демонстрирует исключительно эффективное использование доступных вычислительных ресурсов. В ходе тестирования удалось задействовать 97.4% от общего числа AIE-плиток — 296 из 304 — что свидетельствует о высокой степени оптимизации и способности системы эффективно распределять вычислительную нагрузку. Такой уровень пространственного использования позволяет максимизировать производительность при минимальных затратах энергии и площади чипа, что особенно важно для ресурсоемких задач, таких как обработка больших объемов данных и выполнение сложных алгоритмов машинного обучения. Данный показатель подчеркивает потенциал платформы для создания высокопроизводительных и энергоэффективных систем искусственного интеллекта.

Исследование, представленное в статье, демонстрирует неизбежность оптимизации и компиляции нейронных сетей для конкретного железа — в данном случае, архитектуры AMD AIE-ML. Этот процесс, направленный на достижение высокой пропускной способности и низкой задержки, неизменно приводит к компромиссам и упрощениям. Как однажды заметил Эдсгер Дейкстра: «Простота — это высшая степень совершенства». В контексте AIE4ML, стремление к простоте проявляется в использовании методов квантизации и оптимизации потока данных. Попытки создать универсальные решения, не учитывающие специфику аппаратного обеспечения, обречены на провал. В конечном итоге, каждая архитектура, даже самая элегантная в теории, становится жертвой прагматизма продакшена и необходимости адаптироваться к реальным ограничениям.

Что дальше?

Представленная работа, безусловно, добавляет ещё один уровень абстракции между теоретической моделью нейронной сети и неизбежной реальностью кремния. AIE4ML оптимизирует, квантует, перекладывает данные… но в конечном итоге, всё это — лишь временная отсрочка платежа. Продакшен всегда найдёт способ превратить элегантный dataflow в бутылочное горлышко, а квантование — в источник новых, экзотических ошибок. Будем реалистами: следующая архитектура AIE будет требовать новой компиляции, новых оптимизаций, и новых способов обойти ограничения физического мира.

Более фундаментальный вопрос заключается в том, насколько далеко можно зайти, оптимизируя исключительно на уровне железа. Все эти ухищрения с GEMM и dataflow — это, по сути, перекладывание ответственности за провалы на аппаратное обеспечение. Не лучше ли сосредоточиться на архитектурах самих сетей? В конце концов, всё новое — это старое, только с другим именем и теми же багами. Возможно, следующим шагом станет разработка алгоритмов, изначально спроектированных с учетом ограничений FPGA и AI Engine, а не попытки насильно втиснуть существующие модели в узкие рамки.

Впрочем, ожидание прорывных алгоритмов — занятие для оптимистов. Скорее всего, нас ждёт бесконечная гонка вооружений: новые архитектуры, новые компиляторы, новые способы выжать ещё несколько миллисекунд из цикла. И так до тех пор, пока не появится что-то действительно новое… или пока не кончатся деньги. А пока, пусть AIE4ML работает. Хотя бы пока работает.

Оригинал статьи: https://arxiv.org/pdf/2512.15946.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-21 01:09

🚀 Квантовые новости