Турбо-арифметика: SIMD для сверхбыстрых вычислений с большими числами

Автор: Денис Аветисян

Новый подход к организации вычислений с произвольной точностью позволяет значительно ускорить операции над большими числами за счет эффективного использования SIMD-инструкций.

Ускорение, достигаемое SIMD-вариантами DoT (с шириной векторизации 2, 4 и 8, соответствующих SSE, AVX2 и AVX512), по отношению к скалярному алгоритму вычитания `scalar_subborrowx_u64` для патологических операндов размером от 512 до 32768 бит, демонстрирует выигрыш в производительности благодаря параллелизации вычислений.

В статье представлена DigitsOnTurbo (DoT) — методика оптимизации алгоритмов для минимизации задержек, связанных с переносами разрядов, и раскрытия потенциала параллелизма в операциях с большими числами.

Несмотря на широкое применение арифметики больших чисел в научных вычислениях и криптографии, современные многоядерные процессоры не всегда позволяют в полной мере реализовать потенциал параллелизма SIMD из-за зависимостей в традиционных алгоритмах. В статье ‘Leveraging SIMD for Accelerating Large-number Arithmetic’ представлен DigitsOnTurbo (DoT) — подход, реструктурирующий вычисления вокруг независимых, распараллеливаемых операций, что позволяет эффективно использовать SIMD-инструкции. DoT демонстрирует значительное ускорение — до 1.85x для сложения и вычитания и до 2.3x для умножения — а интеграция в современные библиотеки приводит к увеличению производительности научных вычислений до 19.3% и снижению задержки криптографических операций до 7.9%. Сможет ли DoT стать основой для новых, высокопроизводительных библиотек для работы с большими числами и открыть новые горизонты в областях, требующих высокой точности вычислений?

Узкое Место Масштаба: Ограничения Стандартной Арифметики

Основополагающие арифметические операции, несмотря на свою фундаментальность, становятся узким местом в производительности при работе с числами, выходящими за пределы стандартных типов данных. Это связано с тем, что большинство аппаратных и программных реализаций оптимизированы для работы с фиксированным размером чисел, например, 32- или 64-битными целыми. Когда требуется обработка чисел произвольной длины, стандартные алгоритмы сталкиваются с ограничениями, поскольку операции, такие как сложение и умножение, требуют выполнения последовательных шагов для каждого разряда, что замедляет вычисления. В результате, производительность существенно снижается, особенно в приложениях, где требуется высокая точность и скорость обработки больших чисел, таких как криптография и научные расчеты. Эффективное решение данной проблемы требует разработки новых алгоритмов и аппаратных решений, способных параллельно обрабатывать разряды чисел произвольной длины, что позволяет значительно повысить производительность и масштабируемость вычислений.

Стандартные алгоритмы арифметических операций, такие как те, что используются в `ScalarPipeline`, сталкиваются с фундаментальным ограничением, обусловленным последовательным переносом разряда. Этот процесс, при котором перенос единицы из одного разряда в другой требует завершения предыдущей операции, существенно ограничивает возможность распараллеливания вычислений. По сути, каждое сложение или вычитание, требующее переноса, должно выполняться последовательно, что создает «узкое место» при обработке больших чисел или больших объемов данных. В результате, масштабируемость таких алгоритмов ограничена, поскольку добавление дополнительных вычислительных ресурсов не приводит к пропорциональному увеличению производительности. Эта последовательность особенно критична в задачах, требующих высокой точности и скорости, таких как криптография и научные вычисления, где обработка чисел произвольной длины становится необходимостью.

В современных областях, таких как криптография и научные вычисления, стандартные арифметические операции часто оказываются недостаточными из-за необходимости работы с числами, выходящими за пределы возможностей привычных типов данных. Это требует применения произвольной точности арифметики, известной как LargeNumberArithmetic, что предъявляет высокие требования к вычислительной эффективности. Существующие подходы зачастую не справляются с растущими потребностями, что стимулирует поиск новых оптимизаций. В частности, разработанная система DigitsOnTurbo демонстрирует значительный прогресс, достигая улучшения на 6.2% в тестах GMPbench на процессорах Intel Xeon Max 9462 (SPR), что свидетельствует о перспективности данного направления для повышения производительности в критически важных приложениях.

Микротесты демонстрируют, что DoT, использующий AVX512, превосходит существующие решения, такие как KSA и методы Ren, в задачах сложения и вычитания больших чисел, а также обеспечивает значительное ускорение по сравнению со стандартными библиотеками GMP и OpenSSL при операциях сложения, вычитания и умножения благодаря оптимизациям SIMD и архитектуре DoTMP/DoTSSL.

Параллелизм Через Разложение: Переосмысление Умножения

Методы, такие как $VerticalCrosswiseMultiplication$ , основаны на разложении операции умножения на независимые частные произведения. В отличие от последовательного подхода в классическом алгоритме умножения (например, $SchoolbookMultiplication$ ), это позволяет выполнять вычисления этих частных произведений параллельно. Каждое частное произведение вычисляется независимо от других, что дает возможность эффективно использовать многоядерные процессоры и другие параллельные вычислительные ресурсы для значительного ускорения операции умножения больших чисел. Такое разложение является ключевым принципом, лежащим в основе алгоритмов, таких как $KaratsubaAlgorithm$ и $FastFourierTransformMultiplication$ , и позволяет эффективно использовать преимущества современного аппаратного обеспечения.

Методы, такие как `VerticalCrosswiseMultiplication`, развивают принципы, лежащие в основе алгоритмов $Karatsuba$ и быстрого преобразования Фурье (БПФ) для умножения. Алгоритм $Karatsuba$ снижает количество умножений за счет рекурсивного разделения чисел на более мелкие части, а БПФ преобразует умножение в операции сложения и вычитания в частотной области, что особенно эффективно для очень больших чисел. Использование этих принципов позволяет значительно повысить эффективность умножения больших чисел по сравнению с традиционным методом «в столбик», особенно при работе с аппаратным обеспечением, способным к параллельным вычислениям.

В отличие от последовательного умножения, используемого в классическом алгоритме «SchoolbookMultiplication», методы, основанные на разложении (например, `VerticalCrosswiseMultiplication`), позволяют вычислять частные произведения независимо друг от друга. Это обеспечивает возможность эффективного использования современных многоядерных архитектур и векторизации. Тестирование с использованием библиотеки `DigitsOnTurbo` на процессоре Intel Xeon Max 9462 (SPR) показало ускорение умножения в 1.40 раза по сравнению с библиотекой GMP, что подтверждает преимущества параллельного подхода к вычислениям.

Организация частичных произведений в виде вертикальных и поперечных столбцов для умножения матриц размером 2x2, 3x3 и 5x5 позволяет представить все <span class="katex-eq" data-katex-display="false">m^2</span> частичных произведений как независимые вычисления, при этом строки одного цвета суммируются для формирования выходного столбца <span class="katex-eq" data-katex-display="false">c = i + j</span>. — Организация частичных произведений в виде вертикальных и поперечных столбцов для умножения матриц размером 2×2, 3×3 и 5×5 позволяет представить все $m^2$ частичных произведений как независимые вычисления, при этом строки одного цвета суммируются для формирования выходного столбца $c = i + j$ .

SIMD-Ускорение: Используя Возможности Векторной Обработки

Архитектура SIMD (Single Instruction, Multiple Data) является основой для параллельной обработки данных посредством использования векторных регистров. В отличие от традиционных операций, выполняемых над отдельными скалярными значениями, SIMD позволяет одной инструкцией выполнять одну и ту же операцию над несколькими элементами данных, хранящимися в векторном регистре. Доступ к этим инструкциям осуществляется через SIMD-внутренние функции (SIMDIntrinsics), предоставляющие низкоуровневый интерфейс для управления векторными операциями. Это позволяет существенно повысить производительность в задачах, требующих выполнения одних и тех же вычислений над большим объемом данных, таких как обработка изображений, видео и научные вычисления.

Расширения SIMD, такие как AVX2 и AVX512, значительно увеличивают пропускную способность векторных вычислений за счет увеличения ширины векторных регистров. AVX2 расширяет регистры до 256 бит, позволяя одновременно обрабатывать больше данных, в то время как AVX512 увеличивает ширину до 512 бит. Это позволяет выполнять больше операций над векторами параллельно, что приводит к существенному повышению производительности в задачах, где данные могут быть эффективно векторизованы. Более широкие регистры и увеличенное число параллельных операций напрямую влияют на скорость обработки больших объемов данных, особенно в приложениях, интенсивно использующих математические вычисления и обработку мультимедиа.

Эффективное использование SIMD-инструкций напрямую зависит от минимизации зависимостей между операциями и максимизации пропускной способности векторных регистров. Реализация `DigitsOnTurbo` демонстрирует это, достигая снижения количества инструкций до 49.8% при выполнении операций сложения и вычитания на процессорах Intel Xeon Max 9462 (SPR). Это снижение достигается за счет оптимизации потока данных и параллельной обработки элементов в векторных регистрах, что позволяет существенно повысить производительность вычислений.

Использование SIMD-инструкций (2SSE, 4AVX2, 8AVX512) позволило достичь ускорения вычитания патологических операндов длиной от 512 до 32768 бит на процессоре Intel Xeon Max 9462 (SPR) по сравнению со скалярной реализацией <span class="katex-eq" data-katex-display="false">\text{scalar\_subborrowx\_u64}</span>. — Использование SIMD-инструкций (2SSE, 4AVX2, 8AVX512) позволило достичь ускорения вычитания патологических операндов длиной от 512 до 32768 бит на процессоре Intel Xeon Max 9462 (SPR) по сравнению со скалярной реализацией $\text{scalar\_subborrowx\_u64}$ .

Digits on Turbo: Новый Подход к Высокопроизводительной Арифметике

Алгоритм DigitsOnTurbo значительно ускоряет операции с большими числами благодаря эффективному использованию архитектуры SIMD и минимизации задержек, связанных с распространением переноса. Вместо последовательной обработки разрядов, система оперирует с сегментами данных — так называемыми «конечностями» — параллельно, используя векторные инструкции. Это позволяет существенно повысить производительность, особенно при выполнении критически важных вычислений, таких как криптографические операции и высокоточные научные расчёты. Сокращение времени задержки при распространении переноса, являющегося узким местом в традиционных алгоритмах, достигается за счёт оптимизации представления чисел и организации вычислений, что в совокупности обеспечивает существенный прирост скорости обработки.

Алгоритм “DigitsOnTurbo” существенно повышает эффективность работы с большими числами благодаря применению представления с пониженным основанием (ReducedRadix) и оперированию сегментами — так называемыми “конечностями” (Limb). Вместо традиционного десятичного или двоичного представления, числа кодируются в системе с меньшим основанием, что позволяет обрабатывать несколько разрядов одновременно, используя возможности SIMD-архитектуры. Разбиение чисел на сегменты позволяет распараллелить операции, такие как сложение и умножение, над этими сегментами, максимально задействуя векторные регистры процессора. Этот подход не только уменьшает количество необходимых операций, но и существенно снижает накладные расходы, связанные с переносом разрядов, что приводит к значительному увеличению скорости вычислений и повышению общей производительности алгоритма в задачах, требующих высокой точности и скорости обработки чисел.

Предложенный алгоритм демонстрирует ощутимый прирост производительности в областях, требующих операций с большими числами, таких как криптография и высокоточные научные вычисления. В ходе тестирования на платформе Intel Xeon Max 9462 (SPR) удалось добиться снижения задержки при верификации DSA 2048-bit на 7.9%, а также увеличения пропускной способности операции FFDH derive на 7.2%. В совокупности, эти улучшения приводят к повышению общего показателя GMPbench на 7.8% при использовании процессора Intel Xeon Gold 6548Y+. Данные результаты подтверждают эффективность нового подхода и его потенциал для оптимизации критически важных вычислительных задач.

Добавление DoT в примере с четырьмя конечностями включает параллельное выполнение <span class="katex-eq" data-katex-display="false">SIMD</span> сложений на фазах 1 и 3, генерацию и сдвиг битов переноса на скалярных регистрах на фазе 2 и обработку редких случаев каскада переноса на фазе 4. — Добавление DoT в примере с четырьмя конечностями включает параллельное выполнение $SIMD$ сложений на фазах 1 и 3, генерацию и сдвиг битов переноса на скалярных регистрах на фазе 2 и обработку редких случаев каскада переноса на фазе 4.

Наблюдатель отмечает, что предложенный в статье подход DigitsOnTurbo (DoT) к ускорению арифметики больших чисел с использованием SIMD-инструкций — закономерный шаг. Стремление минимизировать перенос разряда и выжать максимум параллелизма из алгоритмов — это, конечно, хорошо. Однако, опыт подсказывает, что каждая оптимизация рано или поздно превратится в технический долг, требующий постоянного внимания. Как заметил Андрей Колмогоров: «Математики не открывают истину, а лишь переставляют символы». В данном случае, символы — это биты, а перестановка — оптимизация алгоритма. И, скорее всего, через пару лет появятся новые способы «вертикального и поперечного умножения», которые заставят забыть о DoT, как о чем-то устаревшем. Тесты, конечно, покажут зелёный свет, но это не гарантирует, что система выдержит реальную нагрузку.

Куда это всё ведёт?

Представленный подход, оптимизирующий арифметику больших чисел посредством SIMD-инструкций, неизбежно сталкивается с потолком эффективности. Замена элегантной теории на практическую реализацию всегда выявляет узкие места, и в данном случае, это, скорее всего, станет пропускной способностью шины данных и латентностью доступа к памяти. Ускорение вычислений на уровне инструкций — лишь временное решение. В конечном итоге, производительность будет ограничена физическими свойствами кремния, а не гением алгоритма.

Вместо бесконечной гонки за микросекундами, возможно, стоит переосмыслить саму необходимость в вычислениях с произвольной точностью. Каждая новая архитектура, каждая оптимизация — это лишь способ отложить неизбежное столкновение с реальностью. Нам не нужно больше микросервисов для больших чисел — нам нужно меньше иллюзий относительно их практической применимости. Ведь рано или поздно, любой «прорыв» превратится в технический долг, требующий переработки.

Будущие исследования, вероятно, сконцентрируются на аппаратных ускорителях, специально разработанных для арифметики больших чисел. Однако, история показывает, что даже самые передовые аппаратные решения со временем устаревают. В конечном счете, фундаментальная проблема остаётся прежней: вычислительная мощность всегда будет отставать от человеческого желания решать всё более сложные задачи. И это, пожалуй, неплохо.

Оригинал статьи: https://arxiv.org/pdf/2604.21566.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-24 20:03

🚀 Квантовые новости