Гермес: Новая архитектура для ускорения криптографии будущего

Автор: Денис Аветисян

Представлена инновационная FPGA-реализация алгоритма NTT, обеспечивающая значительное повышение производительности в схемах гибридного гомоморфного шифрования.

Архитектура Гермеса включает в себя последовательные и независимые стадии, каждая из которых содержит блоки <span class="katex-eq" data-katex-display="false">p/2p/2NTT</span>, обеспечивая масштабируемость и эффективность вычислений. — Архитектура Гермеса включает в себя последовательные и независимые стадии, каждая из которых содержит блоки $p/2p/2NTT$ , обеспечивая масштабируемость и эффективность вычислений.

Предлагается унифицированная архитектура NTT с гибридным потоком данных для FPGA, обеспечивающая высокую производительность при работе с переменной длиной полиномов.

Вычислительная сложность операций над полиномами является узким местом в схемах полностью гомоморфного шифрования (FHE). В данной работе представлена архитектура ‘Hermes: A Unified High-Performance NTT Architecture with Hybrid Dataflow’, реализующая высокопроизводительное и унифицированное аппаратное ускорение преобразования чисел по модулю NTT, критичного для FHE и гибридного гомоморфного шифрования (HHE). Предложенная архитектура, основанная на гибридном потоке данных, обеспечивает значительное увеличение пропускной способности — до 13.6x по сравнению с современными GPU и 1.3x по сравнению с FPGA — при поддержке различных длин NTT. Сможет ли данный подход стать основой для создания более эффективных и масштабируемых систем конфиденциальных вычислений?

Стремление к Ясности: Основы Конфиденциальных Вычислений

Современный анализ данных все чаще сталкивается с необходимостью обработки конфиденциальной информации, что порождает растущий спрос на методы, позволяющие проводить вычисления непосредственно над зашифрованными данными. Это обусловлено не только законодательными требованиями, такими как GDPR, но и осознанием важности защиты личной информации от несанкционированного доступа. Традиционные подходы, предполагающие дешифрование данных перед анализом, создают уязвимости и риски. Поэтому, разработка и внедрение технологий, позволяющих анализировать данные в зашифрованном виде, становится критически важной задачей для обеспечения как безопасности, так и возможности извлечения ценной информации из больших объемов данных, не нарушая при этом приватность пользователей и организаций. $P = NP$ — хотя это и не напрямую связано, стремление к эффективным вычислениям над зашифрованными данными отражает общую задачу оптимизации сложных вычислений.

Полностью гомоморфное шифрование (FHE) представляет собой перспективное решение для обеспечения конфиденциальности данных при их обработке, позволяя выполнять вычисления непосредственно над зашифрованными данными без их предварительного расшифрования. Однако, несмотря на свою теоретическую элегантность, FHE сталкивается со значительными вычислительными трудностями. Сложность операций, необходимых для работы с зашифрованными данными, существенно превосходит аналогичные операции над открытыми данными. В частности, даже базовые математические операции, такие как сложение и умножение, требуют значительно больше ресурсов, что делает FHE непригодным для многих практических приложений без существенной оптимизации и аппаратного ускорения. $O(n^3)$ — типичная сложность операций, используемых в FHE, что создает серьезные ограничения на скорость обработки больших объемов данных.

Основным препятствием для широкого применения полностью гомоморфного шифрования (FHE) является вычислительная сложность умножения многочленов. В FHE, операции над зашифрованными данными имитируют обычные вычисления, но выполняются непосредственно над шифротекстами. В результате, даже простая операция, такая как умножение, требует огромного количества вычислений, поскольку включает в себя манипуляции с большими многочленами. Эффективное умножение многочленов, особенно в кольце $\mathbb{Z}_p$ или других структурах, используемых в FHE, становится узким местом, ограничивающим скорость и масштабируемость шифрования. Разработка специализированных аппаратных ускорителей и оптимизированных алгоритмов для умножения многочленов является критически важной для реализации практичных и эффективных FHE-систем, способных обрабатывать большие объемы данных с приемлемой производительностью.

В основе схем полностью гомоморфного шифрования (FHE), обеспечивающих вычисления над зашифрованными данными, лежит криптография на решетках. Этот математический подход использует сложные структуры, известные как решетки, для построения криптографических примитивов, устойчивых к известным атакам. В отличие от традиционных систем, основанных на факторизации больших чисел или дискретном логарифме, безопасность криптографии на решетках зиждется на предполагаемой сложности решения определенных задач на решетках, таких как задача поиска ближайшей точки. $\mathbb{Z}_q$ -модули и полиномиальные кольца, используемые в этих схемах, создают основу для кодирования данных и выполнения операций. Именно свойства решеток позволяют создавать шифрования, сохраняющие конфиденциальность, и обеспечивают теоретическую основу для реализации FHE, что делает данный подход ключевым для развития технологий, ориентированных на защиту данных.

Трансформация Чисел: Основа Ускорения Вычислений

Преобразование число-теоретического преобразования (NTT) является ключевым алгоритмом для ускорения умножения полиномов в схемах гомоморфного шифрования (FHE). В FHE операции над зашифрованными данными выполняются без их расшифровки, что требует эффективных методов для выполнения арифметических операций. NTT позволяет заменить операции над комплексными числами, характерные для быстрого преобразования Фурье (FFT), операциями над целыми числами по модулю, что значительно ускоряет вычисления в конечных полях. Эффективность NTT обусловлена использованием модульной арифметики и выбором подходящего модуля, позволяющего избежать потери точности при вычислениях и обеспечить корректность результатов умножения полиномов.

Эффективность преобразования числотеоретического преобразования Фурье (NTT) напрямую зависит от архитектуры вычислительной системы и способа обработки комплексных чисел. На современных процессорах операции с комплексными числами часто требуют больше ресурсов, чем аналогичные операции с целыми числами. В частности, умножение комплексных чисел требует нескольких операций умножения и сложения, что увеличивает общую вычислительную сложность NTT. Производительность также определяется эффективностью реализации операций модульного сложения и умножения, которые являются ключевыми компонентами NTT. Архитектуры, оптимизированные для векторных вычислений и параллельной обработки, могут значительно ускорить выполнение NTT, особенно при обработке больших объемов данных. Кроме того, выбор подходящего модуля $q$ и его представление в памяти также влияют на скорость выполнения NTT, так как операции с большими числами требуют больше времени.

Традиционные реализации Преобразования Числовой Теории (NTT), такие как поэтапное (Stage-Based) и конвейерное (Pipeline-Based) NTT, сталкиваются с проблемами масштабируемости при увеличении размера входных данных. Поэтапные реализации требуют $O(N^2)$ операций для обработки данных размера $N$ , что становится узким местом при больших объемах. Конвейерные реализации, хотя и предлагают улучшение производительности за счет параллелизации, ограничены количеством доступных аппаратных ресурсов и сложностью синхронизации данных между этапами. Обе архитектуры испытывают трудности при обработке очень больших наборов данных, необходимых для современных приложений, таких как полностью гомоморфное шифрование (FHE), где размер полиномов может достигать десятков тысяч элементов, что требует значительных вычислительных ресурсов и памяти.

Дискретное преобразование Фурье (ДПФ) является математической основой для построения преобразования чисел по модулю (NTT). ДПФ, определяемое как $X_k = \sum_{n=0}^{N-1} x_n e^{-2\pi i kn/N}$ , где $x_n$ — входной сигнал, а $X_k$ — его частотный спектр, позволяет эффективно переходить из временной области в частотную. NTT, по сути, является вариантом ДПФ, выполняемым в кольце целых чисел по модулю, что позволяет избежать операций с вещественными числами и обеспечивает целочисленную арифметику, критически важную для применения в схемах гомоморфного шифрования. Использование ДПФ в качестве основы NTT позволяет использовать оптимизированные алгоритмы для вычисления ДПФ, такие как алгоритм Кули-Тьюки, для повышения производительности NTT.

Архитектура быстрого преобразования Фурье, основанная на гибридном потоке данных, использует параметры <span class="katex-eq" data-katex-display="false">N_{part} = 4</span>, <span class="katex-eq" data-katex-display="false">S_{part} = 2</span>, <span class="katex-eq" data-katex-display="false">p = 2</span> для оптимизации обработки и переупорядочивает входные и выходные данные для наглядности. — Архитектура быстрого преобразования Фурье, основанная на гибридном потоке данных, использует параметры $N_{part} = 4$ , $S_{part} = 2$ , $p = 2$ для оптимизации обработки и переупорядочивает входные и выходные данные для наглядности.

Гермес: Гибридная Архитектура для Ускорения NTT

Архитектура Hermes представляет собой унифицированную систему высокопроизводительных вычислений NTT (Number Theoretic Transform), основанную на гибридном подходе к потокам данных. В отличие от традиционных архитектур, Hermes использует как временной, так и пространственный параллелизм при обработке данных в обеих размерностях вычислений NTT. Это позволяет значительно повысить эффективность использования вычислительных ресурсов и пропускную способность системы за счет одновременного выполнения множества операций и параллельного доступа к данным. Гибридный подход к потокам данных является ключевым фактором, обеспечивающим высокую производительность Hermes в задачах, требующих быстрых вычислений NTT, таких как криптография и кодирование.

Гибридный подход к потоку данных в архитектуре Hermes использует как временной, так и пространственный параллелизм при вычислении NTT (Number Theoretic Transform) по обеим её размерностям. Временной параллелизм достигается за счет распараллеливания операций во времени, например, путем конвейеризации вычислений. Пространственный параллелизм реализуется путем разделения данных и одновременной обработки различных частей данных разными вычислительными блоками. Применение обоих видов параллелизма к обеим размерностям NTT позволяет значительно увеличить пропускную способность и снизить задержку при выполнении преобразований, эффективно используя доступные вычислительные ресурсы.

Архитектура Hermes использует алгоритм Conflict-Free On-Chip Fragmentation для эффективной организации данных, обеспечивая параллельный доступ к ним. Данный алгоритм разбивает входные данные на фрагменты таким образом, чтобы минимизировать конфликты при обращении к памяти на кристалле. Это достигается путем динамического назначения фрагментов памяти таким образом, чтобы различные вычислительные блоки могли одновременно получать доступ к своим данным без взаимных блокировок. Алгоритм позволяет избежать ситуаций, когда несколько блоков пытаются получить доступ к одной и той же области памяти, что существенно повышает эффективность параллельных вычислений и пропускную способность системы. Использование данного подхода позволяет оптимизировать использование локальной памяти и снизить задержки, связанные с обменом данными между вычислительными элементами.

Для обеспечения требуемой пропускной способности в архитектуре Hermes ключевыми компонентами являются память High Bandwidth Memory (HBM) и Ultra-RAM (URAM). HBM обеспечивает высокую скорость передачи данных и плотность памяти, что критически важно для параллельной обработки больших объемов данных, характерных для вычислений Number Theoretic Transform (NTT). Ultra-RAM (URAM) используется как дополнительный буфер для временного хранения данных, оптимизируя доступ к памяти и снижая задержки. Комбинация HBM и URAM позволяет архитектуре Hermes эффективно поддерживать высокие скорости обработки данных, необходимые для достижения заявленной производительности в задачах ускорения NTT.

Архитектура Hermes демонстрирует значительное увеличение пропускной способности по сравнению с существующими аппаратными ускорителями. В ходе тестирования Hermes показал прирост производительности до 13.6 раза по сравнению с современными графическими процессорами (GPU) и 1.3 раза по сравнению с передовыми FPGA-ускорителями. Данные результаты были получены при выполнении стандартных алгоритмов дискретного преобразования Фурье (ДПФ) и свидетельствуют о высокой эффективности разработанной гибридной архитектуры обработки данных.

Итеративное вычисление <span class="katex-eq" data-katex-display="false">NN</span>-точечного NTT реализуется с помощью <span class="katex-eq" data-katex-display="false">N_{part}</span>-точечного NTT с <span class="katex-eq" data-katex-display="false">p/2</span> NTT-блоками на каждом этапе, как показано на примере с <span class="katex-eq" data-katex-display="false">p=2</span>, <span class="katex-eq" data-katex-display="false">N_{part}=8</span> и <span class="katex-eq" data-katex-display="false">NN=16</span>, что требует 4 итерации, а в Hermes параметры установлены как <span class="katex-eq" data-katex-display="false">p=16</span> и <span class="katex-eq" data-katex-display="false">N_{part}=256</span>. — Итеративное вычисление $NN$ -точечного NTT реализуется с помощью $N_{part}$ -точечного NTT с $p/2$ NTT-блоками на каждом этапе, как показано на примере с $p=2$ , $N_{part}=8$ и $NN=16$ , что требует 4 итерации, а в Hermes параметры установлены как $p=16$ и $N_{part}=256$ .

Расширение Горизонтов: Внедрение и Перспективы FHE

Архитектура Hermes демонстрирует высокую гибкость, позволяя эффективно развертывать её на различных аппаратных платформах, включая программируемые логические интегральные схемы (FPGA), графические процессоры (GPU) и специализированные интегральные схемы (ASIC). Такая адаптивность достигается благодаря модульному дизайну и оптимизации ключевых вычислительных блоков, что позволяет максимально использовать возможности каждой платформы. В частности, на FPGA Hermes обеспечивает высокую степень параллелизма, а на GPU — ускорение за счет массово-параллельной обработки данных. Использование ASIC позволяет достичь максимальной производительности и энергоэффективности, что особенно важно для масштабных вычислений в области гомоморфного шифрования. Данная универсальность делает Hermes привлекательным решением для широкого спектра приложений, где важна как производительность, так и возможность адаптации к различным аппаратным ограничениям и требованиям.

В архитектуре Hermes, оптимизация вычислений $N$ -точечного дискретного преобразования Фурье (NTT) достигается за счет применения алгоритма модульного умножения Шупа. Этот алгоритм существенно снижает вычислительную сложность операции, являющейся ключевой в схемах гомоморфного шифрования. В отличие от традиционных методов, умножение Шупа позволяет более эффективно выполнять модульные операции с большими числами, что критически важно для производительности Hermes. Применение данного алгоритма позволяет значительно ускорить выполнение NTT, что, в свою очередь, способствует снижению общей вычислительной нагрузки и открывает возможности для практического применения гомоморфного шифрования в различных областях, где важна конфиденциальность и скорость обработки данных.

В основе высокой производительности криптографической библиотеки Hermes лежит так называемый «Butterfly Unit» — фундаментальный вычислительный блок, оптимизированный для выполнения быстрого преобразования Фурье (БПФ). Этот блок играет ключевую роль в реализации алгоритма NTT (Number Theoretic Transform), который, в свою очередь, является центральным элементом многих гомоморфных шифрований. $Butterfly Unit$ эффективно расщепляет сложные вычисления на последовательность простых операций, минимизируя количество необходимых умножений и сложений в поле, что существенно ускоряет процесс NTT. Оптимизированная реализация $Butterfly Unit$ в Hermes позволяет достичь значительного прироста производительности, делая практичным использование гомоморфного шифрования в задачах, требующих высокой скорости обработки данных.

Архитектура Hermes, благодаря оптимизации вычислений, значительно снижает вычислительную нагрузку, исторически связанную с гомоморфным шифрованием (ГШ). Это достигается за счет эффективной реализации алгоритмов, позволяющих выполнять операции над зашифрованными данными с минимальными затратами ресурсов. Уменьшение вычислительных издержек открывает новые перспективы для практического применения ГШ в различных областях, включая конфиденциальный анализ данных, безопасное машинное обучение и защиту персональной информации. Ранее сложные и ресурсоемкие вычисления становятся доступными для более широкого круга задач, приближая эру конфиденциальных вычислений к реальности и позволяя использовать преимущества ГШ без значительных ограничений по производительности.

Архитектура Hermes демонстрирует впечатляющую производительность, достигая пиковой скорости обработки в 48 543 операций в секунду (OPS) при использовании параметров $N = 2^{16}$ . Этот показатель свидетельствует о значительном прогрессе в области полностью гомоморфного шифрования (FHE), делая практическую реализацию сложных вычислений на зашифрованных данных более достижимой. Высокая скорость обработки позволяет Hermes эффективно справляться с задачами, требующими интенсивных вычислений, открывая новые возможности для конфиденциального анализа данных и безопасных облачных вычислений. Такая производительность является ключевым фактором для широкого внедрения FHE в различных приложениях, где конфиденциальность и безопасность данных имеют первостепенное значение.

На примере <span class="katex-eq" data-katex-display="false">N=16</span> и <span class="katex-eq" data-katex-display="false">p=4</span>, диаграмма демонстрирует вычислительное поведение <span class="katex-eq" data-katex-display="false">p</span>-бабочек в первой итерации как для каскадной, так и для конвейерной архитектур NTT. — На примере $N=16$ и $p=4$ , диаграмма демонстрирует вычислительное поведение $p$ -бабочек в первой итерации как для каскадной, так и для конвейерной архитектур NTT.

Архитектура Hermes, представленная в работе, стремится к лаконичности и эффективности в реализации преобразования NTT. Она отказывается от избыточности ради скорости и гибкости, что перекликается с принципами, которые ценил Карл Фридрих Гаусс. Он однажды заметил: «Я не знаю, как мир устроен, но я чувствую, что он должен быть прост». Hermes воплощает эту простоту в сложном мире гомоморфного шифрования, оптимизируя поток данных и аппаратные ресурсы. Отказ от ненужных элементов позволяет достичь значительного прироста производительности, особенно при работе с переменной длиной полиномов, что демонстрирует элегантность и эффективность хорошо продуманного дизайна. Эта работа — иллюстрация того, как оттачивание и очищение сложной системы может привести к неожиданно ясным и мощным результатам.

Куда же дальше?

Представленная архитектура Hermes, несомненно, демонстрирует эффективность гибридного подхода к аппаратному ускорению преобразования NTT. Однако, истинное величие любой системы проявляется не в достигнутом, а в признании собственных границ. Ускорение обработки полиномов переменной длины — шаг вперёд, но само понятие «переменная длина» подразумевает избыточность. Стремление к универсальности часто оборачивается сложностью, а сложность — упущенными возможностями. Следует задаться вопросом: можно ли отказаться от этой переменности, не потеряв при этом существенной функциональности? Или, иными словами, где та золотая середина, за которой универсальность превращается в самоцель?

Очевидным направлением является исследование компиляции высокоуровневых операций над зашифрованными данными непосредственно в аппаратно-реализованные схемы. Существующие решения часто оперируют с низкоуровневыми примитивами, что ограничивает потенциал оптимизации. Истинная элегантность заключается в возможности скрыть сложность реализации, предоставив пользователю интуитивно понятный интерфейс. Система, требующая подробных инструкций, уже проиграла.

Наконец, необходимо помнить о стоимости. FPGA — мощный инструмент, но его ресурсы не безграничны. Поиск компромисса между производительностью, энергопотреблением и стоимостью — задача, требующая постоянного внимания. Понятность — это вежливость, и в данном контексте она означает предоставление пользователю чёткой информации о ресурсах, необходимых для выполнения той или иной операции.

Оригинал статьи: https://arxiv.org/pdf/2603.01556.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-04 01:51

🚀 Квантовые новости