Нейросети сжимают данные: новый подход к lossless-компрессии

Автор: Денис Аветисян

Исследователи представили систему Nacrith, использующую мощь языковых моделей для достижения рекордных показателей сжатия без потерь.

Nacrith сочетает в себе 135-миллионную языковую модель, точное арифметическое кодирование и статистическое моделирование N-грамм для повышения эффективности компрессии.

Несмотря на прогресс в области нейронной компрессии, достижение высокой степени сжатия без потерь остается сложной задачей, требующей оптимизации точности и эффективности моделей. В данной работе представлен Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding — новая система, сочетающая в себе языковую модель (135M параметров) и ансамбль легковесных предикторов, демонстрирующая превосходные результаты сжатия за счет повышения точности арифметического кодирования и адаптивной коррекции ошибок. Система достигает показателей до 0.723 бит/байт на невидимых данных, превосходя традиционные алгоритмы, такие как gzip, bzip2 и FineZip, и открывает перспективы для создания более эффективных решений для сжатия данных, особенно в условиях ограниченных вычислительных ресурсов?

За пределами Традиционного Сжатия: Потребность в Nacrith

Традиционные алгоритмы сжатия без потерь, как правило, рассматривают естественный язык исключительно как последовательность символов, игнорируя присущие ему сложности и взаимосвязи. Такой подход, лишенный понимания семантики и контекста, препятствует достижению действительно эффективного сжатия, особенно при работе с текстами, изобилующими нюансами и неоднозначностями. Вместо анализа смысла и вероятностей появления определенных слов и фраз, эти методы оперируют лишь статистикой символов, что приводит к избыточности и неоптимальному использованию доступного пространства для хранения данных. В результате, даже относительно простые тексты оказываются сложными для эффективного сжатия, требуя значительно больше ресурсов, чем могло бы быть достигнуто при более глубоком анализе лингвистической структуры.

Традиционные методы сжатия данных, рассматривающие текст как последовательность символов, зачастую оказываются неэффективными при работе со сложными и нюансированными текстовыми данными. Отсутствие семантического понимания структуры языка приводит к тому, что алгоритмы не способны выявлять и устранять избыточность, обусловленную не только повторением отдельных символов, но и закономерностями в значении и контексте. В результате, при сжатии текстов, насыщенных сложными грамматическими конструкциями, идиомами или специфической терминологией, такие методы демонстрируют ограниченную эффективность, упуская возможности для более глубокой оптимизации размера данных. Это особенно заметно при работе с текстами, где значение слов и фраз сильно зависит от контекста, что делает невозможным эффективное сжатие на основе простого анализа символьных последовательностей.

В отличие от традиционных методов сжатия, рассматривающих текст как последовательность символов, Nacrith применяет принципиально новый подход, используя мощь языковых моделей для анализа и сжатия данных. Этот метод позволяет учитывать вероятностные зависимости и контекст в тексте, что значительно повышает эффективность сжатия. Вместо простого кодирования символов, Nacrith прогнозирует наиболее вероятные следующие элементы последовательности, тем самым уменьшая избыточность информации и достигая более высокой степени сжатия даже для сложных и неоднозначных текстовых данных. Такой подход позволяет не просто уменьшить размер файла, но и сохранить его семантическую целостность, обеспечивая оптимальное соотношение между степенью сжатия и качеством восстановленного текста.

В основе эффективности Nacrith лежит способность предсказывать последовательность токенов в тексте. Вместо обработки текста как простого потока символов, система использует мощь языковых моделей для анализа контекста и вероятностной оценки следующего токена. Этот подход позволяет значительно сократить избыточность данных, поскольку предсказуемые элементы кодируются более компактно. В результате, Nacrith демонстрирует превосходные показатели сжатия, достигая 0.918 бита на байт (bpb) для файла alice29.txt и 0.9389 bpb для enwik8, что свидетельствует о существенном улучшении по сравнению с традиционными методами сжатия без потерь.

Архитектура Nacrith: Гибридный Подход

В основе архитектуры Nacrith лежит компактная, но производительная языковая модель SmolLM2-135M, предназначенная для предсказания вероятности последующих токенов в тексте. Данная модель использует 135 миллионов параметров и обеспечивает эффективное вычисление вероятностей, что позволяет ей служить ключевым компонентом в процессе генерации и оценки текстовых последовательностей. SmolLM2-135M является основой для дальнейшей обработки и улучшения предсказаний, осуществляемых посредством других модулей архитектуры Nacrith.

Предсказание вероятности следующего токена, выполняемое языковой моделью SmolLM2-135M, дополняется использованием N-граммной модели. N-граммная модель обеспечивает надежную статистическую основу, вычисляя вероятности на основе частоты появления последовательностей токенов в обучающем корпусе. Это позволяет снизить влияние ошибок, возникающих в языковой модели, и повысить общую устойчивость системы. Внедрение N-граммной модели также способствует увеличению разнообразия ансамбля, поскольку она использует иной подход к предсказанию, основанный на статистическом анализе, а не на параметрическом обучении.

Адаптивный микшер контекста осуществляет взвешенное объединение предсказаний языковой модели SmolLM2-135M и N-граммной модели. В процессе работы микшер динамически оценивает производительность каждой модели на конкретном документе, используя метрики, отражающие точность предсказаний. На основании этих оценок, микшер автоматически корректирует веса, увеличивая вклад модели, демонстрирующей лучшие результаты в текущем контексте, и уменьшая вклад менее эффективной модели. Это позволяет системе эффективно использовать сильные стороны обеих моделей и адаптироваться к различным типам текстов, обеспечивая повышенную точность прогнозирования токенов.

Адаптивная голова коррекции смещения в логарифмическом пространстве (Adaptive Log-Space Bias Head) предназначена для устранения систематических искажений, присущих языковой модели SmolLM2-135M. Она функционирует путем внесения поправок в логарифмические вероятности ( $log-probabilities$ ) предсказанных токенов. Эти поправки вычисляются динамически, основываясь на анализе распределения вероятностей и выявлении статистических смещений в предсказаниях модели. Коррекция в логарифмическом пространстве позволяет более эффективно масштабировать и применять поправки, обеспечивая повышение точности предсказаний и уменьшение вероятности генерации нежелательных или нерелевантных токенов.

Точность и Эффективность: Кодирование и Оптимизация

В основе этапа сжатия в Nacrith лежит арифметическое кодирование, обеспечивающее эффективное кодирование предсказанных распределений вероятностей. В отличие от кодов фиксированной длины, таких как код Хаффмана, арифметическое кодирование представляет весь входной поток как один дробный интервал, что позволяет достичь более высокой степени сжатия, особенно при работе с вероятностями, близкими к 0 или 1. Эффективность метода заключается в представлении символов не отдельными битами, а точным представлением вероятностного распределения, минимизируя избыточность и максимизируя коэффициент сжатия. Данный подход критически важен для оптимизации размера выходных данных и снижения требований к пропускной способности и хранилищу.

Для минимизации ошибок квантования в процессе кодирования вероятностных распределений в Nacrith применяется метод CDF-24. Данный метод использует 24-битное представление кумулятивной функции распределения (CDF), что обеспечивает высокую точность при кодировании и декодировании данных. Использование 24 бит позволяет представлять вероятности с большей детализацией, снижая вероятность округления и, следовательно, уменьшая потери информации при сжатии. Высокая точность представления CDF критически важна для эффективной работы арифметического кодирования и достижения оптимальной степени сжатия.

Метод скользящего окна KV-кэша оптимизирует использование памяти в процессе обработки, обеспечивая эффективное управление контекстным окном. Данная техника предполагает хранение только ограниченной части истории активаций ключей и значений (KV-кэша), необходимой для текущей генерации токенов. По мере продвижения по последовательности, старые данные KV-кэша удаляются, а новые — добавляются, что позволяет значительно снизить требования к объему VRAM и поддерживать высокую скорость обработки, особенно при работе с большими контекстными окнами. Это критически важно для масштабируемости и позволяет обрабатывать более длинные последовательности текста при заданном объеме аппаратных ресурсов.

Для ускорения GPU-инференса Nacrith использует библиотеку llama.cpp. Это позволяет достичь производительности от 20 до 90 токенов в секунду, при этом объем используемой VRAM составляет 1.2 ГБ на один рабочий экземпляр. Такая оптимизация позволяет эффективно использовать ресурсы графического процессора и обеспечивает высокую скорость обработки данных, необходимую для работы с большими языковыми моделями.

Влияние и Перспективы

Система Nacrith демонстрирует значительное превосходство над традиционными алгоритмами сжатия данных, особенно при работе со сложными текстовыми данными. Благодаря использованию семантического понимания, она достигает сжатия на 44% эффективнее, чем CMIX v21 при обработке файла alice29.txt, и на 8% превосходит FineZip при сжатии enwik8. Примечательно, что такое повышение эффективности достигается при использовании модели, в 60 раз меньшей по размеру, что указывает на оптимизацию баланса между производительностью и вычислительными затратами. Это позволяет предположить, что Nacrith может стать основой для новых, более интеллектуальных и эффективных решений в области хранения и передачи данных.

Разработка системы Nacrith отличается особым вниманием к соотношению эффективности сжатия и вычислительных затрат. В отличие от многих современных алгоритмов, требующих огромных языковых моделей, Nacrith успешно применяет относительно небольшую модель, что значительно снижает потребность в вычислительных ресурсах и энергии. Такой подход позволяет достичь высокой степени сжатия сложных текстовых данных, при этом сохраняя приемлемую скорость работы и доступность для широкого круга пользователей. Это особенно важно для устройств с ограниченными ресурсами или для приложений, где требуется быстрое сжатие и распаковка данных, например, в мобильных устройствах или в системах потоковой передачи информации. Использование компактной модели не только снижает затраты на оборудование, но и способствует более экологичному использованию вычислительной техники.

Формат NC06 представляет собой значительный шаг вперед в области сжатия данных, поскольку обеспечивает поддержку не только текстовой информации, но и файлов любого типа. Эта универсальность существенно расширяет область применения системы сжатия Nacrith, делая её пригодной для обработки широкого спектра данных — от документов и изображений до аудио- и видеофайлов. В отличие от многих алгоритмов, оптимизированных исключительно для текста, NC06 позволяет эффективно сжимать гетерогенные наборы данных, что особенно актуально в современных сценариях хранения и передачи информации, где разнообразие типов файлов постоянно растет. Такая адаптивность делает систему Nacrith привлекательным решением для широкого круга пользователей и приложений, от архивирования данных до оптимизации пропускной способности сетей.

Исследования показали, что система Nacrith демонстрирует высокую эффективность при работе с текстами, не соответствующими данным, на которых она обучалась — так называемыми «out-of-distribution» текстами. В частности, при сравнении с алгоритмом FineZip, Nacrith превзошел его на 26% по показателям сжатия, что свидетельствует о значительном улучшении способности системы адаптироваться к новым, неизвестным данным. Данный результат открывает перспективы для создания более интеллектуальных и эффективных решений в области сжатия информации, способных эффективно обрабатывать разнообразные типы текстов и оптимизировать использование вычислительных ресурсов.

Представленная работа демонстрирует стремление к оптимизации систем сжатия данных, что неизбежно связано с течением времени и эволюцией технологий. Как однажды заметил Клод Шеннон: «Теория коммуникации измеряет, что мы можем сделать в пределе, а инженерия — что мы можем сделать на практике». Nacrith, сочетая возможности языковых моделей и N-грамм, пытается приблизиться к теоретическому пределу сжатия, преодолевая ограничения точности, присущие арифметическому кодированию. Эта система, подобно любому сложному организму, будет эволюционировать, адаптируясь к новым вызовам и требованиям времени, а каждый достигнутый прогресс — лишь очередная ступень в бесконечном процессе оптимизации.

Что Дальше?

Представленная работа, демонстрируя впечатляющие результаты в области сжатия без потерь, неизбежно сталкивается с тем же вопросом, что и любая оптимизация: сколько продержится иллюзия совершенства? Улучшение точности кодирования, как и любое другое нововведение, обречено на старение быстрее, чем ожидается. Возникает закономерный вопрос: не является ли достижение новых рекордов сжатия лишь отсрочкой неизбежного столкновения с фундаментальными пределами энтропии и вычислительных ресурсов?

Очевидным направлением для дальнейших исследований представляется не столько погоня за еще большей эффективностью, сколько поиск более устойчивых архитектур. Комбинация языковой модели и N-грамм, безусловно, перспективна, но её долговечность зависит от способности адаптироваться к меняющимся характеристикам данных. Отход к более простым, но робастным решениям, вероятно, станет не отступлением, а осознанным выбором в пользу стабильности.

Неизбежный «откат» — это не поражение, а путешествие назад по стрелке времени, напоминание о том, что любая система, даже самая изящная, подвержена влиянию времени. Задача исследователя — не остановить этот процесс, а понять его закономерности и разработать методы, позволяющие системам стареть достойно, сохраняя свою функциональность и полезность как можно дольше.

Оригинал статьи: https://arxiv.org/pdf/2602.19626.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-25 01:24

🚀 Квантовые новости