Как токенизация влияет на анализ бинарного кода

Автор: Денис Аветисян

Исследование показывает, как различные методы токенизации влияют на эффективность моделей машинного обучения при работе с бинарными файлами.

Предобработка кода, преобразующая адреса в последовательные идентификаторы, демонстрирует переход от исходного представления к оптимизированной форме, необходимой для последующей обработки и, вероятно, повышения эффективности системы.

В данной работе исследуется влияние стратегий токенизации и предварительной обработки на производительность больших языковых моделей, применяемых для анализа бинарного кода.

Несмотря на растущую популярность моделей машинного обучения в анализе бинарного кода, влияние алгоритмов токенизации на их эффективность остаётся недостаточно изученным. Данное исследование, озаглавленное ‘How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis’, посвящено систематической оценке различных стратегий токенизации и предобработки для ассемблерного кода. Полученные результаты демонстрируют, что выбор алгоритма токенизации существенно влияет на производительность больших языковых моделей (LLM) и трансформеров в задачах, критичных для анализа бинарных файлов. Какие компромиссы между внутренними характеристиками токенизатора и его практической применимостью необходимо учитывать для оптимизации рабочих процессов анализа бинарного кода на основе моделей машинного обучения?

Разбор Полета: Сложности Представления Машинного Кода

Анализ машинного кода затруднен из-за его низкоуровневой сложности, что усложняет обратную разработку и поиск уязвимостей. Отсутствие высокоуровневых абстракций требует глубокого понимания архитектуры процессора. Традиционные методы ограничены неопределенностью и недостатком семантической информации, выдавая множество ложных срабатываний и требуя значительных вычислительных ресурсов. Любое стремление к полному автоматическому пониманию обречено на столкновение с реальностью сложности и изменчивости кода.

Подготовка К Анализу: Предобработка Машинного Кода

Предобработка машинного кода — ключевой этап применения машинного обучения к анализу программного обеспечения. Она преобразует необработанный код в формат, пригодный для моделей, повышая точность и эффективность анализа. Дизассемблирование — необходимая процедура, преобразующая машинный код в удобочитаемый ассемблерный язык. Метод преобразования адресов в последовательные идентификаторы упрощает представление кода, улучшая обобщающую способность моделей.

Набор данных для разборки по умолчанию используется для анализа функций.

Токенизация: Строительные Блоки Понимания Кода

Токенизация дизассемблированного кода разделяет его на значимые единицы для обработки моделями. Суб-словные методы, такие как BPE, Unigram и WordPiece, решают проблему неизвестных слов и повышают обобщающую способность. Размер словаря — критический параметр. Unigram с размером 3k достиг точности предсказания сигнатур функций 88.81%. Метрика плодовитости (fertility) оценивает эффективность токенизации. Unigram показал значение 2.0 (наилучшее сжатие), WordPiece – 4.5. BPE с размерами словаря 25k-35k достиг точности 85.76%.

Прогнозные Модели: Предсказание Сигнатур Функций с Трансформерами

Задача предсказания сигнатур функций автоматизирует определение параметров и типов возвращаемых значений функций. Трансформерные модели, такие как BART и Llama 3.2, эффективны в задачах последовательность-к-последовательности, точно предсказывая структуру функций. Модель BERT, использующая механизм предсказания замаскированных токенов, обеспечивает мощные контекстные представления кода, достигая точности 80.48% при предсказании сигнатур функций. Это повышает эффективность анализа кода и упрощает поддержку программного обеспечения.

Распределение частот разобранных функций демонстрирует зависимость от количества инструкций в каждой функции.

Каждая «революционная» технология завтра станет техдолгом.

Исследование влияния различных алгоритмов токенизации на производительность больших языковых моделей при анализе бинарного кода закономерно высветило зависимость точности от тщательно подобранных методов. Порой, за кажущейся элегантностью новой архитектуры скрывается лишь усложнение, не приносящее реальной пользы. Как заметил Джон Маккарти: «Всякий искусственный интеллект неизбежно заставляет глупых людей казаться умнее, чем они есть на самом деле.». Эта фраза, хоть и не напрямую связана с токенизацией, отражает суть любого технического решения: оптимизация должна приводить к реальному улучшению, а не создавать иллюзию прогресса. Оптимизация размера словаря, описанная в статье, — лишь один из примеров того, как, казалось бы, небольшое изменение может существенно повлиять на эффективность системы.

Что дальше?

Представленная работа, как и многие другие в области применения больших языковых моделей к анализу бинарного кода, лишь обнажает глубину нерешенных проблем. В погоне за всё более сложными алгоритмами токенизации легко упустить из виду, что багтрекер — это, по сути, дневник боли, аккуратно задокументированный процесс борьбы с неизбежными артефактами препроцессинга. Оптимизация размера словаря – это не столько научный поиск, сколько попытка придать видимость порядка хаотичному потоку инструкций.

Вместо того чтобы бесконечно усложнять модели, возможно, стоит обратить внимание на саму природу бинарного кода. В конце концов, мы не деплоим – мы отпускаем программы в мир, где их ждёт реальное железо и реальные атаки. Ни один алгоритм токенизации не защитит от уязвимости, заложенной в архитектуре процессора.

В перспективе, вероятно, следует ожидать не революции в токенизации, а эволюции инструментов для автоматического поиска и исправления ошибок в бинарном коде. Каждая «революционная» технология завтра станет техдолгом. И, скорее всего, у нас не DevOps-культура, у нас культ DevOops.

Оригинал статьи: https://arxiv.org/pdf/2511.03825.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-09 12:47

🚀 Квантовые новости