Языковые модели: обучение без границ токенизации

Автор: Денис Аветисян

Новый подход позволяет эффективно передавать знания между большими языковыми моделями, даже если они используют разные способы разбиения текста на части.

Метод байт-уровневой дистилляции знаний, представленный здесь, включает в себя добавление байт-уровневого интерфейса к модели-ученику и последующую передачу знаний от модели-учителя через этот интерфейс, используя как стандартные подходы дистилляции, так и дополнительные функции предсказания следующего токена и следующего байта, после чего этот интерфейс может быть удален, обеспечивая эффективную оптимизацию модели.

В статье представлена методика Byte-Level Distillation, позволяющая осуществлять дистилляцию знаний на байтовом уровне, минуя необходимость согласования токенизаторов.

Перенос знаний между большими языковыми моделями, использующими различные токенизаторы, представляет собой сложную задачу, требующую согласования несовместимых словарей. В данной работе, ‘Cross-Tokenizer LLM Distillation through a Byte-Level Interface’, предложен простой и эффективный метод — Byte-Level Distillation (BLD), оперирующий на уровне байтов для обеспечения межтокенизаторной дистилляции знаний. Эксперименты показали, что BLD демонстрирует конкурентоспособные, а на ряде бенчмарков и превосходящие результаты по сравнению с более сложными подходами к дистилляции, применительно к моделям размером от 1 до 8 миллиардов параметров. Не является ли байтовый уровень естественной основой для эффективного переноса знаний между языковыми моделями, и какие дальнейшие исследования необходимы для решения проблемы межтокенизаторной дистилляции в целом?

За гранью токенов: Ограничения традиционной дистилляции знаний

Метод дистилляции знаний зарекомендовал себя как эффективный инструмент для сжатия моделей, позволяющий создавать более компактные и быстрые версии без существенной потери производительности. Однако, его эффективность значительно снижается при передаче знаний между моделями, использующими различные словари токенов. Это связано с тем, что традиционные подходы к дистилляции опираются на соответствие между токенами исходной и целевой моделей, а при расхождении словарей возникает несоответствие, препятствующее эффективному переносу знаний. В результате, студентская модель, обученная на основе дистилляции с использованием несовместимого словаря, демонстрирует существенное снижение производительности, особенно в задачах, требующих точного понимания семантики и контекста.

Традиционные методы дистилляции знаний, основанные на сопоставлении логитов, предполагают использование фиксированного словаря токенов. Однако, при передаче знаний между моделями, использующими различные токенизаторы, возникает несоответствие. Это происходит потому, что токенизаторы разбивают текст на части по-разному, формируя уникальные словари. Когда учительская и ученическая модели оперируют отличными словарями, сопоставление логитов становится неэффективным, поскольку модель-ученик не может адекватно интерпретировать выходные данные модели-учителя. В результате, процесс передачи знаний затрудняется, и производительность модели-ученика существенно снижается, особенно при стремлении к созданию компактных и эффективных моделей.

Значительное ухудшение производительности наблюдается при дистилляции знаний, особенно при переходе к более компактным и эффективным студенческим моделям, в связи с расхождением в используемых словарях токенизаторов. Исследования показывают, что при передаче знаний из большой модели, такой как Llama3.2 3B, на модель, использующую иной токенизатор, например Qwen2, возникает существенный разрыв в представлении информации. Это приводит к тому, что студентская модель не может в полной мере усвоить знания от учителя, что выражается в снижении точности и эффективности. Такое несоответствие в словарях препятствует эффективной передаче знаний и ограничивает возможности сжатия моделей без потери качества.

Перенос модели Llama 3.2 3B (Meta, 2024) на токенизатор Qwen2 (Yang et al., 2024) показал результаты, сравнимые с оригинальной моделью на задачах ARC-Challenge, AGIEval (английская и китайская версии).

Байт за байтом: Новый фундамент для передачи знаний

Байт-уровневая дистилляция обходит проблему несовпадения словарей путем непосредственной работы с байтовым представлением текста. Вместо оперирования токенами, модель обучается предсказывать следующий байт в последовательности, что позволяет избежать ограничений, связанных с различиями в токенизаторах. Это означает, что модель учится понимать и воспроизводить текст на самом низком уровне представления, не полагаясь на конкретный словарь или правила токенизации, используемые исходной моделью-учителем. Таким образом, байт-уровневая дистилляция обеспечивает возможность передачи знаний между моделями, использующими совершенно разные подходы к токенизации, что повышает гибкость и эффективность процесса обучения.

В архитектуру студенческой модели интегрируется байтовый декодер, позволяющий предсказывать следующий байт в последовательности, независимо от используемой токенизации. Это достигается путем обработки текста не на уровне токенов, а на уровне отдельных байтов, что устраняет необходимость в сопоставлении словарей между учителем и студентом. Байтовый декодер оперирует непосредственно с бинарным представлением текста, позволяя модели изучать распределение вероятностей байтов и генерировать текст на этом уровне. Использование байтового декодера позволяет студенческой модели независимо от токенизации учителя эффективно усваивать знания, представленные в обучающих данных.

Байт-уровневая дистилляция позволяет передавать знания между моделями, использующими принципиально разные токенизаторы, что обеспечивает большую гибкость и эффективность. В отличие от традиционных методов, требующих согласования или преобразования словарных запасов, данный подход работает непосредственно с байтовым представлением текста, обходя проблему несовместимости токенов. Практические результаты демонстрируют, что байт-уровневая дистилляция достигает сопоставимой производительности с более сложными методами кросс-токенизаторной дистилляции, при этом значительно упрощая процесс обучения и снижая вычислительные затраты.

Обучение байтового декодера: Детальный подход

Декодер, работающий на уровне байтов, обучается с использованием функции потерь, основанной на предсказании следующего байта в последовательности. Этот процесс предполагает минимизацию разницы между предсказанными вероятностями байтов и фактической последовательностью байтов, представляющей входной текст. Обучение заключается в оптимизации параметров модели для повышения вероятности правильного предсказания следующего байта, основываясь на предыдущих байтах в последовательности. Эффективно, модель стремится смоделировать вероятностное распределение байтов, встречающихся в обучающих данных, и уменьшить кросс-энтропию между предсказанным и истинным распределениями. Таким образом, модель учится прогнозировать следующий байт, исходя из контекста предыдущих байтов, что позволяет ей генерировать новые последовательности байтов, имитирующие обучающий набор данных.

В процессе обучения декодера используется дивергенция Кулбака-Лейблера (KL-дивергенция) для выравнивания вероятностных распределений, генерируемых моделью-учителем и моделью-учеником на уровне байтов. KL-дивергенция измеряет разницу между двумя вероятностными распределениями; минимизация этой величины заставляет распределение, предсказываемое моделью-учеником, приближаться к распределению, выдаваемому моделью-учителем. Это позволяет модели-ученику эффективно перенимать знания от модели-учителя, улучшая точность прогнозирования следующих байтов в последовательности и обеспечивая более эффективное обучение без учителя. $D_{KL}(P||Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}$ .

Обучение декодера непосредственно на уровне байтов позволяет ему формировать устойчивое и обобщенное представление входного текста. Вместо работы с токенами или словами, декодер анализирует последовательность байтов, что делает его независимым от конкретного языка или кодировки. Такой подход позволяет декодеру эффективно обрабатывать данные, содержащие опечатки, неформатированный текст или символы, не входящие в стандартные словари. Обработка на уровне байтов обеспечивает более гибкое и универсальное понимание структуры данных, что способствует улучшению обобщающей способности модели и ее устойчивости к различным видам шума и искажений во входных данных.

Формализация соответствия: Лемма о представлении байтов и токенов

Лемма о представлении байтов и токенов устанавливает формальное соответствие между распределением токенов, усвоенным моделью, и ее эквивалентным байт-уровневым распределением. Данное соответствие позволяет рассматривать внутренние представления модели не только на уровне привычных токенов, но и на более низком уровне — отдельных байтов, составляющих эти токены. Такой подход открывает возможность анализа и сравнения моделей, использующих различные токенизаторы, поскольку байтовое представление служит общим знаменателем. По сути, лемма формализует идею о том, что информация, закодированная в токенах, также присутствует в их байтовом представлении, что позволяет проводить более глубокий анализ и оптимизацию моделей обработки естественного языка.

Предложенная структура позволяет проводить детальный анализ и сопоставление представлений, формируемых моделями, использующими различные токенизаторы. Вместо рассмотрения токенов как абстрактных единиц, подход фокусируется на их эквивалентах на уровне байтов, что обеспечивает унифицированную основу для сравнения. Это особенно важно, учитывая разнообразие существующих токенизаторов, каждый из которых по-своему разбивает текст на части. Благодаря возможности сопоставления байтовых распределений, исследователи могут объективно оценивать, как различные архитектуры токенизации влияют на способность модели к обобщению и пониманию языка, выявляя сильные и слабые стороны каждого подхода и способствуя развитию более эффективных методов обработки естественного языка.

Понимание формального соответствия между распределением токенов и байт-уровневым представлением открывает возможности для разработки более эффективных стратегий дистилляции знаний. Используя это соответствие, исследователи могут оптимизировать процесс передачи знаний от большой модели к меньшей, даже если они используют различные токенизаторы. Это особенно важно в задачах кросс-токенизаторной дистилляции, где целью является обучение модели с новым токенизатором, используя знания, полученные моделью с другим токенизатором. Оптимизация этого процесса позволяет значительно повысить производительность модели-студента, приближая ее к производительности исходной модели, несмотря на различия в способе представления текста. Таким образом, формальное соответствие между токенами и байтами становится ключевым инструментом для улучшения и расширения возможностей дистилляции знаний в области обработки естественного языка.

Универсализация дистилляции: Расширение до сложных токенизаторов

Универсальная дистилляция логитов представляет собой развитие байт-уровневой дистилляции, в которой для выравнивания словарей используется теория оптимального транспорта. Данный подход позволяет эффективно переносить знания между моделями, даже если их схемы токенизации и размеры словарей существенно различаются. Вместо прямого сопоставления токенов, оптимальный транспорт определяет наиболее эффективный способ «перемещения» вероятностей между исходным и целевым словарями, минимизируя «стоимость» несоответствий. Это обеспечивает более точную передачу знаний и позволяет обучать компактные модели, сохраняя при этом высокую производительность, даже в условиях значительных различий в архитектуре и данных исходных моделей.

Возможность эффективной передачи знаний между моделями, использующими существенно различающиеся схемы токенизации и размеры словарей, является ключевым достижением данного подхода. Традиционно, обучение “студента” у “учителя” затруднялось при несовпадении способов разбиения текста на части и, как следствие, различиях в представлении информации. Однако, применяя оптимальную транспортную теорию для выравнивания словарей, удается установить соответствие между токенами, даже если их количество и состав значительно отличаются. Это позволяет “студенту” успешно усваивать знания от “учителя”, не теряя при этом производительности, и открывает новые перспективы для создания компактных и эффективных языковых моделей, способных адаптироваться к различным условиям и задачам обработки естественного языка.

Полученные результаты демонстрируют, что предложенный метод, сопоставимый по эффективности с более сложными подходами к дистилляции знаний, такими как контролируемая дистилляция токенов (CTD), открывает новые горизонты для сжатия моделей и обмена знаниями в широком спектре задач обработки естественного языка. Достигнутая конкурентоспособность при значительно меньшей вычислительной сложности позволяет эффективно переносить знания от больших, ресурсоемких моделей к компактным, что особенно важно для развертывания на устройствах с ограниченными ресурсами. Это, в свою очередь, способствует развитию более доступных и эффективных систем обработки текста, расширяя возможности применения искусственного интеллекта в различных областях — от мобильных приложений до специализированных задач анализа данных.

Исследование демонстрирует стремление обойти ограничения, наложенные существующими системами токенизации. Авторы предлагают подход, который, по сути, взламывает привычные рамки, переводя процесс дистилляции знаний на байтовый уровень. Это позволяет обойти необходимость согласования токенизаторов, что напоминает принцип, сформулированный Дональдом Кнутом: «Преждевременная оптимизация — корень всех зол». В данном контексте, стремление к немедленной совместимости токенизаторов могло бы стать препятствием для эффективной передачи знаний. Вместо этого, предложенный подход позволяет обойти эту проблему, фокусируясь на более фундаментальном уровне представления данных — байтах, что открывает новые возможности для дистилляции знаний между моделями.

Что дальше?

Предложенный подход к дистилляции знаний через байтовый интерфейс, безусловно, открывает новые возможности для взаимодействия между языковыми моделями, но, как и любое элегантное решение, лишь подсвечивает глубину лежащих проблем. Вместо того, чтобы пытаться согласовать постоянно эволюционирующие токенизаторы — эту бесконечную гонку вооружений — система смещает фокус на фундаментальное представление данных. Однако, следует признать, что байтовое представление — это лишь одна из возможных абстракций, и истинная универсальность кроется, вероятно, в создании мета-токенизатора, способного динамически адаптироваться к различным моделям.

Очевидным направлением для дальнейших исследований является расширение области применения данного метода. Дистилляция знаний между моделями, обученными на принципиально разных данных или архитектурах, представляет собой нетривиальную задачу, и байтовый интерфейс может стать ключевым инструментом для её решения. Впрочем, каждый “патч” — это философское признание несовершенства, и каждое новое улучшение лишь подчеркивает, насколько далеки мы от создания действительно универсальной модели.

В конечном счете, эта работа заставляет задуматься о самой природе токенизации. Является ли она необходимой ступенью в обработке языка, или же существует более изящный способ представления информации, минующий эту стадию? И, возможно, лучший хак — это осознанность того, как всё работает, ведь понимание системы — это её взлом, будь то умом или руками.

Оригинал статьи: https://arxiv.org/pdf/2604.07466.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-19 08:46

🚀 Квантовые новости