Миниатюрный поиск по изображениям: как сжать огромную модель в 70 миллионов параметров

Автор: Денис Аветисян

Новый подход позволяет добиться почти такой же точности поиска по визуальным документам, используя лишь компактный текстовый энкодер, значительно снижая вычислительные затраты.

Архитектура NanoVDR демонстрирует значительное ускорение поиска информации - до 143 раз снижение задержки на CPU по сравнению с традиционными системами VDR, достигаемое за счет разделения процессов индексации документов (с использованием замороженной большой языковой модели) и онлайн-кодирования запросов, выполняемого дистиллированной текстовой моделью размером всего 70 миллионов параметров, при этом сохраняется сопоставимая точность, подтвержденная на бенчмарке ViDoRe. — Архитектура NanoVDR демонстрирует значительное ускорение поиска информации — до 143 раз снижение задержки на CPU по сравнению с традиционными системами VDR, достигаемое за счет разделения процессов индексации документов (с использованием замороженной большой языковой модели) и онлайн-кодирования запросов, выполняемого дистиллированной текстовой моделью размером всего 70 миллионов параметров, при этом сохраняется сопоставимая точность, подтвержденная на бенчмарке ViDoRe.

Метод NanoVDR использует дистилляцию знаний для сжатия двухмиллиардной мультимодальной модели до компактного текстового энкодера для асимметричного поиска по визуальным документам.

Несмотря на впечатляющий прогресс в области поиска визуальных документов, современные модели требуют значительных вычислительных ресурсов даже для обработки простых текстовых запросов. В работе ‘NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval’ предложен инновационный подход, заключающийся в дистилляции знаний из большой мультимодальной модели в компактный текстовый энкодер, способный эффективно обрабатывать запросы. Полученный NanoVDR-S-Multi (DistilBERT, 69M параметров) достигает 95.1% качества исходной модели при этом в 32 раза меньше по размеру и в 50 раз быстрее в обработке запросов. Сможет ли подобный подход открыть путь к созданию высокопроизводительных систем поиска визуальных документов, доступных для широкого круга пользователей и устройств?

Преодолевая Границы Масштабируемости в Поиске Визуальных Документов

Традиционные системы поиска информации по визуальным документам, использующие модели «зрение-язык», демонстрируют высокую эффективность в извлечении релевантных данных. Однако, эта производительность достигается ценой значительных вычислительных затрат. Увеличение размера моделей, необходимое для повышения точности и понимания сложных визуальных сцен, приводит к экспоненциальному росту требований к памяти и вычислительной мощности. Это создает серьезные препятствия для внедрения подобных систем в практические приложения с ограниченными ресурсами, где важна не только точность, но и скорость обработки запросов. Поэтому, оптимизация архитектуры и методов обучения этих моделей становится ключевой задачей для обеспечения их масштабируемости и доступности.

Эффективный поиск документов предъявляет высокие требования к скорости и точности, что становится особенно сложной задачей для приложений с ограниченными вычислительными ресурсами. Достижение оптимального баланса между этими двумя параметрами является ключевой проблемой, поскольку увеличение точности часто связано с ростом вычислительных затрат и, следовательно, с увеличением времени отклика. Для многих практических сценариев, таких как мобильные приложения или системы мгновенного поиска, критически важно обеспечить быстрый доступ к релевантной информации, даже если это требует некоторого компромисса в точности. Таким образом, разработка методов, позволяющих эффективно масштабировать системы поиска документов без существенного увеличения времени обработки запросов, представляет собой важную область исследований.

Масштабирование моделей для обработки визуальных документов в реальных условиях представляет собой сложную задачу, требующую инновационных подходов для сохранения производительности без экспоненциального роста вычислительных затрат. Современные системы, такие как DSE-Qwen2 и ColPali, демонстрируют значительное время задержки при обработке запросов — 2.5 и 7.3 секунды соответственно. Такие показатели ограничивают их применимость в задачах, требующих быстрого отклика, например, в интерактивном поиске или системах, работающих в режиме реального времени. Разработка эффективных методов, позволяющих уменьшить время задержки и снизить потребность в вычислительных ресурсах, является ключевым направлением исследований в области извлечения информации из визуальных документов.

Обучение NanoVDR с помощью дистилляции, ориентированной на запросы, позволяет студенческой текстовой кодировке минимизировать <span class="katex-eq" data-katex-display="false">\mathcal{L}_{\text{align}}=1-\cos(\mathbf{v}^{Q}_{t},\mathbf{v}^{Q}_{s})</span> путём сопоставления эмбеддингов запросов, полученных от замороженной VLM-модели-учителя, без использования изображений документов или негативной выборки. — Обучение NanoVDR с помощью дистилляции, ориентированной на запросы, позволяет студенческой текстовой кодировке минимизировать $\mathcal{L}_{\text{align}}=1-\cos(\mathbf{v}^{Q}_{t},\mathbf{v}^{Q}_{s})$ путём сопоставления эмбеддингов запросов, полученных от замороженной VLM-модели-учителя, без использования изображений документов или негативной выборки.

NanoVDR: Дистилляция Знаний для Эффективного Поиска

NanoVDR использует метод дистилляции знаний (Knowledge Distillation) для переноса способностей большой модели-учителя, Qwen3-VL-Embedding-2B, в компактную модель-ученика, DistilBERT. Этот процесс предполагает обучение DistilBERT имитировать поведение Qwen3-VL-Embedding-2B, эффективно перенося приобретенные знания и навыки в модель значительно меньшего размера. Дистилляция позволяет сохранить высокую производительность при значительном снижении вычислительных затрат и требований к памяти, что делает NanoVDR подходящим для задач, требующих эффективного поиска и извлечения информации.

Процесс обучения NanoVDR включает в себя тренировку студенческой модели (DistilBERT) для имитации поведения большой учительской модели (Qwen3-VL-Embedding-2B) посредством знания дистилляции. Особое внимание уделяется воспроизведению кодировок запросов (Query Encoding) и представлений документов. Это достигается путем минимизации расхождения между выходами студенческой и учительской моделей при обработке одних и тех же запросов и документов, что позволяет студенческой модели усвоить знания, закодированные в учительской модели, при значительно меньшем размере.

NanoVDR использует текстовый энкодер для обработки как запросов, так и документов, что упрощает конвейер поиска и снижает вычислительные затраты. В отличие от альтернативных подходов, требующих больших моделей, NanoVDR достигает размера всего 274МБ, что значительно меньше, чем у ColPali (11.9ГБ) и DSE-Qwen2 (35.1ГБ). Применение исключительно текстового энкодера позволяет уменьшить сложность модели и повысить эффективность процесса извлечения информации без значительной потери качества.

Обучение NanoVDR-S демонстрирует быстрое насыщение: значительное улучшение метрики NDCG@5 наблюдается лишь на первых 25% обучающих данных, после чего прирост становится незначительным, что подтверждается верхней границей, установленной обучением учителя.

Оптимизация Процесса Дистилляции: Выравнивание Встраиваний и Ранжирование

В основе NanoVDR лежит стратегия дистилляции, ориентированная на запрос (Query-Centric Distillation). Данный подход предполагает приоритетное выравнивание векторных представлений запросов (query embeddings) между учительской (teacher) и студенческой (student) моделями. Это достигается путем передачи знаний от более крупной, точной учительской модели к компактной студенческой, фокусируясь именно на согласованности представления запросов. В отличие от дистилляции, ориентированной на выходные данные, NanoVDR стремится к тому, чтобы студенческая модель генерировала векторные представления запросов, максимально близкие к представлениям, создаваемым учительской моделью, что позволяет сохранить релевантность результатов поиска даже при значительном уменьшении размера модели.

Для обучения студенческой модели в NanoVDR используются две функции потерь: функция выравнивания (Alignment Loss) и функция ранжирования (Ranking Loss). Функция выравнивания направлена на сближение векторных представлений запросов (query embeddings) между учительской и студенческой моделями, минимизируя расстояние между ними. Функция ранжирования оптимизирует порядок документов в результатах поиска, обеспечивая более высокое ранжирование релевантных документов. Комбинация этих функций потерь позволяет студенческой модели не только воспроизводить векторные представления запросов, близкие к учительской, но и корректно оценивать релевантность документов, даже при значительно меньшем размере модели.

В NanoVDR для оценки релевантности документов используется косинусное сходство $cosine\_similarity$ , что обеспечивает эффективную и точную оценку даже при использовании сжатой модели-студента. Достигнутая задержка обработки запросов составляет 51 мс, что демонстрирует ускорение в 50 раз по сравнению с DSE-Qwen2 и в 143 раза по сравнению с ColPali. Использование косинусного сходства позволяет быстро вычислять степень соответствия между запросом и документами, минимизируя вычислительные затраты и обеспечивая высокую скорость отклика системы.

Трансфер Знаний и Оценка Эффективности

Модель NanoVDR демонстрирует впечатляющую способность к переносу знаний между языками, позволяя эффективно работать с данными на различных языках без необходимости отдельного обучения для каждого из них. Это достигается путем расширения обучающей выборки путем добавления машинных переводов, созданных с использованием системы Helsinki-NLP Opus-MT. Благодаря этому подходу, модель способна обобщать информацию, полученную на одном языке, и успешно применять ее к данным на других языках, значительно повышая свою универсальность и эффективность в многоязычных задачах. В конечном итоге, NanoVDR, подобно любому инструменту, раскрывает свой потенциал в условиях разнообразия и адаптации.

Эффективность предложенного фреймворка была всесторонне проверена на бенчмарке ViDoRe, что позволило продемонстрировать его конкурентоспособность по сравнению с более крупными моделями. Результаты тестов показали высокие значения метрики NDCG@5, достигающие 82.2, 61.9 и 46.5 на версиях ViDoRe v1, v2 и v3 соответственно. Примечательно, что разработанная система сохраняет 95.1% производительности эталонной модели, что свидетельствует о её способности эффективно решать задачи поиска и извлечения информации при значительно меньших вычислительных затратах.

В основе NanoVDR лежит принцип использования единого векторного представления документов, что значительно упрощает процесс индексации и ускоряет поиск релевантной информации. В отличие от многих других систем, требующих сложных вычислений и больших объемов памяти, NanoVDR позволяет создавать компактные индексы, обеспечивая быстрый доступ к данным. Примечательно, что для обучения данной модели требуется менее 13 GPU-часов, что делает её доступной для широкого круга исследователей и практиков, даже при ограниченных вычислительных ресурсах. Эта эффективность — не просто оптимизация, это демократизация доступа к передовым технологиям.

Исследование NanoVDR демонстрирует стремление к предельной эффективности в извлечении информации из визуальных документов. Авторы, подобно опытным инженерам, подвергли сложную систему — большую модель vision-language — процессу дистилляции знаний, выжимая из неё суть и заключая в компактный текстовый энкодер. Это напоминает подход к реверс-инжинирингу, когда необходимо понять внутреннюю структуру сложного механизма, чтобы оптимизировать его работу. Как однажды заметила Барбара Лисков: «Программы должны быть разработаны так, чтобы изменения в одной части не оказывали нежелательного воздействия на другие» — и NanoVDR, судя по всему, следует этому принципу, обеспечивая высокую производительность при минимальных затратах ресурсов, а также сохраняя функциональность исходной модели.

Куда Ведет Эта Тропа?

Представленная работа демонстрирует изящный способ обхода необходимости в громоздких мультимодальных моделях. Дистилляция знаний в компактный текстовый энкодер — это не просто оптимизация, это признание того, что информация, в конечном счете, может быть представлена в более фундаментальной форме. Однако, возникает вопрос: насколько универсален этот подход? Ограничена ли эффективность NanoVDR спецификой визуального поиска документов, или принципы дистилляции могут быть применены к более широкому спектру задач, требующих обработки разнородных данных?

Представляется важным исследовать границы применимости данной техники. Способность модели сохранять производительность при столь значительном уменьшении размера наводит на мысль о скрытых избыточностях в современных больших моделях. Понимание этих избыточностей — задача, требующая дальнейшего анализа. Кроме того, стоит обратить внимание на потенциал асимметричного поиска — возможно ли создать еще более эффективные системы, где энкодер текста и изображения будут принципиально отличаться по архитектуре и сложности?

В конечном итоге, NanoVDR — это не столько конечная точка, сколько отправная. Это напоминание о том, что истинный прогресс часто заключается не в увеличении масштаба, а в поиске элегантных решений, позволяющих извлечь максимум информации из минимума ресурсов. И как всегда, самое интересное — то, что скрывается за пределами очевидного.

Оригинал статьи: https://arxiv.org/pdf/2603.12824.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-16 14:58

🚀 Квантовые новости