Восстановление документов: новый взгляд с помощью диффузионных моделей

Автор: Денис Аветисян

Исследователи предлагают принципиально новый подход к оптическому распознаванию символов в документах, основанный на принципах диффузии и параллельного декодирования.

Модель преобразует двумерное изображение документа в одномерную последовательность токенов, используя как авторегрессивные, так и диффузионные методы декодирования, что позволяет восстановить исходный текст.

Представлена MinerU-Diffusion — платформа для распознавания документов, использующая диффузионные модели, маскированное диффузионное декодирование и двухэтапное обучение с учебным планом.

Несмотря на значительный прогресс в области оптического распознавания символов (OCR), современные системы часто сталкиваются с трудностями при обработке сложных документов, содержащих таблицы, формулы и нестандартную разметку. В работе ‘MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding’ предложен новый подход, рассматривающий задачу OCR как обратную задачу рендеринга, реализуемый посредством диффузионной модели. В основе MinerU-Diffusion лежит замена последовательного авторегрессионного декодирования на параллельное шумоподавление, что обеспечивает повышение скорости и устойчивости распознавания. Способен ли такой подход открыть новые горизонты в понимании и обработке структурированных документов, значительно превосходя традиционные методы?

Ограничения Последовательного Декодирования в OCR Документов

Традиционные системы оптического распознавания символов (OCR) для документов в значительной степени опираются на модели «Зрение-Язык» (VLMs), использующие авторегрессионное декодирование. Этот подход подразумевает последовательную обработку текста — каждое распознанное слово или символ влияет на предсказание следующего. По сути, модель строит текст по одному элементу за раз, подобно тому, как человек пишет от руки. Несмотря на свою эффективность в задачах обработки естественного языка, такая последовательность ограничивает способность системы учитывать всю структуру документа одновременно, что может приводить к ошибкам и снижению общей производительности, особенно в сложных макетах с таблицами, списками и графическими элементами.

Последовательная обработка текста, лежащая в основе многих современных систем оптического распознавания символов (OCR) для документов, вносит существенные ограничения в эффективность работы. Традиционные модели, оперирующие авторегрессионным декодированием, анализируют текст слово за словом, игнорируя присущую документам параллельную структуру. Это подобно чтению книги, сосредотачиваясь лишь на одном предложении за раз, вместо одновременного восприятия общей композиции и взаимосвязей между абзацами. Такой подход не позволяет в полной мере использовать информацию, заложенную в визуальном макете документа, и снижает скорость обработки, особенно в случаях сложных или больших документов. Неспособность улавливать параллельные зависимости между различными элементами текста приводит к увеличению вычислительных затрат и потенциальным ошибкам в распознавании, поскольку контекст из последующих частей документа не учитывается в полной мере при анализе текущей.

Существующие методы оптического распознавания документов (OCR) демонстрируют уязвимость при нарушении семантической структуры текста. Это подтверждается результатами тестов, таких как Semantic Shuffle, где производительность значительно снижается. В частности, наблюдается отставание от результатов, показанных моделью MinerU-Diffusion на комплексном бенчмарке OmniDocBench, где она достигла показателя в 88.94%. Данное несоответствие указывает на то, что традиционные подходы к OCR испытывают трудности с пониманием и восстановлением смысла документа при наличии даже незначительных изменений в порядке расположения элементов, что подчеркивает необходимость разработки более устойчивых и контекстно-зависимых методов распознавания.

Метод MinerU-Diffusion обеспечивает ускорение до 3.26× благодаря контролю порога уверенности и поддерживает эффективный компромисс между точностью и скоростью, достигая ускорения в 2.12× при точности 99.9% и 3.01× при 98.8%, используя параллельную реконструкцию структурированного текста из замаскированных токенов под визуальным контролем, в отличие от последовательного авторегрессионного декодирования.

MinerU-Diffusion: Параллельный Подход к Декодированию

MinerU-Diffusion представляет собой новую структуру для оптического распознавания символов (OCR) документов, осуществляющую переход от авторегрессионного декодирования к подходу, основанному на диффузионных моделях. Традиционные авторегрессионные модели последовательно генерируют выходные данные, что ограничивает возможности параллелизации и, следовательно, скорость обработки. В отличие от них, MinerU-Diffusion использует диффузионные языковые модели (DLM) для обработки документа как единого целого, позволяя параллельно уточнять различные блоки документа. Этот переход к диффузионному подходу позволяет значительно повысить эффективность процесса OCR за счет одновременной обработки данных, в отличие от последовательной генерации, характерной для авторегрессионных моделей.

В основе MinerU-Diffusion лежит использование диффузионных языковых моделей (DLM) и блочной диффузии, позволяющих осуществлять параллельную обработку и уточнение блоков документа. В отличие от последовательного, авторегрессивного декодирования, применяемого в предыдущих методах, данная архитектура позволяет одновременно обрабатывать различные части документа, что значительно повышает эффективность. Экспериментальные результаты показывают, что MinerU-Diffusion обеспечивает ускорение декодирования в диапазоне от 2.12x до 3.26x по сравнению с существующими подходами, благодаря возможности параллельной обработки блоков.

Система MinerU-Diffusion использует стратегию Confidence-Guided Scheduling для оптимизации процесса декодирования и повышения качества выходных данных. Данный подход заключается в динамической настройке графика шумоподавления на основе оценки уверенности модели в каждом блоке документа. Блоки с низкой уверенностью обрабатываются более интенсивно, с большим количеством итераций шумоподавления, для повышения точности. Напротив, блоки с высокой уверенностью подвергаются меньшему количеству итераций, что позволяет снизить вычислительные затраты и ускорить декодирование без ущерба для общей производительности. Такой адаптивный подход позволяет эффективно распределять вычислительные ресурсы и максимизировать качество распознавания текста в различных частях документа.

Модель MinerU-Diffusion обучается предсказывать скрытые токены в последовательности, используя визуальный контекст и подсказки, при этом структура маски внимания позволяет параллельно уточнять токены внутри блоков, сохраняя при этом последовательную обработку между ними.

Принципы, лежащие в основе: Маскированная Диффузия и Детерминированное Отображение

В основе MinerU-Diffusion лежит метод маскированной диффузии, который заключается в последовательной замене токенов входной последовательности масками. Этот процесс позволяет распараллелить обработку данных, поскольку каждый замаскированный токен может быть обработан независимо от других. Постепенное увеличение числа масок позволяет модели фокусироваться на предсказании скрытых токенов на разных этапах диффузионного процесса, что способствует более эффективному обучению и генерации последовательностей. Использование маскирования является ключевым для масштабируемости и повышения производительности модели при работе с большими объемами текстовых данных.

В основе подхода, используемого в MinerU-Diffusion, лежит принцип условной независимости. Этот принцип предполагает, что каждый токен в последовательности является независимым от других токенов, при условии знания входных данных и уже обработанной (частично наблюдаемой) последовательности. Формально, это означает, что вероятность появления токена $x_i$ зависит только от входных данных $I$ и предыдущих токенов x_{

Эффективность маскированной диффузии в MinerU-Diffusion усиливается благодаря почти однозначному соответствию между текстовым и визуальным содержимым, характерному для хорошо структурированных документов. Это означает, что каждый фрагмент текста надежно отображается на конкретный элемент изображения, и наоборот. Такое детерминированное отображение позволяет модели эффективно использовать замаскированные участки для параллельной обработки, поскольку предсказание скрытого токена существенно упрощается, учитывая четкую связь между текстом и изображением. Отсутствие неоднозначности в отображении значительно снижает вычислительную сложность и повышает точность генерации.

Применение диффузионного декодирования позволяет эффективно распознавать текст.

Проверка и Производительность на OmniDocBench

Модель MinerU-Diffusion подверглась тщательной проверке на OmniDocBench - всестороннем критерии оценки производительности систем разбора документов. Данный бенчмарк включает в себя разнообразные типы документов и задачи, что позволяет комплексно оценить способность модели к извлечению информации и структурированию данных. Использование OmniDocBench в качестве эталона позволило объективно сравнить MinerU-Diffusion с существующими методами, продемонстрировав её преимущества в обработке сложных документов и точности распознавания информации. Результаты, полученные на OmniDocBench, подтверждают эффективность предложенного подхода к решению задач анализа документов и открывают перспективы для дальнейшего совершенствования систем автоматической обработки данных.

Исследования показали значительное превосходство MinerU-Diffusion над существующими методами в области анализа документов, что подтверждается результатом в 88.94 балла по комплексному бенчмарку OmniDocBench. Данный показатель свидетельствует об эффективности предложенного подхода, основанного на параллельном декодировании и маскированной диффузии. Параллельное декодирование позволяет обрабатывать различные части документа одновременно, значительно ускоряя процесс, а маскированная диффузия способствует более точному восстановлению и интерпретации информации, даже при наличии шумов или неполных данных. Сочетание этих технологий демонстрирует потенциал для создания более быстрых и надежных систем анализа документов, способных эффективно работать с разнообразными форматами и источниками информации.

Применение двухэтапного обучения с учебным планом позволило значительно улучшить процесс тренировки модели и повысить её способность к обобщению и устойчивости. Результаты тестов на наборе данных OCRBench v2 продемонстрировали показатель TEDS в 81.18, что свидетельствует о высокой точности распознавания текста. Кроме того, модель превзошла GPT-4o, достигнув показателя CDM в 91.6 на тестовом наборе UniMER-Test, подтверждая её превосходство в задачах понимания и обработки документов. Данный подход к обучению способствует формированию более надежной и эффективной системы, способной адаптироваться к различным типам и форматам документов.

Двухэтапная стратегия обучения обеспечивает более плавную оптимизацию и более высокую конечную точность по сравнению с одноэтапными подходами.

Представленная работа демонстрирует элегантность подхода к оптическому распознаванию символов, переосмысливая задачу как процесс обратного рендеринга с использованием диффузионных моделей. Этот метод, в отличие от авторегрессионных, позволяет добиться конкурентоспособной производительности и эффективности благодаря параллельному декодированию и двухэтапному обучению с учебным планом. Как однажды заметил Джеффри Хинтон: «Я думаю, что люди должны быть открыты для идей, которые противоречат их интуиции». Именно такой подход к переосмыслению устоявшихся методов и позволил создать MinerU-Diffusion, предлагая новый взгляд на проблему распознавания документов и подчеркивая важность инноваций в области машинного обучения.

Что Дальше?

Представленная работа, безусловно, демонстрирует элегантность подхода, заменяя прямолинейное, авторигрессивное построение изображения документа более тонким процессом обратного рендеринга через диффузию. Однако, не стоит обманываться кажущейся гармонией. Вопрос не в том, можно ли декодировать документ параллельно, а в том, насколько эффективно это происходит в условиях реальной, шумной документации. Несовершенство разметки, искажения, артефакты - всё это шепчет о необходимости дальнейшей шлифовки, о поиске более устойчивых к шуму методов.

Очевидным направлением представляется исследование возможностей интеграции MinerU-Diffusion с более крупными, мультимодальными моделями. Документ редко существует сам по себе; он обычно вплетен в ткань более широкого контекста. Способность учитывать этот контекст, понимать намерения, скрытые за текстом, - вот где кроется истинный потенциал. Иначе, даже самый изящный алгоритм останется лишь умелым ремесленником, а не настоящим художником.

В конечном счете, прогресс в области оптического распознавания символов - это не просто гонка за точностью. Это поиск баланса между скоростью, эффективностью и, что самое главное, способностью понимать. Истинный дизайн шепчет, а не кричит, и в этом шепоте должна быть заключена глубина понимания, а не просто набор цифр.

Оригинал статьи: https://arxiv.org/pdf/2603.22458.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-25 12:54

🚀 Квантовые новости