Документы под контролем: извлечение данных нового поколения

Автор: Денис Аветисян

Новый подход к оптическому распознаванию символов позволяет извлекать не только текст, но и визуальные элементы документов, превращая их в структурированный, повторно используемый код.

Система MOCR преобразует изображение документа в упорядоченные текстовые представления, сохраняя как текст, так и визуальную структуру, что обеспечивает точное воссоздание исходного документа.

Исследование представляет Multimodal OCR — систему, восстанавливающую текст и визуальные компоненты документов в виде векторной графики SVG для более глубокого понимания и автоматизации обработки.

Традиционные системы оптического распознавания символов (OCR) зачастую ограничиваются лишь извлечением текста, игнорируя важную визуальную информацию в документах. В работе ‘Multimodal OCR: Parse Anything from Documents’ представлена новая парадигма — Multimodal OCR (MOCR), которая позволяет одновременно обрабатывать и текст, и графические элементы, преобразуя их в структурированные представления, включая векторную графику SVG. Этот подход позволяет не только более точно реконструировать документы, но и использовать визуальные компоненты как источник дополнительной информации для обучения моделей, открывая путь к созданию масштабных корпусов данных для мультимодального обучения. Не станет ли MOCR ключевым шагом к созданию интеллектуальных систем, способных полноценно понимать и использовать информацию, представленную в документах любого формата?

Преодолевая границы пикселей: ограничения традиционного разбора документов

Традиционные методы обработки документов часто рассматривают их как простые изображения, лишаясь при этом ценной структурной информации. Такой подход, основанный на растровом представлении, игнорирует логическую организацию текста, взаимосвязь заголовков, абзацев, таблиц и графических элементов. В результате, системы теряют способность к сложному анализу и извлечению смысла, ограничиваясь лишь распознаванием отдельных символов. Потеря структурного контекста существенно снижает точность автоматического понимания документов и препятствует решению задач, требующих глубокого анализа и логических выводов, например, при поиске ответов на вопросы или автоматическом заполнении форм.

Обработка документов, основанная на анализе изображений, существенно ограничивает точность извлечения информации и препятствует развитию автоматизированного понимания документов. Вместо интерпретации текстовой структуры и логической организации, такие методы рассматривают документ как набор пикселей, теряя критически важные сведения о заголовках, таблицах и взаимосвязях между элементами. Это приводит к ошибкам при распознавании текста, неправильной интерпретации данных и, как следствие, к невозможности полноценного автоматического анализа. Вместо понимания смысла документа, системы, использующие подобный подход, вынуждены полагаться на визуальные подсказки, что делает их крайне уязвимыми к изменениям в форматировании или качеству изображения, и существенно снижает эффективность обработки сложных документов.

Современные методы обработки документов часто сталкиваются с трудностями при интерпретации их сложной структуры, включающей в себя разнообразные макеты, таблицы и графические элементы. Вместо анализа логической организации информации, системы зачастую воспринимают документ как растровое изображение, что препятствует точному извлечению данных и пониманию взаимосвязей между ними. Особенно проблематичны таблицы, где определение границ ячеек и правильное сопоставление данных требует сложного алгоритмического подхода, а также графические элементы, интерпретация которых требует распознавания не только формы, но и семантического значения. Эта сложность ограничивает возможности автоматизированного анализа документов и снижает эффективность систем интеллектуальной обработки данных, требуя разработки более совершенных методов, способных учитывать структурную организацию документов.

Современные методы обработки документов часто сталкиваются с ограничениями, обусловленными представлением документов как растровых изображений. Вместо анализа внутренней структуры — логической организации текста, таблиц и графики — эти методы полагаются на распознавание отдельных пикселей. Такой подход приводит к потере ценной информации о взаимосвязях между элементами документа и затрудняет автоматическое извлечение знаний. Возникает потребность в принципиально новых подходах, которые способны выходить за рамки простого растеризованного представления и учитывать сложную, многоуровневую структуру, заложенную в самих документах. Это позволит не только повысить точность извлечения информации, но и открыть возможности для более глубокого понимания содержания документов автоматизированными системами.

В отличие от традиционного OCR, который рассматривает графику как набор пикселей и часто отбрасывает ее, MOCR анализирует графику, преобразуя ее в структурированный код (например, SVG), что обеспечивает точную реконструкцию и расширяет возможности дальнейшей обработки.

MOCR: Структурированные данные как ключ к пониманию документов

MOCR представляет собой новый подход к разбору документов, ориентированный на восстановление структурированных данных — текста, макета, таблиц и графики — в отличие от традиционных систем оптического распознавания символов (OCR), которые фокусируются исключительно на распознавании отдельных символов. Вместо простого преобразования изображения в текст, MOCR стремится создать цифровое представление документа, сохраняющее его структуру и взаимосвязи между элементами. Это позволяет не только извлекать текстовую информацию, но и понимать организацию документа, что критически важно для автоматизированной обработки и анализа.

Представление документов в виде структурированных данных позволяет MOCR значительно повысить точность извлечения информации и проведения сложных логических выводов. В отличие от традиционных методов, оперирующих лишь распознанным текстом, MOCR идентифицирует и структурирует различные элементы документа — текст, таблицы, изображения — устанавливая связи между ними. Это позволяет не только извлекать конкретные данные, но и понимать их контекст и взаимосвязи, что необходимо для решения задач, требующих анализа и интерпретации информации, таких как автоматическое заполнение форм, анализ финансовых отчетов или обработка юридических документов. Использование структурированного представления позволяет алгоритмам MOCR эффективно оперировать информацией, подобно тому, как это делает человек, анализирующий документ.

Подход MOCR, в отличие от традиционного распознавания символов, позволяет установить связи между различными элементами документа — текстом, изображениями, таблицами и их расположением. Это достигается за счет представления документа как структурированных данных, где каждый элемент не рассматривается изолированно, а определяется в контексте его взаимосвязи с другими элементами. Подобный подход имитирует процесс человеческого понимания документа, где мы не просто читаем отдельные слова, а интерпретируем их значение в рамках общего контекста и структуры документа, учитывая визуальные связи и логическую организацию информации.

В отличие от традиционных методов парсинга документов, которые фокусируются на распознавании символов, MOCR генерирует исполняемый код, например, SVG, для воссоздания исходного документа. Этот подход позволяет не только сохранить визуальную точность и структурную целостность документа, но и обеспечить возможность его программной обработки и редактирования. Генерация векторной графики, такой как SVG, гарантирует масштабируемость и высокое качество отображения документа на различных устройствах и разрешениях, сохраняя при этом информацию о расположении и взаимосвязи элементов.

Модель dots.mocr демонстрирует конкурентоспособные результаты в широком спектре задач визуального вопросно-ответного анализа, сохраняя при этом высокую точность разбора документов и восстановления SVG-графики, что подтверждает ее способность генерировать связные и контекстуально-осмысленные ответы на вопросы по различным визуальным данным, включая документы, диаграммы и скриншоты интерфейсов.

Dots.mocr: Масштабируемая система для реализации MOCR

Система Dots.mocr представляет собой масштабируемую реализацию парадигмы MOCR (Multi-Object Character Recognition), основанную на надежной базе данных и современных моделях, сочетающих компьютерное зрение и обработку естественного языка. Архитектура системы спроектирована для эффективной обработки больших объемов документов и обеспечивает возможность горизонтального масштабирования вычислительных ресурсов. В основе лежит интеграция передовых алгоритмов распознавания изображений с моделями генерации текста, что позволяет преобразовывать визуальную информацию из документов в структурированные данные. Использование робастного движка данных гарантирует надежное хранение и обработку информации, необходимой для работы системы и обучения моделей.

Ключевым компонентом системы является энкодер зрения высокого разрешения, разработанный для эффективного приема и обработки документов с высоким разрешением. Данный энкодер использует специализированную архитектуру, оптимизированную для работы с изображениями большого размера, что позволяет сохранять детали и структуру документа даже при значительном увеличении. Это особенно важно для обработки отсканированных документов или изображений с низким качеством, где сохранение информации имеет решающее значение для последующего извлечения данных и структурирования контента. Эффективность энкодера обеспечивается применением алгоритмов масштабирования и обработки изображений, направленных на минимизацию потери информации и повышение точности распознавания.

Система Dots.mocr использует авторегрессионную языковую модель для генерации структурированных последовательностей разбора, точно представляющих содержание документов. Этот подход позволяет последовательно предсказывать элементы структуры документа, такие как заголовки, абзацы, таблицы и изображения, основываясь на предыдущих предсказанных элементах и визуальном контексте. Авторегрессионная природа модели обеспечивает согласованность и логическую структуру выходных данных, что критически важно для точного извлечения информации и дальнейшей обработки документа. Сгенерированные последовательности разбора служат основой для создания структурированного представления документа, пригодного для различных приложений, включая поиск, анализ и автоматическую обработку данных.

Обучение системы Dots.mocr осуществляется посредством структурированного контроля, использующего структурированные данные, такие как SVG-код. Использование SVG позволяет предоставлять модели богатые сигналы обучения, определяя точное расположение и структуру элементов документа. Это позволяет системе не только распознавать текст, но и понимать его взаимосвязь с другими элементами на странице, такими как таблицы, заголовки и изображения. Структурированные данные в формате SVG служат основой для обучения, обеспечивая четкие и точные метки для каждого элемента документа и значительно повышая точность и надежность процесса извлечения информации.

Модель <span class="katex-eq" data-katex-display="false">dots.mocr</span> демонстрирует способность сохранять глобальный порядок чтения и структуру длинных веб-страниц, а также точно распознавать и организовывать текст в сложных реальных условиях, подтверждая обобщение за пределами стандартных OCR-тестов. — Модель $dots.mocr$ демонстрирует способность сохранять глобальный порядок чтения и структуру длинных веб-страниц, а также точно распознавать и организовывать текст в сложных реальных условиях, подтверждая обобщение за пределами стандартных OCR-тестов.

Проверка MOCR: Автоматизированная оценка и перспективы развития

Для объективной оценки качества разбора документов системой MOCR была разработана автоматизированная платформа — OCR Arena. В основе её функционирования лежит подход “LLM-as-a-Judge”, использующий большие языковые модели в качестве экспертов для анализа и сравнения результатов парсинга. Вместо субъективных оценок, основанных на человеческом восприятии, OCR Arena позволяет проводить количественный анализ, выявляя сильные и слабые стороны различных алгоритмов MOCR. Такой подход обеспечивает воспроизводимость и надежность оценки, позволяя исследователям и разработчикам эффективно сравнивать новые методы и отслеживать прогресс в области автоматического распознавания и понимания документов.

Система Dots.mocr демонстрирует передовые результаты в области распознавания документов, занимая второе место в рейтинге Elo на платформе OCR Arena, уступая лишь модели Gemini 3 Pro. Такое положение в таблице лидеров свидетельствует о высокой эффективности алгоритмов, используемых в Dots.mocr, и подтверждает ее способность к точному и надежному преобразованию изображений документов в структурированный текст. Данный результат особенно важен, учитывая автоматизированную и объективную систему оценки, применяемую на OCR Arena, что позволяет уверенно говорить о конкурентоспособности Dots.mocr среди современных систем оптического распознавания символов и ее потенциале для дальнейшего развития в этой области.

В ходе тестирования на бенчмарке UniSVG, модель Dots.mocr продемонстрировала выдающиеся результаты, достигнув показателя ISVGEN в 0.902. Этот результат значительно превосходит аналогичный показатель модели OCRVerse, равный 0.763. Такое существенное превосходство указывает на повышенную точность и эффективность Dots.mocr в реконструкции векторной графики из документов, что свидетельствует о её потенциале для более качественной обработки и анализа сложных визуальных данных, содержащихся в документах.

В ходе сравнительного анализа производительности моделей оптического распознавания документов, Dots.mocr продемонстрировала превосходство над Gemini 3 Pro в задачах преобразования изображений в векторную графику SVG. Данный результат свидетельствует о более высокой точности и детализации реконструируемых документов. Кроме того, модель проявила значительные возможности в работе с комплексным набором данных OmniDocBench v1.5 TextEdit, подтверждая свою эффективность в задачах редактирования и анализа текстовой информации, содержащейся в документах. Успехи Dots.mocr в этих бенчмарках подчеркивают перспективность подхода к распознаванию документов, основанного на построении векторных представлений, а не простом извлечении текста.

Переход от анализа документов как набора пикселей к векторному представлению открывает принципиально новые возможности для их глубокого понимания и автоматизированного анализа. Вместо простого распознавания символов, MOCR позволяет реконструировать структуру документа, выделять логические блоки и устанавливать связи между элементами. Это, в свою очередь, позволяет не только улучшить точность распознавания, но и осуществлять полноценное семантическое понимание содержимого, что необходимо для сложных задач, таких как автоматическое редактирование, поиск по смыслу и обеспечение доступности документов для людей с ограниченными возможностями. В отличие от традиционных подходов, MOCR позволяет алгоритмам “понимать” документ, а не просто “видеть” его, что является ключевым шагом к созданию интеллектуальных систем обработки документов.

Восстановление документов в формате SVG открывает широкие возможности для их дальнейшей обработки и использования. В отличие от традиционных растровых изображений или простого текста, векторное представление позволяет масштабировать документ без потери качества, что особенно важно для архивов и цифровых библиотек. Это дает возможность не только редактировать содержимое документа непосредственно в графическом редакторе, но и осуществлять интеллектуальный поиск по его элементам, например, выделять все экземпляры определенного символа или формулы. Кроме того, SVG обеспечивает повышенную доступность для людей с ограниченными возможностями, поскольку текст может быть легко адаптирован для программ чтения с экрана, а графические элементы — описаны альтернативным текстом. В перспективе, эта технология может стать основой для создания полностью автоматизированных систем обработки и анализа документов, существенно упрощающих работу с информацией.

Дальнейшие исследования в области MOCR направлены на расширение возможностей системы для обработки документов более сложной структуры, включая научные статьи с формулами $\in t_0^\in fty f(x) \, dx$ , технические чертежи и документы, содержащие таблицы и диаграммы. Особое внимание уделяется интеграции MOCR с другими системами искусственного интеллекта, такими как модели обработки естественного языка и системы машинного обучения, что позволит не только распознавать текст, но и понимать его смысл, извлекать информацию и выполнять сложные аналитические задачи. Такой подход откроет новые возможности для автоматизации документооборота, создания интеллектуальных систем поиска и повышения доступности информации для людей с ограниченными возможностями.

В OCR Arena оценка качества распознавания документов осуществляется с помощью VLM, которая анализирует как исходные изображения, так и результаты работы различных OCR-моделей, предоставляя объяснения к вынесенным суждениям.

Исследование, представленное в данной работе, демонстрирует переход от простого распознавания текста к комплексному пониманию структуры документов. Авторы предлагают парадигму Multimodal OCR, которая не ограничивается извлечением текстовой информации, а стремится к воссозданию визуальных элементов в виде векторной графики. Это позволяет не только точно воспроизвести исходный документ, но и использовать извлеченные данные для дальнейшего анализа и манипулирования. Как заметил Ян Лекун: «Машинное обучение — это не только алгоритмы, но и способ видеть мир через данные». В данном случае, MOCR позволяет увидеть структуру документов как набор взаимосвязанных элементов, а не просто как последовательность символов, открывая новые возможности для автоматизированной обработки и извлечения ценной информации.

Что дальше?

Представленный подход к многомодальному OCR, восстанавливающему документы не просто как текст, но и как структурированный код, открывает новые горизонты, однако и ставит ряд вопросов. Неизбежно возникает потребность в более строгой метрологии для оценки качества восстановления графических элементов. Автоматизированная оценка, упомянутая в работе, должна выйти за рамки простого сравнения изображений и учитывать семантическую корректность восстановленного SVG-кода — насколько адекватно он представляет исходный смысл графика? Зачастую, визуальное сходство обманчиво.

Очевидным направлением развития является расширение спектра поддерживаемых типов документов и графических элементов. Сегодняшние системы склонны к «переобучению» на определённых шаблонах. Необходимо создавать модели, устойчивые к вариативности реальных документов, к их несовершенствам и ошибкам. Ирония заключается в том, что для достижения «идеального» OCR необходимо научить систему понимать и прощать человеческую небрежность.

Наконец, интеграция MOCR с системами обработки естественного языка и базами знаний представляется перспективной, но сложной задачей. Недостаточно просто извлечь текст и графики; необходимо понимать их взаимосвязь, строить логические выводы и использовать полученные знания для решения практических задач. Это потребует разработки новых алгоритмов и архитектур, способных к глубокому пониманию и рассуждению.

Оригинал статьи: https://arxiv.org/pdf/2603.13032.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-16 23:17

🚀 Квантовые новости