UniRec-0.1B: Распознавание текста и формул стало проще

Автор: Денис Аветисян

Новая модель UniRec-0.1B с 0,1 миллиарда параметров объединяет распознавание текста и математических формул, обеспечивая высокую точность и скорость работы.

В ходе анализа страниц, содержащих смешанный текст и формальные выражения, модели PaddleOCR-VL и MinerU2.5 ошибочно классифицируют обычный текст, встроенный в математические формулы, как сами формулы, в то время как UniRec-0.1B демонстрирует способность корректно идентифицировать его как текстовую информацию.

Представлена унифицированная модель для парсинга документов с иерархическим обучением и семантическим разделением, превосходящая существующие решения по скорости и эффективности.

Несмотря на значительный прогресс в области распознавания текста и формул, существующие модели часто требуют больших вычислительных ресурсов, ограничивая их применение в практических задачах. В данной работе представлена модель UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters, предлагающая унифицированный подход к распознаванию текста и формул всего с 0.1 миллиарда параметров. Разработанная модель демонстрирует превосходную точность и значительно более высокую скорость работы по сравнению с существующими решениями, благодаря использованию иерархического обучения и семантического разделения текстовых и формульных представлений. Сможет ли UniRec-0.1B стать основой для создания эффективных и доступных систем обработки документов в различных областях?

Разоблачение Хаоса: Вызов Унифицированного Понимания Документов

Традиционные методы анализа документов часто опираются на раздельные модели для обработки текста и математических формул, что приводит к фрагментации информации и затрудняет целостное понимание содержания. Этот подход подразумевает, что текст и формулы обрабатываются как отдельные сущности, без учета их взаимосвязи и контекста. В результате, важные смысловые связи, существующие между текстовыми описаниями и математическими выражениями, могут быть утеряны. Например, описание физического явления в тексте может быть неверно интерпретировано без учета соответствующей E=mc^2 формулы, или наоборот. Подобная разобщенность ограничивает возможности извлечения информации, автоматизированного рассуждения и эффективного анализа сложных документов, требующих одновременного понимания как текстового, так и математического контента.

Точное распознавание как текстовой информации, так и математических формул в сложных документах является ключевым фактором для успешного выполнения последующих задач, таких как извлечение информации и автоматизированное логическое заключение. Неспособность корректно идентифицировать и интерпретировать \int_a^b f(x) \, dx или уравнение E = mc^2 среди окружающего текста может привести к серьезным ошибкам в анализе научных статей, технических отчетов или юридических документов. Таким образом, разработка систем, способных эффективно обрабатывать гетерогенные документы, содержащие как текст, так и формулы, открывает новые возможности для автоматизации интеллектуальных процессов и получения ценных знаний из больших объемов информации.

Существующие методы распознавания документов часто сталкиваются с трудностями при обработке семантического перекрытия между текстовой информацией и математическими выражениями, что приводит к ошибкам в интерпретации. Проблема заключается в том, что многие системы рассматривают текст и формулы как отдельные сущности, игнорируя их взаимосвязь и контекст. Например, переменные, используемые как в текстовом описании, так и в y = mx + b формуле, могут быть ошибочно интерпретированы как разные элементы. Это особенно заметно в сложных документах, где текст и математические обозначения тесно переплетены, и различение между ними требует глубокого понимания контекста и семантики. В результате, точность извлечения информации и автоматизированного рассуждения значительно снижается, поскольку система не может правильно связать текстовые описания с соответствующими математическими представлениями.

Необходимость унифицированного подхода к анализу документов обусловлена взаимодополняемостью текстовой и математической информации, содержащейся в них. Традиционные методы, разделяющие обработку текста и формул, часто упускают важные связи и контекст, что снижает точность извлечения информации и возможностей автоматизированного рассуждения. Исследования показывают, что одновременное рассмотрение этих элементов позволяет не только повысить надежность распознавания, но и глубже понять смысл документа. Такой подход позволяет учитывать, например, что формула может быть описана в тексте, а текст может ссылаться на конкретное математическое выражение. В результате, унифицированная система анализа документов способна обеспечить более целостное и точное понимание содержания, что критически важно для широкого спектра задач, от автоматической проверки научных работ до интеллектуального поиска и анализа данных, представленных в смешанном формате, например, E=mc^2.

В то время как UniRec-0.1B, PaddleOCR-VL, MinerU2.5 и MonkeyOCR-pro корректно распознают смешанный китайский текст и встроенные формулы <span class="katex-eq" data-katex-display="false"> </span>, Dolphin-1.5 ошибочно интерпретирует формулы как обычный текст, а остальные три метода отображают их в режиме отображения вместо встроенного. — В то время как UniRec-0.1B, PaddleOCR-VL, MinerU2.5 и MonkeyOCR-pro корректно распознают смешанный китайский текст и встроенные формулы , Dolphin-1.5 ошибочно интерпретирует формулы как обычный текст, а остальные три метода отображают их в режиме отображения вместо встроенного.

UniRec-0.1B: Лёгкое Решение для Объединённого Распознавания

Модель UniRec-0.1B представляет собой облегченную архитектуру, содержащую 0.1 миллиарда параметров, разработанную для одновременного распознавания как текста, так и математических формул. Такой подход позволяет создать компактное решение, пригодное для развертывания в средах с ограниченными вычислительными ресурсами, при этом сохраняя высокую точность распознавания обоих типов контента. Уменьшенное количество параметров способствует снижению требований к памяти и ускорению процесса инференса, делая UniRec-0.1B эффективным инструментом для задач, связанных с анализом документов, содержащих смешанный текстово-формульный контент, например, в задачах оптического распознавания символов (OCR) и извлечения информации.

Модель UniRec-0.1B использует семантически-разделённый токенизатор (SDT) для дифференциации текста и формул. Этот подход позволяет модели более точно идентифицировать и обрабатывать различные типы контента в документе. В результате применения SDT, наблюдается улучшение метрики edit distance при распознавании формул на 11.1% по сравнению с традиционными методами токенизации. Данное улучшение свидетельствует о повышенной эффективности модели в задачах, требующих точного выделения и интерпретации математических выражений и текстового содержимого.

Иерархическое обучение с контролем (HST) используется для повышения точности распознавания текста в UniRec-0.1B путем обучения модели учитывать структурную иерархию документов. HST направляет процесс обучения, акцентируя внимание на взаимосвязях между различными элементами документа, что позволяет более эффективно распознавать текст, даже в сложных макетах. В результате применения HST наблюдается улучшение метрики edit distance для распознавания текста на 1.2%-1.5% по сравнению с моделями, обученными без использования данного метода.

Модель UniRec-0.1B обучалась на крупномасштабном наборе данных UniRec40M, включающем 40 миллионов примеров документов, содержащих текст и формулы на английском и китайском языках. Набор данных UniRec40M структурирован таким образом, чтобы отражать многоуровневую организацию документов, что позволяет модели эффективно изучать контекст и взаимосвязи между текстовыми и формульными элементами. Разнообразие языков и структурированность данных обеспечивают обобщающую способность модели при распознавании как текста, так и математических выражений в различных документах.

Анализ неудачных примеров работы UniRec-0.1B показал, что модель часто интерпретирует индексы и степени вне математических выражений как обычный текст из-за особенностей извлечения данных из PyMuPDF, где эти элементы представлены как текст, что приводит к ошибкам распознавания (красным) и пропущенным символам (подчеркиванием), в то время как корректное распознавание выделено зеленым цветом.

Подтверждение Эффективности: Сравнение с Существующими Методами

Модель UniRec-0.1B прошла обширное тестирование на UniRec-Bench — специализированном бенчмарке, предназначенном для оценки моделей распознавания текста и формул на уровне блоков. UniRec-Bench позволяет оценить производительность моделей при обработке документов, содержащих как текстовые, так и математические выражения, представленные в виде блоков. Бенчмарк включает в себя разнообразные наборы данных, имитирующие реальные документы, и позволяет проводить объективное сравнение различных методов распознавания, оценивая точность и эффективность обработки блоков текста и формул.

В ходе оценки на бенчмарке OmniDocBench, модель UniRec-0.1B показала метрику edit distance на уровне 0.120. Данный результат представляет собой значительное улучшение по сравнению с показателем 0.143, достигнутым при интеграции с MinerU2.5. Метрика edit distance измеряет минимальное количество операций редактирования (вставка, удаление, замена), необходимых для преобразования предсказанного текста в эталонный текст, и, следовательно, является показателем точности оптического распознавания символов.

В ходе сравнительного анализа с существующими методами оптического распознавания текста, включая Pix2Tex, UniMERNet-B, PP-OCRv5 и OpenOCR-Rec, модель UniRec-0.1B продемонстрировала превосходство как по показателям точности, так и по эффективности. В тестах на различных наборах данных UniRec-0.1B показала более высокую способность к корректному распознаванию текста и формул, при этом требуя меньше вычислительных ресурсов и времени для обработки по сравнению с альтернативными решениями. Эти результаты подтверждают, что UniRec-0.1B представляет собой эффективное и точное решение для задач распознавания текста на уровне блоков.

Интеграция UniRec-0.1B с MinerU2.5 обеспечивает семикратное ускорение процесса инференса, снижая время обработки с 42.72 секунды до 6.2 секунды. Данное улучшение производительности достигается благодаря оптимизации архитектуры модели и эффективной интеграции с MinerU2.5, что позволяет значительно сократить время, необходимое для распознавания и обработки документов.

Модель UniRec-0.1B содержит всего 0.1 миллиарда параметров, что существенно меньше, чем у Dolphin-1.5 и составляет лишь 11% от числа параметров, используемых в PaddleOCR-VL. Данный фактор позволяет UniRec-0.1B демонстрировать высокую эффективность и скорость работы при сохранении конкурентоспособной точности распознавания текста и формул, особенно в сравнении с более крупными моделями, требующими значительных вычислительных ресурсов.

При анализе многострочных формул UniRec-0.1B, MonkeyOCR и Nanonets-OCR2 обеспечивают полностью корректное распознавание, в то время как Dolphin-1.5, MinerU2.5 и PaddleOCR-VL ошибочно классифицируют текстовое слово «since» как часть формулы, а PaddleOCR-VL также некорректно определяет разрывы строк, в то время как dots.ocr генерирует несуществующий индекс формулы, а DeepSeek-OCR, хотя и распознает большую часть контента, не может восстановить дробь в конце первой строки.

Влияние и Перспективы: Новый Взгляд на Искусственный Интеллект в Документообороте

Успех модели UniRec-0.1B ярко демонстрирует преимущества унифицированных подходов в обработке документов, открывая путь к созданию более эффективных и точных систем искусственного интеллекта для работы с документами. Традиционно, системы часто разрабатывались для решения конкретных задач, таких как распознавание текста или извлечение данных, что требовало отдельных моделей и значительных вычислительных ресурсов. UniRec-0.1B, напротив, способен обрабатывать широкий спектр задач, объединяя различные типы документов и форматы в рамках единой архитектуры. Такой подход не только упрощает процесс разработки и развертывания, но и позволяет модели извлекать более глубокие знания, используя взаимосвязи между различными частями документа и разными типами данных. Это, в свою очередь, ведет к повышению точности, снижению затрат и открывает новые возможности для автоматизации и анализа информации в различных областях, от финансов и юриспруденции до здравоохранения и образования.

Исследование подчеркивает критическую важность специально разработанных токенизаторов и стратегий обучения для успешного объединения текстовой и математической нотации в системах искусственного интеллекта. Традиционные методы токенизации часто оказываются неэффективными при обработке документов, содержащих как естественный язык, так и математические формулы, что приводит к снижению точности распознавания и понимания. Разработанные в ходе исследования токенизаторы учитывают специфику математических символов и структур, позволяя модели эффективно обрабатывать \sum_{i=1}^{n} x_i и текстовые фрагменты в едином контексте. Стратегии обучения, оптимизированные для такого смешанного представления данных, способствуют более глубокому пониманию взаимосвязей между текстом и формулами, что значительно улучшает способность модели извлекать смысл и выполнять сложные задачи, связанные с анализом документов.

Перспективы развития модели UniRec-0.1B не ограничиваются обработкой текущих типов документов. Дальнейшие исследования направлены на расширение её возможностей для работы со значительно более сложными структурами, включая научные статьи с обилием формул E=mc^2, юридические документы с многоуровневой иерархией, а также технические чертежи. Особый интерес представляет интеграция с другими модальностями данных — изображениями и таблицами, что позволит модели не только извлекать текст, но и понимать визуальный контекст и структурированную информацию. Такой подход откроет возможности для автоматической обработки комплексных документов, содержащих смешанные данные, и значительно повысит точность и полноту извлечения знаний.

Решение проблем, связанных с разбором документов, открывает доступ к ценным данным, скрытым в неструктурированной информации, и способствует ускорению инноваций в различных областях. Автоматизация извлечения и интерпретации данных из документов, таких как научные статьи, юридические контракты или финансовые отчеты, позволяет выявлять закономерности и связи, которые ранее были недоступны. Это, в свою очередь, стимулирует развитие новых технологий и подходов в таких сферах, как медицина, юриспруденция, финансы и образование. Возможность эффективной обработки больших объемов неструктурированных данных значительно повышает производительность исследований, оптимизирует бизнес-процессы и способствует принятию обоснованных решений, создавая условия для прорывных открытий и повышения эффективности во многих отраслях.

Тестирование на простых примерах показало, что большинство методов распознавания текста успешно справляются с задачей, однако UniRec-0.1B ошибочно интерпретирует символы ⓐ, ⓑ, и ⓒ как “a”, “b”, и “c”, Nanonets-OCR2 выдает совершенно нерелевантные результаты, а Dolphin-1.5, PaddleOCR-VL и DeepSeek-OCR допускают ошибки в стилизации символа “e”, иногда принимая его за “c”.

Исследование представляет собой попытку усмирить хаос данных, заключённый в документах, предлагая модель UniRec-0.1B. Авторы стремятся к созданию системы, способной распознавать как текст, так и формулы, что всегда было непростой задачей. Этот подход к унифицированному распознаванию, с акцентом на скорость и эффективность, вызывает ироничное одобрение. Ведь, как говорил Дэвид Марр: «Любая модель — это заклинание, которое работает до первого продакшена». Действительно, даже самая элегантная архитектура столкнётся с реальностью неидеальных документов и неожиданных входных данных. Успех UniRec-0.1B, с его 0.1 миллиардами параметров, подтверждает, что иногда, чтобы обуздать хаос, достаточно не усложнять, а упрощать.

Что дальше?

Представленная модель, UniRec-0.1B, подобна удачному заклинанию — работает, пока не столкнётся с реальностью. Её легковесность — не столько достижение, сколько признание слабости существующих подходов. Очевидно, что гонка за параметрами, за «точностью», лишь украшает хаос, не усмиряя его. Истинный вопрос не в том, как заставить машину «видеть» формулы и текст, а в том, как смириться с её неизбежной некомпетентностью.

Следующий шаг, вероятно, лежит не в углублении архитектуры, а в принятии её несовершенства. Необходимо исследовать методы, позволяющие модели «честно» признавать свою ошибку, а не выдавать правдоподобную, но ложную интерпретацию. Важно отделить семантическое понимание от статистической симуляции — задача, кажущаяся невыполнимой, но именно она и определяет будущее этой области.

В конечном счёте, UniRec-0.1B — это лишь ещё один шаг в бесконечном танце с неопределённостью. Данные всегда правы — пока не попадут в прод. И когда машина начнёт выдавать ошибки, не стоит удивляться — это не баг, это фича, напоминающая о том, что даже самые сложные модели — всего лишь тени на стене пещеры.

Оригинал статьи: https://arxiv.org/pdf/2512.21095.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-27 22:11

🚀 Квантовые новости