Автор: Денис Аветисян
Новая модель от NVIDIA демонстрирует впечатляющие результаты в распознавании текста, анализе макетов и извлечении данных из документов любого формата.

Nemotron Parse 1.1 — это сквозная модель «зрение-язык», превосходящая современные решения в задачах оптического распознавания символов, анализа структуры документа, извлечения таблиц и формул, с оптимизированной версией Nemotron-Parse-TC для повышения скорости работы.
Несмотря на значительный прогресс в области оптического распознавания символов (OCR), извлечение структурированной информации из сложных документов остается сложной задачей. В данной работе представлена модель ‘NVIDIA Nemotron Parse 1.1’ — легковесный энкодер-декодер с 885M параметрами, демонстрирующий улучшенные результаты в задачах OCR, анализа структуры документов, извлечения таблиц и распознавания формул. Модель обеспечивает конкурентоспособную точность и включает оптимизированную версию Nemotron-Parse-1.1-TC, предлагающую 20% прирост скорости при минимальной потере качества. Позволит ли Nemotron Parse 1.1 стать ключевым компонентом в системах интеллектуальной обработки документов нового поколения?
Вызовы понимания документов: Непредсказуемость структуры
Традиционные методы анализа документов часто сталкиваются с трудностями при обработке сложных макетов и непоследовательного форматирования. Это приводит к неточностям при извлечении информации, поскольку системы испытывают затруднения в корректном определении логической структуры документа и выделении ключевых данных. Например, таблицы, разделенные на несколько страниц, или текст, перетекающий между столбцами, представляют собой серьезные препятствия для алгоритмов, основанных на жестких правилах или фиксированных шаблонах. Неспособность адаптироваться к вариативности оформления приводит к ошибкам в распознавании, неполному извлечению данных и, как следствие, к снижению надежности всей системы обработки документов. По сути, неструктурированный или плохо структурированный документ представляет собой вызов для автоматизированных систем, требуя более сложных и гибких подходов к анализу.
Существующие системы анализа документов часто сталкиваются с ограничениями, обусловленными зависимостью от хрупких эвристических правил или необходимостью трудоемкой ручной разметки данных. Применение жестко заданных правил, разработанных для конкретных форматов документов, оказывается неэффективным при столкновении со сложными или нестандартными макетами, что приводит к снижению точности извлечения информации. Более того, необходимость в обширной ручной разметке данных не только существенно увеличивает стоимость и время обработки, но и препятствует масштабированию системы и её адаптации к новым типам документов или изменяющимся требованиям. Это создает серьезные препятствия для автоматизации обработки больших объемов документации и эффективного использования информации, содержащейся в ней.

Nemotron-Parse 1.1: Эволюция видения и языка
Nemotron-Parse 1.1 представляет собой новую сквозную модель, объединяющую возможности компьютерного зрения и обработки естественного языка, предназначенную для точного извлечения структурированной информации из документов. Модель способна автоматически определять и извлекать отформатированный текст, координаты ограничивающих рамок (bounding boxes) для выделения элементов документа и семантические классы, определяющие тип каждого элемента, такие как заголовки, таблицы, абзацы и изображения. Этот подход позволяет Nemotron-Parse 1.1 выполнять комплексный анализ документов, превосходя традиционные методы, требующие раздельных этапов обработки для каждого типа извлекаемой информации.
Архитектура Nemotron-Parse 1.1 использует мощный визуальный энкодер RADIO, инициализированный с помощью ViT-H /16, для обработки визуальных представлений документов. ViT-H /16 — это большая трансформерная модель, предварительно обученная на масштабных наборах данных изображений, что обеспечивает высокую эффективность извлечения признаков из визуального контента документа. RADIO, основанный на этой модели, преобразует изображение документа в векторное представление, которое затем используется для анализа и извлечения структурированной информации, такой как текст, ограничивающие рамки и семантические классы. Использование ViT-H /16 в качестве основы позволяет модели эффективно обрабатывать сложные визуальные структуры документов и обеспечивать высокую точность распознавания.
В Nemotron-Parse 1.1 в качестве декодера используется оптимизированная архитектура mBART. Данная реализация mBART характеризуется уменьшенным количеством параметров по сравнению со стандартной архитектурой, что позволяет значительно повысить вычислительную эффективность модели. Сокращение числа параметров достигается за счет применения различных методов оптимизации, включая прунинг и квантизацию, при этом сохраняется высокая точность извлечения отформатированного текста, ограничивающих прямоугольников и семантических классов из документов. Это позволяет Nemotron-Parse 1.1 эффективно работать на широком спектре аппаратных платформ, включая устройства с ограниченными ресурсами.
Оптимизация скорости и обобщения: Упрощение ради эффективности
В Nemotron-Parse 1.1 реализован подход отсутствия позиционного кодирования (No Positional Encoding, NoPE). Традиционные модели используют позиционное кодирование для предоставления информации о порядке токенов в последовательности, однако NoPE позволяет модели обобщать информацию независимо от абсолютной позиции токена. Это достигается за счет снижения количества параметров, связанных с позиционным кодированием, что приводит к уменьшению вычислительной нагрузки и повышению эффективности модели при обработке текстов различной длины и структуры. В результате, NoPE способствует улучшению способности модели к обобщению и снижению требований к вычислительным ресурсам.
Для ускорения процесса инференса и обеспечения обработки документов в режиме реального времени, Nemotron-Parse 1.1 использует метод Multi-Token Inference. Вместо последовательной обработки каждого токена, модель обрабатывает сразу несколько токенов параллельно. Это снижает общее количество необходимых операций и, как следствие, уменьшает задержку инференса. Эффективность Multi-Token Inference особенно заметна при обработке больших объемов текста, где сокращение времени обработки является критически важным для интерактивных приложений и систем, требующих высокой пропускной способности.
Модель Nemotron-Parse 1.1 разработана на основе существующих подходов, таких как Eclair, и является развитием функциональности Nemoretriever-Parse 1.0. В процессе разработки были учтены и усовершенствованы алгоритмы и архитектурные решения, реализованные в предшествующих версиях. Это позволило не только сохранить, но и значительно повысить эффективность обработки документов, расширив возможности по извлечению и анализу информации. В частности, усовершенствована логика обработки сложных синтаксических конструкций и улучшена точность идентификации ключевых сущностей, что обеспечивает более надежные результаты по сравнению с Nemoretriever-Parse 1.0.
Всестороннее тестирование и оценка: Подтверждение эффективности
Модель Nemotron-Parse 1.1 продемонстрировала выдающиеся результаты в комплексной оценке, успешно пройдя тесты на различных эталонных наборах данных. В частности, модель показала высокую эффективность на DocLayNet, предназначенном для анализа макетов документов, а также на TEDS и S-TEDS, оценивающих точность распознавания структуры текста и таблиц. Не менее впечатляющие результаты были достигнуты на RD-TableBench, наборе данных, ориентированном на распознавание таблиц в документах. Такое разностороннее превосходство подтверждает способность Nemotron-Parse 1.1 к адаптации и эффективной обработке широкого спектра документов с различными структурами и форматами, что делает её ценным инструментом для задач автоматической обработки и анализа документов.
Модель Nemotron-Parse 1.1 демонстрирует выдающиеся результаты в определении порядка чтения текста в многоязычных документах, достигая показателя F1-score в 0.96. Этот высокий уровень точности указывает на способность модели корректно выстраивать последовательность чтения даже в сложных документах, содержащих текст на различных языках. Такая производительность обусловлена тщательной проработкой алгоритмов анализа структуры документа и использования обширного обучающего набора данных, что позволяет модели эффективно интерпретировать визуальные подсказки и языковые особенности, необходимые для точного определения порядка чтения.
Модель Nemotron-Parse 1.1 демонстрирует высокую скорость обработки документов, достигая 4 страниц в секунду при использовании одной графической карты H100. Внедрение технологии сжатия токенов (Token Compression) позволило существенно повысить производительность, увеличив скорость обработки до 5 страниц в секунду. Данное улучшение на 20% открывает возможности для более оперативной обработки больших объемов документов, что особенно важно в задачах, требующих быстрого извлечения и анализа информации из PDF-файлов и других форматов. Такая оптимизация делает Nemotron-Parse 1.1 привлекательным решением для приложений, где важна как точность, так и скорость обработки данных.
Модель Nemotron-Parse 1.1 продемонстрировала конкурентоспособные результаты на английском подмножестве набора данных OmniDocBench, что свидетельствует о ее способности к точному анализу структуры документов. В частности, Nemotron-Parse 1.1 превзошел базовую версию Nemotron-Parse по показателю точности определения порядка чтения, что указывает на значительное улучшение в понимании логической последовательности элементов документа. Это достижение особенно важно для задач, требующих автоматической обработки и анализа больших объемов текстовой информации, таких как извлечение данных, архивирование и интеллектуальный поиск. Повышенная точность в определении порядка чтения позволяет более эффективно извлекать смысл из документов и повышает надежность автоматизированных рабочих процессов.
Обучение модели Nemotron-Parse 1.1 осуществлялось на тщательно подготовленном наборе данных, созданном с использованием конвейера NVpdftex и основанном на огромном объеме информации из Common Crawl. Этот подход позволил сформировать корпус текстов исключительного качества, что стало ключевым фактором в достижении высокой точности и эффективности модели при анализе и структурировании документов. Использование данных Common Crawl, прошедших обработку в NVpdftex, гарантирует разнообразие представленных документов и их соответствие реальным условиям использования, что, в свою очередь, обеспечивает надежность и универсальность Nemotron-Parse 1.1 при работе с различными типами PDF-файлов и языками.
Исследование демонстрирует, что попытки создания всеобъемлющих систем для понимания документов неизбежно сталкиваются с непредсказуемостью реальных данных. Nemotron-Parse 1.1, как и любая сложная архитектура, предсказывает будущие точки отказа, ведь абсолютной надежности в обработке разнообразных документов достичь невозможно. Бертранд Рассел заметил: «Всякое знание имеет определённые границы, и чем дальше мы продвигаемся, тем больше осознаём, насколько мало мы знаем». Эта мысль особенно актуальна в контексте распознавания документов, где даже самые передовые модели, вроде Nemotron-Parse 1.1, сталкиваются с ограничениями в обработке неструктурированной информации и извлечении таблиц или математических формул. Система не строится, она вырастает, адаптируясь к новым вызовам, но всегда оставаясь уязвимой.
Что дальше?
Представленная работа демонстрирует, как ещё глубже можно проникнуть в кажущуюся упорядоченность документа. Однако, следует помнить: каждая архитектура, даже самая изящная, — это пророчество о будущей поломке. Успехи в оптическом распознавании символов, анализе структуры и извлечении таблиц — лишь временное затишье перед лицом истинной непредсказуемости реальных документов. Несовершенство данных не устраняется, оно лишь аккуратно кэшируется в параметрах модели.
Вместо стремления к абсолютной точности, логичнее признать, что хаос — это не ошибка, а язык природы. Следующий этап развития, вероятно, связан не с созданием более сложных систем, а с разработкой механизмов, способных элегантно справляться с неопределённостью. Необходимо переосмыслить саму концепцию «понимания» документа: не как построение идеальной внутренней модели, а как формирование вероятностного ответа на каждый запрос.
Стабильность — это иллюзия, которая хорошо кэшируется, и гарантии — это договор с вероятностью. Вместо того, чтобы пытаться построить «идеальный» инструмент, стоит сосредоточиться на создании экосистемы, способной к самоорганизации и адаптации к постоянно меняющимся условиям. Будущее за системами, которые умеют не столько «понимать» документы, сколько «выживать» в их хаосе.
Оригинал статьи: https://arxiv.org/pdf/2511.20478.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Кандинский 5.0: Искусство генерации изображений и видео
- Волны под контролем: Ускорение моделирования материалов с дефектами
- Квантовые симуляторы: Преодолевая ограничения памяти
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- LLM: математика — предел возможностей.
- Пространственное мышление видео: новый подход к обучению ИИ
- Квантовые вычисления нового поколения: объединяя возможности аналоговых и цифровых систем
- Обуздать шум: Эффективная коррекция ошибок для квантовых вычислений
- Виртуальная примерка без границ: EVTAR учится у образов
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
2025-11-27 21:49