Публичные таблицы: новый масштабный датасет для извлечения данных

Автор: Денис Аветисян


Представлен PubTables-v2 — обширный набор данных для комплексного извлечения таблиц, включая многостраничные и полностраничные структуры.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Набор данных PubTables-v2 включает 9172 полных документа, аннотированных в формате HTML с указанием ограничивающих рамок для обнаружения таблиц, и содержит 9492 многостраничных таблицы, что делает его на сегодняшний день самым крупным общедоступным набором данных многостраничных таблиц, при этом таблицы могут быть разделены как между страницами, так и между колонками двухколоночных макетов, а также содержат 630 таблиц, размещенных на одной странице, но разделенных на несколько частей.
Набор данных PubTables-v2 включает 9172 полных документа, аннотированных в формате HTML с указанием ограничивающих рамок для обнаружения таблиц, и содержит 9492 многостраничных таблицы, что делает его на сегодняшний день самым крупным общедоступным набором данных многостраничных таблиц, при этом таблицы могут быть разделены как между страницами, так и между колонками двухколоночных макетов, а также содержат 630 таблиц, размещенных на одной странице, но разделенных на несколько частей.

Исследование показывает, что специализированные модели превосходят современные языково-визуальные модели в задачах распознавания сложной структуры таблиц.

Извлечение таблиц из документов является ключевой задачей в области визуального понимания, однако прогресс в этой области сдерживается недостатком размеченных данных. В настоящей работе представлена новая масштабная база данных PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction, предназначенная для решения задач извлечения таблиц на уровне всей страницы и многостраничных документов. Показано, что, несмотря на успехи моделей, объединяющих зрение и язык, специализированные модели без использования этих подходов демонстрируют более высокую эффективность в распознавании сложной структуры таблиц. Какие перспективы открывает создание подобных наборов данных для дальнейшего развития алгоритмов интеллектуальной обработки документов?


Понимание Структуры: Основа Извлечения Информации

В условиях экспоненциального роста объёма цифровых документов, автоматизированное извлечение информации становится не просто желательной, но и необходимой функцией. Постоянно увеличивающийся поток данных, включающий научные публикации, финансовые отчёты, юридические документы и прочие источники, значительно превышает возможности ручной обработки. Это требует разработки надёжных и эффективных методов, способных автоматически идентифицировать, классифицировать и извлекать ключевую информацию из разнообразных форматов и структур. Без таких систем, ценные знания, содержащиеся в этих документах, остаются недоступными, что препятствует принятию обоснованных решений и замедляет прогресс в различных областях науки и бизнеса. Автоматизация извлечения информации позволяет значительно сократить временные и финансовые затраты, повысить точность анализа и масштабировать обработку данных до беспрецедентных уровней.

Эффективное извлечение табличных данных играет ключевую роль в автоматизированном анализе информации, поскольку таблицы часто содержат структурированные данные, необходимые для принятия обоснованных решений. В отличие от неструктурированного текста, таблицы представляют информацию в чётко определённом формате, что значительно упрощает процесс машинной обработки и позволяет извлекать конкретные факты и показатели. Например, финансовые отчёты, статистические данные и результаты научных исследований зачастую представлены в виде таблиц, и автоматическое извлечение этих данных позволяет значительно ускорить анализ, выявить закономерности и оптимизировать процессы. В условиях экспоненциального роста объёма цифровых документов, способность эффективно извлекать и использовать данные из таблиц становится всё более важной для бизнеса, науки и государственного управления.

Традиционные методы обнаружения и разбора таблиц в визуальных документах часто сталкиваются с существенными трудностями, обусловленными сложностью их компоновки и неоднозначностью визуального представления данных. Алгоритмы, разработанные для работы с простыми, чётко структурированными таблицами, оказываются неэффективными при обработке документов, содержащих таблицы со сложными границами, объединёнными ячейками, нерегулярными структурами или визуальными искажениями. Неоднозначность возникает из-за того, что визуальные элементы, такие как линии и пробелы, могут интерпретироваться по-разному, приводя к ошибкам в определении границ ячеек и распознавании содержимого. Поэтому, для эффективной обработки реальных документов, требуются более совершенные подходы, способные учитывать контекст, визуальные подсказки и семантическую информацию, заключённую в структуре таблиц.

База данных PubTables-v2, содержащая 136 тысяч обрезков таблиц, обеспечивает совместимость с PubTables-1M и предназначена для распознавания структуры таблиц, как показано на примере таблицы с 21 столбцом.
База данных PubTables-v2, содержащая 136 тысяч обрезков таблиц, обеспечивает совместимость с PubTables-1M и предназначена для распознавания структуры таблиц, как показано на примере таблицы с 21 столбцом.

PubTables-v2: Новый Эталон для Извлечения Таблиц

PubTables-v2 представляет собой крупномасштабный набор данных, предназначенный для развития исследований в области извлечения таблиц из научных документов. Он является развитием набора данных PubTables-1M и значительно превосходит его по объёму и сложности. Набор данных включает в себя более $100,000$ таблиц, извлечённых из научных публикаций в формате PDF. Публикация PubTables-v2 направлена на стимулирование разработки более точных и надёжных алгоритмов для автоматического извлечения структурированных данных из научных текстов, что важно для задач анализа данных и машинного обучения.

Набор данных PubTables-v2 содержит детальные аннотации, охватывающие три ключевые области: обнаружение таблиц, распознавание их структуры и обработку таблиц, продолжающихся на нескольких страницах документа. Аннотации предоставляются с различной степенью детализации, позволяя использовать данные для различных задач и моделей. В частности, информация о структуре таблицы включает в себя разметку ячеек, строк и столбцов, а аннотации для таблиц, продолжающихся на нескольких страницах, указывают на связь между фрагментами таблицы, расположенными на разных страницах документа. Это позволяет создавать более точные и надёжные системы извлечения таблиц из научных публикаций.

Набор данных PubTables-v2 фиксирует иерархические связи между элементами документа, такими как заголовки, абзацы и таблицы, что позволяет более точно определить контекст и границы таблиц. Это достигается путем аннотирования не только самих таблиц, но и их окружения, включая заголовки разделов и окружающий текст. Такая информация критически важна для алгоритмов извлечения таблиц, поскольку позволяет им различать таблицы от других элементов документа и правильно реконструировать структуру таблиц, особенно в сложных документах с многостраничными таблицами и вложенными структурами. Точное представление иерархии элементов способствует повышению точности парсинга и понимания содержимого таблиц, а также снижению количества ложных срабатываний и ошибок.

Набор данных PubTables-v2 содержит более 548 тысяч таблиц, размеченных в контексте полной страницы, включая их местоположение, структуру, заголовки, подписи и иерархические связи.
Набор данных PubTables-v2 содержит более 548 тысяч таблиц, размеченных в контексте полной страницы, включая их местоположение, структуру, заголовки, подписи и иерархические связи.

Определение Продолжения Таблиц на Нескольких Страницах: Критически Важная Способность

Точное предсказание, продолжается ли таблица на последующих страницах, является критически важным для корректной реконструкции полной таблицы. Неспособность определить продолжение приводит к неполным данным и, следовательно, к неверной интерпретации информации, содержащейся в таблице. Полнота данных, особенно в больших документах, напрямую зависит от надёжного определения границ таблицы и её продолжений на разных страницах, что делает эту задачу фундаментальной для автоматического извлечения табличных данных.

Для предсказания продолжения таблиц на нескольких страницах используются модели классификации изображений, в частности ResNet-50 и ViT-B-16. Эти модели анализируют визуальные признаки, такие как расположение линий, шрифты и структуру ячеек, чтобы определить, является ли текущая страница частью более крупной таблицы. ViT-B-16 использует архитектуру Transformer, что позволяет ей эффективно улавливать глобальные зависимости в изображении таблицы, в то время как ResNet-50 использует свёрточные нейронные сети для извлечения локальных признаков. Обучение моделей происходит на размеченном наборе данных изображений таблиц, что позволяет им различать таблицы, продолжающиеся на следующих страницах, от отдельных таблиц.

Оценка предложенного подхода к определению продолжения таблиц на нескольких страницах проводилась на наборе данных PubTables-v2. Результаты показали высокую эффективность: модель ViT-B-16 достигла значения F1-меры в 0.995, что свидетельствует о сбалансированной точности и полноте. Параллельно, точность (precision) составила 0.987, подтверждая низкий уровень ложноположительных срабатываний при определении продолжения таблиц. Данные показатели демонстрируют надёжность и практическую применимость предложенного метода для реконструкции полных табличных данных из многостраничных документов.

На изображении представлены пять многостраничных таблиц из набора данных PubTables-v2, где выделенные ограничивающие рамки показывают, как каждая таблица непрерывно размещается на нескольких страницах.
На изображении представлены пять многостраничных таблиц из набора данных PubTables-v2, где выделенные ограничивающие рамки показывают, как каждая таблица непрерывно размещается на нескольких страницах.

Улучшение Извлечения Таблиц с Помощью Специализированных Моделей

Специализированные для конкретной области модели, объединяющие возможности компьютерного зрения и обработки естественного языка (Vision-Language Models, VLMs), демонстрируют превосходство в задачах извлечения табличных данных по сравнению с универсальными моделями. В отличие от последних, которые оперируют общими знаниями, домен-специфичные VLMs способны учитывать особенности структуры и семантики таблиц, характерные для конкретной предметной области — например, финансовых отчётов или научных публикаций. Такой подход позволяет им более точно распознавать ячейки, заголовки и взаимосвязи между данными, что значительно повышает надёжность и точность извлечения информации из сложных табличных документов. В результате, специализированные модели обеспечивают существенное улучшение в автоматизации обработки структурированных данных и позволяют эффективно использовать информацию, содержащуюся в таблицах.

Современные модели, предназначенные для извлечения таблиц, демонстрируют впечатляющую способность объединять визуальную информацию о структуре документа с семантическим пониманием содержимого таблиц. Данный подход позволяет не просто распознавать линии и ячейки, но и интерпретировать взаимосвязи между данными, учитывая контекст и назначение таблицы в документе. Например, модель способна определить, что столбец, содержащий числовые значения с единицей измерения, представляет собой количество товара, а не что-либо другое. Такое интегративное понимание значительно повышает точность извлечения информации, особенно в сложных документах, где табличные данные тесно переплетены с текстом и графикой, и позволяет надёжно выделять структуру таблицы даже при наличии нечётких или искажённых изображений.

Тщательная оценка с использованием метрик GriTS подтвердила повышенную точность и надёжность распознавания структуры таблиц. В ходе экспериментов, модифицированная модель TATR (v1.2-Pub), прошедшая тонкую настройку, продемонстрировала впечатляющий результат — показатель GriTS (Top) достиг 0.980 при обработке длинных и широких таблиц. При этом, точность полного совпадения (Exact Match Accuracy) составила 0.687, что представляет собой приблизительно 20-процентное абсолютное улучшение по сравнению с предыдущей версией модели v1.1-Pub. Эти результаты свидетельствуют о значительном прогрессе в автоматизированном извлечении табличной информации и открывают новые возможности для анализа больших объёмов данных.

Перспективы: К Комплексному Искусственному Интеллекту для Работы с Документами

В дальнейшем планируется расширение набора данных PubTables-v2 за счёт включения более широкого спектра типов документов и языков. Это позволит значительно повысить универсальность и применимость систем извлечения табличных данных, преодолевая ограничения, связанные с фокусировкой на конкретных областях знаний или лингвистических особенностях. Расширение охвата затронет не только научные публикации, но и техническую документацию, юридические тексты и другие форматы, содержащие структурированную информацию в табличном виде. Особое внимание будет уделено поддержке языков, недостаточно представленных в существующих наборах данных, что откроет возможности для создания многоязычных систем Document AI, способных обрабатывать информацию из различных источников по всему миру.

Интеграция систем извлечения таблиц с инструментами анализа структуры документов, такими как PubLayNet, представляется ключевым шагом к повышению их надёжности и точности. PubLayNet, предоставляя детальную информацию о расположении текстовых блоков, изображений и других элементов на странице, позволяет алгоритмам более эффективно идентифицировать и правильно интерпретировать табличные данные, даже в сложных и неструктурированных документах. Такой симбиоз позволяет не только точно определять границы таблиц, но и корректно восстанавливать их структуру, учитывая сложные случаи, когда табличные данные пересекаются с другими элементами документа. В результате, повышается устойчивость системы к различным вариациям форматирования и макетов документов, что является критически важным для обработки больших объёмов научной литературы и других сложных визуальных документов.

Конечная цель данных усовершенствований — создание комплексных систем искусственного интеллекта для работы с документами, способных не просто извлекать информацию из сложных визуальных источников, но и понимать её смысл и делать логические выводы. Эти системы, объединяя возможности извлечения табличных данных, анализа макета документов и обработки различных языков, откроют новые горизонты в автоматизации научных исследований, обработки юридических документов и других областях, требующих глубокого понимания структурированной информации, представленной в визуальной форме. Такой подход позволит перейти от простого распознавания текста к полноценному интеллектуальному анализу документов, что значительно повысит эффективность работы с большими объёмами данных и позволит извлекать из них ценные знания.

Самый короткий документ в тестовом наборе PubTables-v2 Full Documents состоит всего из двух страниц.
Самый короткий документ в тестовом наборе PubTables-v2 Full Documents состоит всего из двух страниц.

Исследование, представленное в статье, подчеркивает важность глубокого понимания структуры данных для эффективного извлечения таблиц. Авторы демонстрируют, что, несмотря на прогресс в области vision-language моделей, специализированные архитектуры по-прежнему превосходят их в решении сложных задач распознавания табличных структур. Это подтверждает, что понимание закономерностей в визуальном представлении данных имеет решающее значение. Как однажды заметил Джеффри Хинтон: «Я думаю, что нейронные сети — это просто очень сложные функции». Данное утверждение отражает суть подхода, описанного в статье: сложные данные требуют сложных, специализированных решений для их эффективной интерпретации и анализа.

Куда двигаться дальше?

Представленный датасет PubTables-v2, несомненно, открывает новые возможности для исследования извлечения таблиц, однако и подчеркивает существующие ограничения. Наблюдаемое превосходство специализированных моделей над vision-language моделями в задачах распознавания сложной структуры таблиц — это не столько триумф узкой специализации, сколько напоминание о необходимости глубокого понимания природы данных. Простое масштабирование моделей не гарантирует решение проблемы; требуется более тонкое моделирование логики табличного представления информации.

Важным направлением представляется расширение датасета в сторону таблиц, содержащих не только структурированные данные, но и элементы неструктурированного текста, диаграмм и графиков. Следует также уделить внимание разработке метрик оценки, более адекватно отражающих качество извлечения таблиц в реальных сценариях. Необходимо внимательно проверять границы данных, чтобы избежать ложных закономерностей, ведь кажущаяся точность может быть иллюзией.

В конечном итоге, задача извлечения таблиц — это не просто техническая проблема, но и вызов для искусственного интеллекта в целом. Способность машины понимать и интерпретировать структурированную информацию — это шаг к созданию действительно интеллектуальных систем, способных к анализу и синтезу знаний. И в этом смысле, PubTables-v2 — лишь отправная точка на пути к этой цели.


Оригинал статьи: https://arxiv.org/pdf/2512.10888.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-15 02:07