DocDancer: Искусственный интеллект, читающий между строк

Автор: Денис Аветисян

Новая модель искусственного интеллекта демонстрирует впечатляющую способность к поиску и пониманию информации в длинных документах, приближая нас к созданию по-настоящему «читающих» систем.

Система DocDancer обеспечивает эффективный поиск и осмысление информации в документах, объединяя инструменты поиска и чтения для обработки и анализа документов, что позволяет извлекать релевантные сведения из больших объемов текста.

Представлена агентская модель DocDancer для ответа на вопросы по документам, использующая синтетические данные и расширенные возможности обработки длинного контекста.

Несмотря на значительный прогресс в области ответа на вопросы по документам, существующие системы часто испытывают трудности с эффективным использованием инструментов и ограничены закрытыми моделями. В данной работе представлена система DocDancer: Towards Agentic Document-Grounded Information Seeking, разработанная как сквозной, открытый агент для поиска информации в документах. Предложен подход, формулирующий задачу как процесс исследования и осмысления, с использованием инструментального фреймворка и нового конвейера синтеза данных для обучения. Достигнутые результаты на эталонных наборах данных MMLongBench-Doc и DocBench демонстрируют эффективность предложенного решения, но какие перспективы открываются для дальнейшего улучшения агентных систем и синтеза данных в контексте обработки длинных документов?

За гранью простого поиска: вызовы понимания документов

Традиционные системы ответа на вопросы, основанные на анализе документов, зачастую полагаются на простой поиск релевантных фрагментов текста, что приводит к упущению важных нюансов и контекстуальной информации. Вместо глубокого понимания содержания документа, эти системы, как правило, идентифицируют ключевые слова или фразы, соответствующие запросу, и извлекают ближайшие предложения. Такой подход не позволяет учитывать сложные взаимосвязи между различными частями текста, неявные предположения автора или общий смысл документа, что приводит к неполным или неточным ответам. В результате, даже при наличии релевантной информации, система может не суметь правильно интерпретировать вопрос или предоставить ответ, учитывающий все аспекты контекста.

Существующие методы обработки текста сталкиваются со значительными трудностями при работе с длинными документами. Ограничения вычислительных ресурсов накладывают предел объему текста, который может быть эффективно проанализирован, что особенно актуально для современных моделей глубокого обучения. Более того, поддержание контекста на протяжении всего документа представляет собой серьезную проблему: информация, представленная в начале текста, может быть утеряна или принижена при обработке последующих частей. Это приводит к тому, что системы не способны улавливать сложные взаимосвязи и нюансы, содержащиеся в длинных текстах, и, как следствие, выдают неполные или неточные ответы на вопросы, требующие глубокого понимания всего документа в целом. Решение этой проблемы требует разработки новых алгоритмов и архитектур, способных эффективно обрабатывать большие объемы текста, сохраняя при этом важный контекст и обеспечивая точное извлечение информации.

Предложенный нами DocDancer успешно собирает информацию в несколько этапов для получения корректного ответа, в отличие от OS-QA, который выдает неверный результат, что демонстрируется на примере исследования.

DocDancer: агентский подход к поиску информации

В отличие от традиционных систем ответа на вопросы, основанных на извлечении информации из заданного текста, DocDancer рассматривает процесс QA как активный поиск информации, имитирующий стратегии чтения, используемые человеком. Вместо пассивного анализа предоставленного документа, система самостоятельно формулирует вопросы, ищет релевантные фрагменты информации в документе, а затем синтезирует полученные данные для формирования ответа. Такой подход позволяет DocDancer более эффективно обрабатывать сложные вопросы, требующие анализа нескольких частей документа, и адаптироваться к различным стилям и структурам текста, подобно тому, как это делает человек при чтении и понимании информации.

Архитектура DocDancer реализует синергичное сочетание фреймворка ReAct и конвейера «исследование-синтез». ReAct обеспечивает итеративный процесс, в котором модель языка чередует рассуждения (Reasoning) и действия (Action), позволяя ей динамически формировать и корректировать стратегию поиска информации. Конвейер «исследование-синтез» структурирует процесс обработки документов: сначала осуществляется активное исследование релевантных источников с помощью инструментов поиска и чтения, а затем полученная информация синтезируется для формирования ответа на вопрос. Данная комбинация позволяет DocDancer эффективно находить и извлекать информацию из документов, имитируя процесс активного чтения и анализа, характерный для человека.

В основе архитектуры DocDancer лежат большие языковые модели Qwen3-30B-A3B-Thinking-2507 и Qwen3-4B-Thinking-2507, используемые в качестве движков логического вывода. Эти модели обеспечивают способность системы к рассуждениям, позволяя DocDancer не просто извлекать информацию из документов, но и анализировать её, строить логические связи и формировать ответы на вопросы. Выбор моделей Qwen3 обусловлен их высокой производительностью и способностью к эффективной обработке естественного языка, что критически важно для задач вопросно-ответной системы. Модели Thinking-семейства, в частности, оптимизированы для задач, требующих последовательного мышления и планирования действий, что соответствует принципам работы DocDancer как агента, активно ищущего информацию.

Архитектура DocDancer включает в себя инструменты поиска (Search Tool) и чтения (Read Tool), которые используются для активного исследования документов и извлечения релевантной информации. Инструмент поиска позволяет DocDancer находить документы, содержащие потенциально полезные сведения, основываясь на запросе, сформулированном моделью. Инструмент чтения, в свою очередь, предназначен для извлечения конкретных фрагментов текста из найденных документов, которые затем используются для ответа на вопрос. Комбинация этих инструментов позволяет DocDancer имитировать процесс активного поиска и анализа информации, характерный для человеческого чтения, и эффективно находить ответы на вопросы, требующие анализа нескольких источников.

DocDancer демонстрирует превосходящую производительность по сравнению с моделью, обученной на OS-QA, по всем категориям MMLongBench-Doc.

Строгая оценка и результаты на ключевых бенчмарках

Модель DocDancer демонстрирует передовые результаты в обработке длинных документов, достигая наивысших показателей на двух ключевых бенчмарках: DocBench и MMLongBench-Doc. Это свидетельствует о её превосходстве в задачах, требующих понимания и анализа больших объемов текста, в сравнении с существующими решениями. Данные результаты подтверждают способность DocDancer эффективно справляться со сложными задачами, связанными с обработкой документации и длинноформатного контента.

В ходе оценки на бенчмарке MMLongBench-Doc, модель DocDancer продемонстрировала показатель F1 в 56.8, что превосходит результаты предыдущих передовых моделей. Данный результат подтверждает способность DocDancer эффективно обрабатывать и анализировать длинные документы, обеспечивая высокую точность извлечения информации и ответов на вопросы, сформулированные на основе этих документов. Превышение предыдущих результатов указывает на значительный прогресс в области обработки длинных текстов и представляет собой важный шаг к созданию более эффективных систем анализа документов.

В ходе оценки на наборе данных DocBench модель DocDancer продемонстрировала точность в 85.5%, что на 4 процентных пункта превышает показатели, достигнутые людьми-экспертами. Данный результат подтверждает высокую эффективность DocDancer в задачах обработки и понимания длинных документов, а также свидетельствует о превосходстве модели над существующими человеческими оценками в данной области.

Оценка LasJ (LLM-as-Judge) в 67.6 баллов дополнительно подтверждает эффективность DocDancer при работе с набором данных MMLongBench-Doc. LasJ представляет собой методологию оценки, использующую большие языковые модели (LLM) в качестве судей для автоматической оценки качества ответов. Высокий показатель LasJ указывает на то, что DocDancer генерирует ответы, которые LLM-судьи оценивают как более релевантные и точные по сравнению с другими моделями, протестированными на MMLongBench-Doc, что свидетельствует о превосходной производительности в задачах обработки длинных документов.

Инструмент Read использует многомодальную модель суммирования для консолидации как текстовой, так и визуальной информации, что позволяет повысить его возможности понимания. Данная модель обрабатывает и интегрирует данные из различных источников, включая текст и изображения, для создания более полного и точного представления о содержании документа. В результате, Read способен более эффективно извлекать ключевую информацию и обеспечивать более глубокое понимание сложных документов, содержащих как текстовые, так и визуальные элементы.

Первоначальная оценка модели DocDancer осуществлялась с использованием больших языковых моделей (LLM), включая GPT-4, GPT-4o и Gemini-2.5-Pro. Эти LLM применялись как для генерации ответов на поставленные задачи, так и для последующей оценки качества этих ответов. Использование нескольких LLM позволило обеспечить более надежную и всестороннюю оценку производительности DocDancer, учитывая различные подходы к обработке и анализу данных, характерные для каждой модели.

Оценка производительности Readtool на датасете DocBench в различных областях, таких как академическая литература, финансы, государственная документация, юриспруденция и новости, показывает обобщенную точность различных моделей.

Преодоление сложности документов: анализ структуры и OCR

В основе системы DocDancer лежит алгоритм MinerU2.5, обеспечивающий высокоточный анализ структуры документов. Этот алгоритм позволяет эффективно выделять различные элементы документа — заголовки, абзацы, таблицы, изображения — даже в случаях сложного и нестандартного форматирования. Благодаря MinerU2.5, система способна корректно интерпретировать расположение текста и графических объектов, что критически важно для извлечения значимой информации из документов различной сложности. Такой подход гарантирует, что даже документы с запутанной структурой будут обработаны с высокой степенью точности, позволяя автоматизировать задачи, ранее требовавшие ручного анализа.

В DocDancer используется технология оптического распознавания символов (OCR) для преобразования отсканированных документов и изображений в машиночитаемый текст. Этот процесс позволяет системе работать не только с цифровыми документами, но и с бумажными архивами, фотографиями текстов и другими визуальными источниками информации. Благодаря OCR, DocDancer значительно расширяет спектр обрабатываемых материалов, делая возможным анализ и извлечение данных даже из документов, изначально недоступных в цифровом формате. Это открывает новые возможности для автоматизации обработки больших объемов информации и повышения эффективности работы с документами различного происхождения.

Сочетание анализа макета документа и оптического распознавания символов (OCR) значительно повышает точность и надежность извлечения информации из документов, встречающихся в реальной практике. Традиционно, сложные форматы документов, включающие таблицы, многоколоночный текст и изображения, представляли собой серьезную проблему для систем автоматизированной обработки. Анализ макета позволяет DocDancer точно определять структуру документа — распознавать заголовки, абзацы, списки и другие элементы, — в то время как OCR преобразует отсканированные изображения текста в машиночитаемый формат. Благодаря этому комплексному подходу, система способна корректно извлекать данные даже из документов с неидеальным качеством сканирования или сложной компоновкой, минимизируя ошибки и обеспечивая высокую степень достоверности извлеченной информации. Такое сочетание технологий открывает новые возможности для автоматизации обработки больших объемов документов и получения ценных знаний из неструктурированных данных.

Улучшенная обработка сложных документов открывает новые возможности в различных областях знаний и практики. В юридической сфере это позволяет автоматизировать проверку больших объемов документации, выявлять ключевые положения и обеспечивать более точное соблюдение нормативных требований. В научной сфере, особенно при анализе обширной научной литературы, система позволяет извлекать данные из сложных таблиц, графиков и диаграмм, ускоряя процесс исследований и выявления закономерностей. Возможность эффективной работы с неструктурированными данными, содержащимися в разнообразных документах, существенно повышает производительность специалистов и открывает путь к новым открытиям и инновациям в самых разных областях, от финансов и здравоохранения до государственного управления и архивного дела.

Исследование абляции показывает, что компоненты разбора документов и используемые инструменты существенно влияют на общую производительность системы.

Наблюдатель отмечает, что DocDancer, как и любая сложная система, неизбежно столкнётся с суровой реальностью продакшена. Идея синтетической генерации данных, безусловно, элегантна, но рано или поздно, граничные случаи, не учтенные в процессе обучения, дадут о себе знать. Как однажды заметил Г.Х. Харди: «Наиболее плодотворная математика, как правило, связана с неожиданными связями между, казалось бы, несвязанными областями». Точно так же, DocDancer, стремясь к универсальности в понимании документов, рано или поздно обнаружит, что идеальная абстракция, воплощенная в моделях, сталкивается с хаосом реальных данных. И это, в общем-то, закономерно — все, что можно задеплоить, однажды упадёт.

Куда Ведет Этот Танец?

Представленная работа, безусловно, демонстрирует возможности агентных систем в области поиска информации по документам. Однако, за элегантностью архитектуры и впечатляющими результатами неизбежно скрывается растущий технический долг. Генерация синтетических данных, пусть и эффективная, — это лишь временное решение. Рано или поздно, потребность в размеченных данных вернется, оптимизированная, но все же требующая ручного труда. Архитектура — это не схема, а компромисс, переживший деплой, и этот компромисс всегда требует пересмотра.

Более фундаментальная проблема заключается в самой природе “понимания” документов. Достигнутые улучшения в обработке длинного контекста — это, скорее, усовершенствование статистических алгоритмов, чем реальное приближение к семантическому пониманию. Всё, что оптимизировано, рано или поздно оптимизируют обратно — и следующее поколение систем столкнется с новыми ограничениями в обработке еще более сложных и неоднозначных текстов.

Вместо гонки за увеличением контекстного окна, возможно, стоит обратить внимание на методы, позволяющие агентам самостоятельно формулировать более точные запросы и критически оценивать полученные ответы. Мы не рефакторим код — мы реанимируем надежду, и эта надежда требует более глубокого понимания того, как машины “читают” и “думают”.

Оригинал статьи: https://arxiv.org/pdf/2601.05163.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-10 12:40

🚀 Квантовые новости