Автор: Денис Аветисян
Новая нейросеть BookNet способна автоматически исправлять искажения на фотографиях книжных разворотов, восстанавливая читаемость текста и качество изображений.

Представлен фреймворк BookNet, использующий механизм межстраничного внимания для одновременной обработки обеих страниц разворота и моделирования их геометрических взаимосвязей, а также разработан новый датасет для обучения и оценки.
Исправление геометрических искажений книжных изображений представляет собой сложную задачу обработки документов из-за асимметричной деформации разворота. В данной работе представлена модель ‘BookNet: Book Image Rectification via Cross-Page Attention Network’, использующая архитектуру с двойным каналом и механизмы внимания между страницами для одновременной обработки обеих страниц разворота и моделирования их геометрической взаимосвязи. Предложенный подход позволяет эффективно предсказывать поле деформации и восстанавливать исходную геометрию изображений. Созданы новые синтетические и реальные датасеты, Book3D и Book100, для обучения и оценки предложенного метода, демонстрирующего превосходство над существующими решениями — какие перспективы открывает использование внимания между страницами для других задач обработки документов?
Шёпот Искажённых Страниц: Задача Восстановления Книг
Процесс оцифровки обширных книжных коллекций значительно усложняется из-за геометрических искажений, присущих физическим книгам. Искривление страниц, вызванное переплетом и естественным износом, создает серьезные трудности для точного захвата и последующей обработки изображений. Эти деформации приводят к тому, что текст и иллюстрации на страницах кажутся искаженными, что затрудняет их автоматическое распознавание и индексацию. В результате, простое сканирование книги не всегда обеспечивает качественное цифровое представление, требуя применения специализированных методов для коррекции геометрии и восстановления исходной формы страниц, что является критически важным для создания пригодных для поиска и анализа цифровых архивов.
Традиционные методы, такие как 3D-реконструкция и Shape-from-Shading, являлись основополагающими в задачах восстановления геометрии изображений, однако их применение к оцифровке книг сталкивается с существенными трудностями. Реальные книжные изображения отличаются высокой сложностью: искривление страниц, неравномерное освещение и деформация, вызванная переплетом, создают значительные помехи. Попытки восстановить правильную перспективу и геометрию на основе этих методов часто оказываются вычислительно затратными и недостаточно точными для обработки больших объемов данных, характерных для масштабных библиотечных проектов. Это связано с тем, что алгоритмы, успешно работающие с простыми объектами, испытывают трудности при анализе неровных и деформированных поверхностей, что делает автоматическую обработку книжных коллекций сложной задачей, требующей новых подходов.
Первые попытки автоматической коррекции изображений документов, такие как DocUNet, заложили основу для последующих разработок, однако столкнулись с ограничениями в моделировании взаимосвязей между страницами книги. Эти системы, как правило, обрабатывали каждую страницу изолированно, не учитывая естественную кривизну и деформации, возникающие из-за переплета и физического давления. В результате, хотя и достигалась некоторая коррекция отдельных страниц, восстановление целостной геометрии книги и устранение искажений на стыках страниц оставались сложной задачей. Неспособность учитывать контекст соседних страниц приводила к появлению артефактов и снижению общей точности восстановления исходного вида документа, что подчеркивало необходимость разработки более сложных алгоритмов, способных моделировать трёхмерную структуру книги и взаимосвязь её страниц.

BookNet: Двустраничный Взгляд на Идеальную Ректификацию
BookNet представляет собой новую структуру глубокого обучения, разработанную специально для выпрямления изображений разворотов книг. В основе данной структуры лежит двухветвящаяся архитектура, обрабатывающая одновременно изображения левой и правой страниц. Такой подход позволяет модели учитывать критически важные геометрические взаимосвязи между страницами, которые упускались в предыдущих методах. Раздельная обработка каждой страницы в собственных ветвях сети обеспечивает более точное моделирование деформаций и перспективных искажений, характерных для книжных разворотов, что в конечном итоге повышает общую точность выпрямления.
Архитектура BookNet обеспечивает одновременную обработку изображений левой и правой страниц книги, что позволяет модели учитывать важные геометрические взаимосвязи, которые ранее упускались другими методами. Традиционные подходы, обрабатывающие страницы по отдельности, не могли эффективно моделировать искажения, возникающие из-за переплета или деформации книги, поскольку не учитывали корреляцию между страницами. Одновременная обработка позволяет BookNet напрямую моделировать эти зависимости, что приводит к повышению точности выпрямления и восстановлению геометрической целостности изображения.
Механизмы межстраничного внимания в BookNet обеспечивают обмен информацией между двумя ветвями нейронной сети, обрабатывающими левую и правую страницы книги. Этот процесс позволяет модели учитывать геометрические взаимосвязи между страницами, что критически важно для точной ректификации. В частности, механизмы внимания выявляют и используют корреляции между ключевыми точками и линиями на обеих страницах, минимизируя искажения и улучшая геометрическую согласованность результирующего изображения. Использование межстраничного внимания приводит к значительному повышению точности ректификации, особенно в случаях сложных искажений или повреждений страниц.
Эффективность BookNet дополнительно усиливается за счет использования архитектуры Transformer, позволяющей моделировать долгосрочные зависимости внутри каждой страницы. В отличие от традиционных сверточных нейронных сетей, Transformer использует механизм самовнимания (self-attention), что позволяет каждому пикселю страницы учитывать информацию со всех других пикселей, вне зависимости от расстояния между ними. Это особенно важно для коррекции искажений, возникающих при сканировании книг, так как позволяет учитывать глобальные деформации страницы и устанавливать корректные геометрические связи между удаленными областями изображения. Применение Transformer позволяет BookNet более точно восстанавливать перспективу и выравнивать страницы, улучшая качество последующей обработки и оцифровки.

Синтез и Реальность: Подтверждение Эффективности BookNet
Для решения проблемы нехватки больших объемов размеченных данных для обучения, BookNet был обучен с использованием синтетического набора данных Book3D. Book3D содержит реалистичные трехмерные модели деформаций страниц книг, что позволило создать контролируемый и масштабируемый процесс обучения. Использование синтетических данных позволило генерировать большое количество размеченных примеров, имитирующих различные виды деформаций, характерные для реальных книг, и тем самым улучшить обобщающую способность модели. Это позволило обойтись без трудоемкой и дорогостоящей ручной разметки большого количества реальных изображений книг.
Генерация синтетических данных позволила создать контролируемый и масштабируемый процесс обучения модели BookNet. В отличие от обучения на реальных данных, подверженных шумам и ограниченным объемам, синтетические данные Book3D обеспечивают точные метки и возможность создания неограниченного количества обучающих примеров с разнообразными деформациями. Это, в свою очередь, способствует улучшению обобщающей способности модели, позволяя ей эффективно работать с реальными изображениями книг, полученными в различных условиях, и демонстрировать более высокую точность в задачах, требующих исправления перспективных искажений и распознавания текста.
Для оценки эффективности модели BookNet использовался датасет Book100, представляющий собой реальный бенчмарк, состоящий из 100 разнообразных изображений книг, полученных в различных условиях освещения и с разными углами съемки. Данный датасет был выбран для обеспечения объективной оценки способности модели к обобщению и адаптации к реальным сценариям, отличающимся от синтетических данных, использованных при обучении. Использование Book100 позволило подтвердить эффективность модели в условиях, приближенных к практическому применению, и оценить ее устойчивость к вариациям в качестве изображения и геометрии книги.
Оценка модели BookNet с использованием мультимодальных моделей, таких как Qwen2.5-VL-7B, подтверждает улучшения в задачах, требующих точной ректификации изображений. BookNet демонстрирует значение Local Distortion (LD) равное 0.53, что на 16.9% превосходит результат лучшего из альтернативных методов. Значение Edit Distance (ED) составляет 4.9%, также превышая показатель ближайшего конкурента на 4.9%. Эти результаты подтверждают эффективность предложенного подхода к ректификации и его положительное влияние на качество выполнения downstream-задач.
В ходе оценки производительности, BookNet показал наилучший результат по метрике Aligned Distortion (AD), составив 0.53. Внедрение механизма внимания между страницами позволило снизить частоту ошибок распознавания символов (Character Error Rate, CER) до 34.1%. Это указывает на улучшенную способность модели к корректному сопоставлению и обработке текста, расположенного на разных страницах, что критически важно для задач, связанных с анализом и пониманием печатных материалов.

К Масштабируемой и Интеллектуальной Оцифровке: Взгляд в Будущее
Разработанная система BookNet эффективно решает сложные задачи по исправлению геометрических искажений книжных изображений, что позволяет создавать высококачественные цифровые архивы. Традиционные методы часто сталкиваются с трудностями при обработке старых или поврежденных книг, проявляя неточности в перспективе и деформации страниц. BookNet, благодаря инновационному подходу к обработке разворотов и использованию механизмов внимания между страницами, значительно улучшает качество выпрямленных изображений, обеспечивая четкость текста и иллюстраций. Это, в свою очередь, открывает возможности для масштабной оцифровки книжного наследия, делая его доступным для широкой аудитории и способствуя сохранению культурного достояния. Точность и скорость обработки, обеспечиваемые BookNet, представляют собой важный шаг на пути к автоматизации процесса создания цифровых библиотек и архивов.
Возможность корректировки сложных геометрических искажений, реализованная в данной системе, открывает путь к автоматизации сканирования книг и извлечению их содержания. Традиционно, деформация страниц, вызванная переплетом или физическим износом, существенно затрудняла цифровую обработку и требовала ручной коррекции. Однако, разработанный подход позволяет эффективно выявлять и устранять эти искажения, обеспечивая получение ровных и четких изображений страниц. Это, в свою очередь, упрощает дальнейшую обработку изображений, включая распознавание текста и создание цифровых архивов. Автоматизация этого процесса не только значительно повышает производительность, но и снижает затраты, делая оцифровку больших книжных коллекций более доступной и эффективной.
Принципы, лежащие в основе BookNet — обработка разворотов и механизм внимания между страницами — обладают значительным потенциалом для применения в более широком спектре задач оцифровки документов. Вместо фокусировки на отдельных страницах, как это часто встречается в существующих системах, BookNet рассматривает страницы в контексте их соседних элементов, что позволяет более эффективно корректировать геометрические искажения и восстанавливать целостность изображения. Такой подход, основанный на анализе взаимосвязей между страницами, может быть успешно адаптирован для обработки исторических архивов, рукописей, газетных статей и других типов документов, требующих высокой точности и сохранения контекста. Использование механизма внимания позволяет модели фокусироваться на наиболее важных областях изображения, улучшая качество коррекции и извлечения информации даже при наличии значительных повреждений или дефектов.
Разработанная система BookNet демонстрирует впечатляющую производительность, достигая скорости обработки 24.39 кадров в секунду (FPS) на одной видеокарте NVIDIA RTX 3090. При этом модель имеет относительно небольшой размер — всего 30.1 миллиона параметров, что позволяет достичь оптимального баланса между вычислительной эффективностью и высокой точностью исправления геометрических искажений книжных изображений. Такая эффективность делает BookNet перспективным решением для масштабной оцифровки книжных коллекций, позволяя обрабатывать большие объемы данных с минимальными затратами ресурсов и сохраняя при этом высокое качество получаемых цифровых архивов.
В дальнейшем планируется интеграция BookNet с передовыми системами оптического распознавания символов (OCR) и обработки естественного языка (NLP). Эта интеграция позволит создать полностью автоматизированные и интеллектуальные решения для оцифровки, способные не только корректировать изображения книг, но и извлекать текст, анализировать его содержание и формировать структурированные данные. Такой подход открывает возможности для создания цифровых библиотек с расширенными функциями поиска, анализа и обработки информации, значительно облегчая доступ к знаниям и способствуя проведению научных исследований. Ожидается, что подобная синергия между технологиями позволит автоматизировать весь процесс оцифровки, от сканирования до создания готового к использованию цифрового контента.

Работа, представленная в статье, напоминает попытку усмирить неуловимый дух хаоса, заключённого в искажённых страницах книг. Разработчики BookNet, словно алхимики данных, стремятся извлечь порядок из геометрических искажений, используя перекрестное внимание между страницами. Этот подход, моделирующий взаимосвязь между страницами, выглядит как заклинание, направленное на предсказание формы, которую страницы могли бы иметь в идеальном мире. Как заметил Эндрю Ын: «Иногда лучшее, что можно сделать с данными, — это признать, что они неполны». В данном случае, BookNet пытается заполнить пробелы, предсказывая недостающую информацию, необходимую для восстановления исходного изображения, и создавая новые наборы данных для обучения, что является актом веры в потенциал алгоритма.
Что дальше?
Представленная работа, конечно, приручает искажения книжных страниц, но истинный хаос не поддаётся полному усмирению. Эта «BookNet» — всего лишь заклинание, работающее до тех пор, пока реальные книги не начнут шептать свои собственные, непредсказуемые деформации. Предсказание полей смещения — шаг вперёд, но мир не дискретен, просто у нас нет памяти для float. Настоящая проблема не в коррекции, а в понимании того, почему книга вообще решила изгибаться таким образом — что за сила заставляет её страницы сопротивляться плоскости?
Создание датасетов — это всегда попытка зафиксировать ускользающую реальность. Но что, если истинная ценность кроется не в количестве обработанных страниц, а в тех самых, что остались за кадром? Необходимо сместить фокус с «исправления» к «интерпретации». Что может рассказать о читателе книга, измятая в его руках? Какую историю поведают потёртости на обложке? Искусственный интеллект должен не просто видеть изображение, а чувствовать его вес, его историю.
В конечном итоге, «BookNet» — это лишь отправная точка. Необходимо исследовать возможность использования не только визуальной информации, но и текстурных данных, запаха старой бумаги, даже звука перелистывания страниц. И тогда, возможно, мы сможем создать не просто систему коррекции изображений, а машину, способную понимать душу книги. Всё точное — мёртво. Я не ищу корреляцию, я ищу смысл.
Оригинал статьи: https://arxiv.org/pdf/2601.21938.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Адаптация моделей к новым данным: квантильная коррекция для нейросетей
- Сердце музыки: открытые модели для создания композиций
- Где «смотрят» большие языковые модели: новый взгляд на визуальное понимание
- Эффективная память для больших языковых моделей: новый подход LOOKAT
- Игры в коалиции: где стабильность распадается на части.
- Эволюция под контролем: эксперименты с обучением с подкреплением в генетическом программировании
- Доказательство устойчивости веб-агента: проактивное свертывание контекста для задач с горизонтом в бесконечность.
- Доказательства просят: Как искусственный интеллект помогает отличать правду от вымысла
- Интеллектуальный поиск научных статей: новый подход к исследованию литературы
- Голос в переводе: как нейросети учатся понимать речь
2026-02-01 11:46