Восстановление текстового слоя PDF документов со сложным фоном

Михаил Викторович ЗАГОРОДНИКОВ; Андрей Анатольевич МИХАЙЛОВ

doi:10.15514/ISPRAS-2024-36(3)-13

Восстановление текстового слоя PDF документов со сложным фоном

Михаил Викторович ЗАГОРОДНИКОВ, Андрей Анатольевич МИХАЙЛОВ

https://doi.org/10.15514/ISPRAS-2024-36(3)-13

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

В статье рассматривается формат PDF как инструмент для хранения и передачи документов. Особое внимание уделяется проблеме преобразования данных из формата PDF обратно в исходный формат. Актуальность исследования обусловлена широким использованием формата PDF в электронном документообороте современных организаций. Однако, несмотря на удобство использования PDF, извлечение информации из таких документов может быть затруднено из-за особенностей хранения информации в формате и отсутствия эффективных инструментов для обратного преобразования. В работе предлагается решение, основанное на анализе потока вывода текстовой информации формата PDF. Это позволяет автоматически распознавать текст в PDF-документах, даже если в них есть нестандартные шрифты, сложный фон и повреждена кодировка. Исследование представляет интерес для специалистов в области электронного документооборота, а также для разработчиков программного обеспечения, занимающихся созданием инструментов для работы с PDF.

Ключевые слова

кодировка, PDF, документы, CNN, извлечение, текст

Об авторах

Михаил Викторович ЗАГОРОДНИКОВ

Институт динамики систем и теории управления им. В.М. Матросова СО РАН
Россия

Бакалавр направления подготовки «Прикладная информатика» Иркутского государственного университета, стажер-исследователь в молодёжной лаборатории искусственного интеллекта, обработки и анализа данных, стипендиат Института системного программирования им. В.П. Иванникова Российской академии наук. Сфера научных интересов: нейронные сети, анализ электронных документов.

Андрей Анатольевич МИХАЙЛОВ

Институт динамики систем и теории управления им. В.М. Матросова СО РАН Институт системного программирования им. В.П. Иванникова РАН
Россия

Заведующий молодёжной лаборатории искусственного интеллекта, обработки и анализа данных Института динамики систем и теории управления имени В.М. Матросова. Его научные интересы включают анализ электронных документов, распознавание образов.

Список литературы

1. Awel M. A., Abidi A. I. Review on optical character recognition // International Research Journal of Engineering and Technology (IRJET). — 2019. — Т. 6, No 6. — С. 3666—3669.

2. A detailed review on text extraction using optical character recognition / C. Thorat [и др.] // ICT Analysis and Applications. – 2022. – С. 719-728.

3. Haralambous Y. Fonts & encodings. – "O’Reilly Media, Inc.", 2007.

4. Tauber J. K. Character encoding of classical languages // 2019). Digital classical philology: Ancient Greek and Latin in the digital revolution. – 2019. – С. 137-158.

5. Jain P., Taneja K., Taneja H. Which OCR toolset is good and why: A comparative study // Kuwait Journal of Science. – 2021. – Т. 48, No 2.

6. Padova T. Adobe Acrobat 8 PDF Bible. Т. 363. – John Wiley & Sons, 2007.

7. Smith R. An overview of the Tesseract OCR engine // Ninth international conference on document analysis and recognition (ICDAR 2007). Т. 2. – IEEE. 2007. – С. 629-633.F

8. Bisong E., Bisong E. Google colaboratory // Building machine learning and deep learning models on google cloud platform: a comprehensive guide for beginners. – 2019. – С. 59-64.

9. EMNIST: Extending MNIST to handwritten letters / G. Cohen [и др.] // 2017 international joint conference on neural networks (IJCNN). – IEEE. 2017. – С. 2921-2926.

10. Khalifa N. E., Loey M., Mirjalili S. A comprehensive survey of recent trends in deep learning for digital images augmentation // Artificial Intelligence Review. – 2022. – Т. 55, No 3. – С. 2351-2377.

11. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images / D. Akinbade [и др.] // Journal of Computer Science. – 2020. – Т. 16, No 6. – С. 784 - 801.

12. DocBed: A multi-stage OCR solution for documents with complex layouts / W. Zhu [и др.] // Proceedings of the AAAI Conference on Artificial Intelligence. Т. 36. – 2022. – С. 12643–12649.

13. Belyaeva O., Bogatenkova A., Turdakov D. Dedoc: A Universal System for Extracting Content and Logical Structure From Textual Documents //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 20-25.

14. LEVENSHTEIN V. I. // Discrete Mathematics and Applications. – 1992. – Т. 2, No 3. – С. 241–258. – DOI: doi:10.1515/dma.1992.2.3.241. – URL: https://doi.org/10.1515/dma.1992.2.3.241.

Рецензия

Для цитирования:

ЗАГОРОДНИКОВ М.В., МИХАЙЛОВ А.А. Восстановление текстового слоя PDF документов со сложным фоном. Труды Института системного программирования РАН. 2024;36(3):189-202. https://doi.org/10.15514/ISPRAS-2024-36(3)-13

For citation:

ZAGORODNIKOV M.V., MIKHAYLOV A.A. Recovering Text Layer from PDF Documents with Complex Background. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2024;36(3):189-202. (In Russ.) https://doi.org/10.15514/ISPRAS-2024-36(3)-13

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Труды Института системного программирования РАН

Восстановление текстового слоя PDF документов со сложным фоном

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов