Восстановление текстового слоя PDF документов со сложным фоном
https://doi.org/10.15514/ISPRAS-2024-36(3)-13
Аннотация
В статье рассматривается формат PDF как инструмент для хранения и передачи документов. Особое внимание уделяется проблеме преобразования данных из формата PDF обратно в исходный формат. Актуальность исследования обусловлена широким использованием формата PDF в электронном документообороте современных организаций. Однако, несмотря на удобство использования PDF, извлечение информации из таких документов может быть затруднено из-за особенностей хранения информации в формате и отсутствия эффективных инструментов для обратного преобразования. В работе предлагается решение, основанное на анализе потока вывода текстовой информации формата PDF. Это позволяет автоматически распознавать текст в PDF-документах, даже если в них есть нестандартные шрифты, сложный фон и повреждена кодировка. Исследование представляет интерес для специалистов в области электронного документооборота, а также для разработчиков программного обеспечения, занимающихся созданием инструментов для работы с PDF.
Об авторах
Михаил Викторович ЗАГОРОДНИКОВРоссия
Бакалавр направления подготовки «Прикладная информатика» Иркутского государственного университета, стажер-исследователь в молодёжной лаборатории искусственного интеллекта, обработки и анализа данных, стипендиат Института системного программирования им. В.П. Иванникова Российской академии наук. Сфера научных интересов: нейронные сети, анализ электронных документов.
Андрей Анатольевич МИХАЙЛОВ
Россия
Заведующий молодёжной лаборатории искусственного интеллекта, обработки и анализа данных Института динамики систем и теории управления имени В.М. Матросова. Его научные интересы включают анализ электронных документов, распознавание образов.
Список литературы
1. Awel M. A., Abidi A. I. Review on optical character recognition // International Research Journal of Engineering and Technology (IRJET). — 2019. — Т. 6, No 6. — С. 3666—3669.
2. A detailed review on text extraction using optical character recognition / C. Thorat [и др.] // ICT Analysis and Applications. – 2022. – С. 719-728.
3. Haralambous Y. Fonts & encodings. – "O’Reilly Media, Inc.", 2007.
4. Tauber J. K. Character encoding of classical languages // 2019). Digital classical philology: Ancient Greek and Latin in the digital revolution. – 2019. – С. 137-158.
5. Jain P., Taneja K., Taneja H. Which OCR toolset is good and why: A comparative study // Kuwait Journal of Science. – 2021. – Т. 48, No 2.
6. Padova T. Adobe Acrobat 8 PDF Bible. Т. 363. – John Wiley & Sons, 2007.
7. Smith R. An overview of the Tesseract OCR engine // Ninth international conference on document analysis and recognition (ICDAR 2007). Т. 2. – IEEE. 2007. – С. 629-633.F
8. Bisong E., Bisong E. Google colaboratory // Building machine learning and deep learning models on google cloud platform: a comprehensive guide for beginners. – 2019. – С. 59-64.
9. EMNIST: Extending MNIST to handwritten letters / G. Cohen [и др.] // 2017 international joint conference on neural networks (IJCNN). – IEEE. 2017. – С. 2921-2926.
10. Khalifa N. E., Loey M., Mirjalili S. A comprehensive survey of recent trends in deep learning for digital images augmentation // Artificial Intelligence Review. – 2022. – Т. 55, No 3. – С. 2351-2377.
11. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images / D. Akinbade [и др.] // Journal of Computer Science. – 2020. – Т. 16, No 6. – С. 784 - 801.
12. DocBed: A multi-stage OCR solution for documents with complex layouts / W. Zhu [и др.] // Proceedings of the AAAI Conference on Artificial Intelligence. Т. 36. – 2022. – С. 12643–12649.
13. Belyaeva O., Bogatenkova A., Turdakov D. Dedoc: A Universal System for Extracting Content and Logical Structure From Textual Documents //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – С. 20-25.
14. LEVENSHTEIN V. I. // Discrete Mathematics and Applications. – 1992. – Т. 2, No 3. – С. 241–258. – DOI: doi:10.1515/dma.1992.2.3.241. – URL: https://doi.org/10.1515/dma.1992.2.3.241.
Рецензия
Для цитирования:
ЗАГОРОДНИКОВ М.В., МИХАЙЛОВ А.А. Восстановление текстового слоя PDF документов со сложным фоном. Труды Института системного программирования РАН. 2024;36(3):189-202. https://doi.org/10.15514/ISPRAS-2024-36(3)-13
For citation:
ZAGORODNIKOV M.V., MIKHAYLOV A.A. Recovering Text Layer from PDF Documents with Complex Background. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2024;36(3):189-202. (In Russ.) https://doi.org/10.15514/ISPRAS-2024-36(3)-13