Векторные представления шрифтов: дополнительный признак для понимания документов
https://doi.org/10.15514/ISPRAS-2025-37(6)-44
Аннотация
В статье представлена модель на основе сверточной нейронной сети, которая ставит в соответствие изображению текста векторы, кодирующие информацию о шрифтах. Модель состоит из двух идентичных сверточных блоков, объединяющих признаки в вектор, который затем анализируется линейными слоями для поиска отличий. Обученная таким образом модель способна различать шрифты, игнорируя содержание текста, что делает ее универсальной для различных типов документов. Векторные представления шрифтов тестируются на дополнительных задачах, таких как классификация текста по жирности начертания и наклону, демонстрируя высокую точность и подтверждая их полезность для анализа стилевых особенностей. Эксперименты с вариативными и ручными шрифтами показывают универсальность модели и ее применимость для работы с разнообразными данными. Результаты сравнения с базовой моделью подтверждают эффективность предложенной архитектуры. Однако выявлены ограничения, связанные с работой на данных низкого качества и мультиязычных текстах, что открывает направления для будущих исследований. Предложенный подход представляет значительный вклад в область обработки документов, расширяя возможности анализа шрифтов и их использования в задачах классификации, поиска и выделения ключевых элементов текста. Код и модели были опубликованы на GitHub (https://github.com/YRL-AIDA/FontEmb).
Ключевые слова
Об авторах
Даниил Евгеньевич КОПЫЛОВРоссия
Магистрант направления подготовки «Прикладная математика и информатика» Иркутского государственного университета, сотрудник Института динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук. Сфера научных интересов: прикладная математика, анализ данных.
Мария Викторовна ЩУРИК
Россия
Бакалавр направления подготовки «Прикладная математика и информатика» Иркутского государственного университета. Сфера научных интересов: прикладная математика, анализ данных, искусственный интеллект.
Список литературы
1. Xu Y., Li M., Cui L. Huang S. Zhou M. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In Proc. of the 26th ACM SIGKDD, 2020, pp. 1192-1200. DOI:10.1145/3394486.3403172.
2. Brzakovic D., Tou J. T. An approach to computer-aided document examination. International journal of computer & information sciences, vol. 14, 1985, pp. 365-385.
3. Allier B., Emptoz H. Type extraction and character prototyping using Gabor filters. In Proc. of the 7th ICDAR, 2003, pp. 799-803. DOI: 10.1109/ICDAR.2003.1227772.
4. O’Donovan P., Lībeks J., Agarwala A., Hertzmann A. Exploratory font selection using crowdsourced attributes. ACM Transactions on Graphics, vol. 33, pp. 1–9. DOI:10.1145/2601097.2601110.
5. Wang Z., Yang J., Jin H., Shechtman E., Agarwala A., Brandt J., Huang, T.S. DeepFont: Identify Your Font from An Image. In Proc. of the 23rd ACM MM, 2015, pp. 813-814. DOI:10.1145/2733373.2807988.
6. Tensmeyer C., Saunders D., Martinez T.R. Convolutional Neural Networks for Font Classification. In Proc. of 14th IAPR ICDAR, 2017, pp. 985-990. DOI:10.1109/ICDAR.2017.164.
7. Jiang S., Wang Z., Hertzmann A., Jin H., Fu Y. Visual font pairing. IEEE Transactions on Multimedia, 2019, 22(8), pp. 2086-2097. DOI:10.1109/TMM.2019.2952266.
8. Yasukochi N., Hayashi H., Haraguchi D., Uchida S. Analyzing Font Style Usage and Contextual Fac-tors in Real Images. In Proc. of the 17th ICDAR, 2023, pp. 331-347. DOI:10.1007/978-3-031-41682-8_21.
9. Kulahcioglu T., De Melo G. Fonts like this but happier: A new way to discover fonts. In Proc of the 28th ACM MM, 2020, pp. 2973-2981. DOI:10.1145/3394171.3413534.
10. Bychkov O., Merkulova K., Dimitrov G., Zhabska Y., Kostadinova I., Petrova P., Petrov P., Getova I., Panayotova G. Using Neural Networks Application for the Font Recognition Task Solution. In Prec. of 55th ICEST, 2020, pp. 167-170. DOI: 10.1109/ICEST49890.2020.9232788.
11. Slimane F., Ingold R., Hennebert J. ICDAR2017 Competition on Multi-Font and Multi-Size Digitally Represented Arabic Text. In Prec. of 14th IAPR ICDAR, 2017, vol. 1, pp. 1466-1472. DOI: 10.1109/ICDAR.2017.239.
12. Tatsukawa Y. et al. FontCLIP: A Semantic Typography Visual‐Language Model for Multilingual Font Applications. Computer Graphics Forum, 2024, 43(2), p. e15043. DOI: 10.1111/cgf.15043.
13. Phinney T. Variable Fonts Are the Next Generation. Communication Arts, 2016.
Рецензия
Для цитирования:
КОПЫЛОВ Д.Е., ЩУРИК М.В. Векторные представления шрифтов: дополнительный признак для понимания документов. Труды Института системного программирования РАН. 2025;37(6):177-188. https://doi.org/10.15514/ISPRAS-2025-37(6)-44
For citation:
KOPYLOV D.E., SHCHURIK M.V. Vector Representations of Fonts: an Additional Feature for Understanding Documents. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2025;37(6):177-188. (In Russ.) https://doi.org/10.15514/ISPRAS-2025-37(6)-44






