Preview

Труды Института системного программирования РАН

Расширенный поиск

Классификация текста растрового документа по признаку начертания

https://doi.org/10.15514/ISPRAS-2023-35(6)-9

Аннотация

При выделении логической структуры документов используются ряд свойств, одним из которых является полужирное начертание слов текста. Полужирным начертанием в документах часто выделяют заголовки, определяемые слова, названия колонок в таблицах. В данной работе предложен метод классификации текста по жирности начертания, который состоит из последовательности шагов. На первом шаге проводится бинаризация всего изображения. Целью данного шага является разделение пикселей изображения на пиксели текста и фона. Вторым шагом проводится оценка каждого слова. В качестве результата возвращается величина, характеризующая толщину основного штриха символа в данном слове. На последнем шаге проводится кластеризация оценок на два кластера: жирный текст и обычный. Предложенный метод был реализован и протестирован на трех наборах данных, исходный код опубликован в открытом репозитории.

Об авторах

Даниил Евгеньевич КОПЫЛОВ
Институт динамики систем и теории управления СО РАН, Институт системного программирования РАН.
Россия

Магистрант направления подготовки «Прикладная математика и информатика» Иркутского государственного университета, сотрудник Институт системного программирования им. В.П. Иванникова Российской академии наук, сотрудник Института динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук. Сфера научных интересов: прикладная математика, анализ данных.



Андрей Анатольевич МИХАЙЛОВ
Институт динамики систем и теории управления СО РАН, Институт системного программирования РАН.
Россия

Является старшим научным сотрудником лаборатории Комплексных информационных систем Института динамики систем и теории управления имени В.М. Матросова. Его научные интересы включают анализ электронных документов, распознавание образов.



Список литературы

1. Sandy I.C., Voinea D., Popa A.I. CONTENT: Context Sensitive Transformer for Bold Words Classification. arXiv:2205.07683.

2. Bychkov O., Мerkulova K., Dimitrov G., Zhabska Y., Kostadinova I., Petrova P., Petrov P., Getova I., Panayotova G. Using Neural Networks Application for the Font Recognition Task Solution. In Proc. of 55th International Scientific Conference on ICEST, 2020. pp. 167-170. doi: 10.1109/ICEST49890.2020.9232788.

3. Ladareanu L., Chiroiu V., Bratu, P., Magheti, I. Automatic Text Clustering and Classification Based on Font Geometrical Characteristics. In Proc. of 9th WSEAS International Conference on Automation and Information, 2008, pp. 468-473.

4. Otsu N. A threshold selection method from gray-level histograms // IEEE Trans. Sys., Man., Cyber. : journal. — 1979. — Vol. 9. — P. 62—66.

5. Xing J., Yang P., Qingge L. Automatic thresholding using a modified valley emphasis. IET Image Processing, vol. 14(3), 2020, pp. 536-544. doi: 10.1049/iet-ipr.2019.0176

6. Яцкив И., Гусарова Л. Методы определения количества кластеров при классификации без обучения. The Journal of Transport and Telecommunication Institute, vol. 4(1), 2003. pp. 23-28.

7. Бурков А. Машинное обучение без лишних слов. Санкт-Петербург, Питер, 2020, 192 с.


Рецензия

Для цитирования:


КОПЫЛОВ Д.Е., МИХАЙЛОВ А.А. Классификация текста растрового документа по признаку начертания. Труды Института системного программирования РАН. 2023;35(6):157-166. https://doi.org/10.15514/ISPRAS-2023-35(6)-9

For citation:


KOPYLOV D.E., MIKHAILOV A.A. Classification of Printed Text on Raster Documents. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2023;35(6):157-166. (In Russ.) https://doi.org/10.15514/ISPRAS-2023-35(6)-9



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)