Preview

Труды Института системного программирования РАН

Расширенный поиск

Генерация изображений рукописного текста на русском языке

https://doi.org/10.15514/ISPRAS-2023-35(2)-2

Аннотация

Задача автоматического распознавания рукописного текста является важной составляющей в процессе анализа электронных документов, однако её решение все еще далеко от идеала. Одной из основных причин сложности распознавания рукописного текста на русском языке является недостаточное количество данных, используемых для обучения моделей распознавания. При этом, для русского языка проблема встаёт более остро и усугубляется большим разнообразием сложных почерков. В данной работе исследуется влияние различных методов генерации дополнительных обучающих наборов данных на качество моделей распознавания: метод на основе рукописных шрифтов, метод склейки слов из символов StackMix, метод на основе генеративно-состязательной сети. В рамках данной работы был разработан новый метод создания изображений рукописного текста на русском языке на основе шрифтов. Кроме того, предлагается алгоритм формирования нового кириллического рукописного шрифта на основе имеющихся изображений рукописных символов. Эффективность разработанного метода проверялась с помощью экспериментов, которые проводились на двух общедоступных кириллических наборах данных с помощью двух различных моделей распознавания. Результаты экспериментов показали, что разработанный метод генерации изображений позволил повысить точность распознавания рукописного текста в среднем на 6%, что сравнимо с результатами других, более сложных методов. Исходный код экспериментов, предложенного метода, а также сгенерированные в процессе экспериментов наборы данных выложены в открытый доступ и готовы для скачивания.

Об авторах

Анастасия Олеговна БОГАТЕНКОВА
Московский государственный университет имени М.В. Ломоносова
Россия

Студентка магистратуры кафедры системного программирования



Оксана Владимировна БЕЛЯЕВА
Институт системного программирования им. В.П. Иванникова РАН
Россия

Аспирант, стажер-исследователь



Андрей Игоревич ПЕРМИНОВ
Институт системного программирования им. В.П. Иванникова РАН
Россия

Аспирант, стажер-исследователь



Список литературы

1. Abdallah A., Hamada M., Nurseitov D. Attention-Based Fully Gated CNN-BGRU for Russian Handwritten Text. Journal of Imaging, vol. 6, issue 12, 2020, article no. 141, 23 p.

2. Shonenkov A., Karachev D. et al. StackMix and Blot Augmentations for Handwritten Text Recognition. arXiv preprint arXiv:2108.11667, 2021, 10 p.

3. Fogel S., Averbuch-Elor H. et al. ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation. In Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 4324-4333.

4. Cyrillic Handwriting Dataset. Available at: https://www.kaggle.com/datasets/constantinwerner/cyrillic-handwriting-dataset, accessed 02.05.2023.

5. Nurseitov D., Bostanbekov K. et al. Handwritten Kazakh and Russian (HKR) database for text recognition. Multimedia Tools and Applications, vol. 80, issue 21-23, 2021, pp. 33075 - 33097.

6. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академии наук СССР, том 163, ном. 4, 1965, стр. 845-848 / Levenshtein V.I. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady, vol. 10, no. 8, 1966, pp. 707-710.

7. Krishnan P., Jawahar C.V. Generating Synthetic Data for Text Recognition. arXiv preprint arXiv:1608.04224, 2016, 5p.

8. Goodfellow I., Pouget-Abadie J. et al. Generative adversarial networks. Communications of the ACM, vol. 63, issue 11, 2020, pp. 139-144.

9. Kang L., Riba P. et al. GANwriting: Content-Conditioned Generation of Styled Handwritten Word Images. Lecture Notes in Computer Science, vol. 12368, 2020, pp. 273-289.

10. Krishnan P., Kovvuri R. et al. TextStyleBrush: Transfer of Text Aesthetics from a Single Example. IEEE Transactions on Pattern Analysis and Machine Intelligence (Early Access), 2023, 12 p.

11. Calligraphr. Available at: https://www.calligraphr.com, accessed 02.05.2023.

12. База сегментированных рукописных символов / Segmented Handwriting Character Base. Available at: https://drive.google.com/folderview?id=0B0EQUc5HmgcGS0l2RDlKenlpNnc&usp=sharing, accessed 02.05.2023 (in Russian).

13. Sueiras J. Continuous Offline Handwriting Recognition using Deep Learning Models. arXiv preprint arXiv:2112.13328, 2021, 210 p.

14. Kass D. Vats E. AttentionHTR: Handwritten Text Recognition Based on Attention Encoder-Decoder Networks. Lecture Notes in Computer Science, vol. 13237, 2022, pp. 507-522.

15. Sutskever I., Vinyals O., Le Q.V. Sequence to sequence learning with neural networks. In Proc. of the 27th International Conference on Neural Information Processing Systems, vol. 2, 2014, pp. 3104-3112.

16. He K., Zhang X. et al. Deep Residual Learning for Image Recognition. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778.

17. Hochreiter S., Long Short-term Memory, Neural computation, vol. 9, issue. 8, 1997, pp. 1735-1780.

18. Bahdanau D., Cho K., Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate. arXiv preprint arXiv:1409.0473, 2014, 15 p.

19. Marti U.-V., Bunke H. The IAM-database: an English sentence database for offline handwriting recognition. International Journal on Document Analysis and Recognition, vol. 5, issue 1, 2002, Pp. 39–46.

20. Timakin V., Afanasyev M. A modern approach to the end-to-end bilingual handwriting text recognition on the example of Russian school notebooks. Available at: https://github.com/t0efL/end2end-HKR-research, accessed 02.05.2023.

21. Liu Z., Mao H. et al. A Convnet for the 2020s. In Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 11976–11986.

22. Graves A., Fernández S. et al. Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. In Proc. of the 23rd International Conference on Machine Learning, 2006, pp. 369-376.

23. Vaswani A., Shazeer N. et al. Attention is all you need. In Proc. of the 31st Conference on Neural Information Processing System, 2017, pp. 5998-6008.

24. Википедия / Wikipedia. Available at: https://ru.wikipedia.org, accessed 02.05.2023 (in Russian).


Рецензия

Для цитирования:


БОГАТЕНКОВА А.О., БЕЛЯЕВА О.В., ПЕРМИНОВ А.И. Генерация изображений рукописного текста на русском языке. Труды Института системного программирования РАН. 2023;35(2):19-34. https://doi.org/10.15514/ISPRAS-2023-35(2)-2

For citation:


BOGATENKOVA A.O., BELYAEVA O.V., PERMINOV A.I. Generation of images with handwritten text in Russian. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2023;35(2):19-34. (In Russ.) https://doi.org/10.15514/ISPRAS-2023-35(2)-2



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)