Алгоритмы обработки естественного языка для понимания семантики текста
https://doi.org/10.15514/ISPRAS-2022-34(1)-10
Аннотация
Векторное представление слов используется для различных задач автоматической обработки естественного языка. Множество методов существует для векторного представления слов, включая методы нейронных сетей Word2Vec и GloVe, а также классический метод латентно-семантического анализа LSA. Данная работа посвящена исследованию эффективности использования сетевых векторных методов LSTM для неклассической классификации в соответствии с тональностью текстов на русском и английском языках. Описаны характеристики векторных методов классификации слов (LSA, Word2Vec, GloVe), описана архитектура нейросетевого классификатора слов на основе LSTM и оценены методы векторной классификации слов, представлены результаты экспериментов, вычислительных средств и их обсуждение. Лучшей моделью векторного представления слов является модель Word2Vec, учитывая скорость обучения, меньший размер корпуса слов для обучения, большую точность и скорость обучения нейросетевого классификатора.
Об авторах
Дархан Оракбаевич ЖАКСЫБАЕВКазахстан
Магистр педагогических наук, преподаватель кафедры информационных систем.
Гулбаршын Нурлановна МИЗАМОВА
Казахстан
Магистр технических наук, преподаватель кафедры информационных систем
Список литературы
1. Chilakapati A. Word Bags vs Word Sequences for Text Classification. URL: https://towardsdatascience.com/word-bags-vs-word-sequences-for-text- classification-e0222c21d2ec, accessed 01.02.2022.
2. Brownlee J. How to One Hot Encode Sequence Data in Python. URL: https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python accessed 05.02.2022.
3. Le Q., Mikolov T. Distributed Representations of Sentences and Documents. In Proc. of the 31st International Conference on Machine Learning, 2014, pp. 1188-1196.
4. Mikolov T., Chen K. et al. Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781, 2013, 12p.
5. Pennington J., Socher R., Manning C. GloVe: Global Vectors for Word Representation. In Proc. of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1532-1543.
6. Landauer T.K., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis. Discourse Processes, vol. 25, issue 2-3, 1998, pp. 259-284.
7. Altszyler E., Sigman M., Slezak D.F. Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database. arXiv preprint arXiv:1610.01520, 14 p.
Рецензия
Для цитирования:
ЖАКСЫБАЕВ Д.О., МИЗАМОВА Г.Н. Алгоритмы обработки естественного языка для понимания семантики текста. Труды Института системного программирования РАН. 2022;34(1):141-150. https://doi.org/10.15514/ISPRAS-2022-34(1)-10
For citation:
ZHAXYBAYEV D.O., MIZAMOVA G.N. Natural Language Processing Algorithms for Understanding the Semantics of Text. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(1):141-150. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(1)-10