Preview

Труды Института системного программирования РАН

Расширенный поиск

Алгоритмы обработки естественного языка для понимания семантики текста

https://doi.org/10.15514/ISPRAS-2022-34(1)-10

Полный текст:

Аннотация

Векторное представление слов используется для различных задач автоматической обработки естественного языка. Множество методов существует для векторного представления слов, включая методы нейронных сетей Word2Vec и GloVe, а также классический метод латентно-семантического анализа LSA. Данная работа посвящена исследованию эффективности использования сетевых векторных методов LSTM для неклассической классификации в соответствии с тональностью текстов на русском и английском языках. Описаны характеристики векторных методов классификации слов (LSA, Word2Vec, GloVe), описана архитектура нейросетевого классификатора слов на основе LSTM и оценены методы векторной классификации слов, представлены результаты экспериментов, вычислительных средств и их обсуждение. Лучшей моделью векторного представления слов является модель Word2Vec, учитывая скорость обучения, меньший размер корпуса слов для обучения, большую точность и скорость обучения нейросетевого классификатора.

Об авторах

Дархан Оракбаевич ЖАКСЫБАЕВ
Западно-Казахстанский аграрно-технический университет имени Жангир хана
Казахстан

Магистр педагогических наук, преподаватель кафедры информационных систем.



Гулбаршын Нурлановна МИЗАМОВА
Западно-Казахстанский аграрно-технический университет имени Жангир хана
Казахстан

Магистр технических наук, преподаватель кафедры информационных систем



Список литературы

1. Chilakapati A. Word Bags vs Word Sequences for Text Classification. URL: https://towardsdatascience.com/word-bags-vs-word-sequences-for-text- classification-e0222c21d2ec, accessed 01.02.2022.

2. Brownlee J. How to One Hot Encode Sequence Data in Python. URL: https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python accessed 05.02.2022.

3. Le Q., Mikolov T. Distributed Representations of Sentences and Documents. In Proc. of the 31st International Conference on Machine Learning, 2014, pp. 1188-1196.

4. Mikolov T., Chen K. et al. Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781, 2013, 12p.

5. Pennington J., Socher R., Manning C. GloVe: Global Vectors for Word Representation. In Proc. of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1532-1543.

6. Landauer T.K., Foltz P.W., Laham D. Introduction to Latent Semantic Analysis. Discourse Processes, vol. 25, issue 2-3, 1998, pp. 259-284.

7. Altszyler E., Sigman M., Slezak D.F. Comparative study of LSA vs Word2vec embeddings in small corpora: a case study in dreams database. arXiv preprint arXiv:1610.01520, 14 p.


Рецензия

Для цитирования:


ЖАКСЫБАЕВ Д.О., МИЗАМОВА Г.Н. Алгоритмы обработки естественного языка для понимания семантики текста. Труды Института системного программирования РАН. 2022;34(1):141-150. https://doi.org/10.15514/ISPRAS-2022-34(1)-10

For citation:


ZHAXYBAYEV D.O., MIZAMOVA G.N. Natural Language Processing Algorithms for Understanding the Semantics of Text. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(1):141-150. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(1)-10



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)