Ранжирование в задаче извлечения ключевых фраз: есть ли польза от использования частотных характеристик слов фраз-претендентов?

С. В. Попова; И. А. Ходырев

doi:10.15514/ISPRAS-2014-26(4)-10

Ранжирование в задаче извлечения ключевых фраз: есть ли польза от использования частотных характеристик слов фраз-претендентов?

С. В. Попова, И. А. Ходырев

https://doi.org/10.15514/ISPRAS-2014-26(4)-10

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

В работе исследуется задача извлечения ключевых фраз из отдельных текстов, таких как аннотации к научным публикациям. Проблема извлечения ключевых фраз имеет высокую практическую ценности, фразы могут быть использованы в задачах индексирования данных поисковыми системами, для кластеризации/классификации данных, для пополнения онтологий и извлечения метаинформации. Работа основана на подходе в рамках которого для извлечения ключевых фраз сперва из текста извлекаются фразы-претенденты, которые затем ранжируются и фразы с лучшим рангом отбираются как ключевые. Исследуются способы ранжирования фраз-претендентов на основе статистических характеристик слов, входящих во фразы-претенденты. Определены статистические характеристики слов, которые плохо подходят для ранжирования фраз-претендентов, показано что большая часть рассмотренных способов ранжирования фраз-претендентов в действительности работают аналогично рандомному ранжированию и отличаются только способами ранжирования однословных фраз. Предложен подход, основанный на удаление однословных фраз, позволяющий значительно повысить качество отбираемых ключевых фраз.

Ключевые слова

извлечение ключевых фраз, ранжирование ключевых фраз, статистические характеристики в задаче извлечения ключевых фраз, извлечение информации, обработка аннотаций к научным публикациям

Об авторах

С. В. Попова

Санкт-Петербургский Государственный Университет; Университет ИТМО
Россия

И. А. Ходырев

Университет ИТМО
Россия

Список литературы

1. Gutwina, C., Paynterb, G., Wittenb, I., Nevill-Manningc C., Frankb E.: Improving browsing in digital libraries with keyphrase indexes. Journal of Decision Support Sys-tems, 27(1-2), pp. 81-104 (1999)

2. Zhang, D. and Dong, Y.: Semantic, Hierarchical, Online Clustering of Web Search Re-sults. In: 6th Asia-Pacific Web Conference. Hangzhou, China (2004)

3. Zeng, H.J., He, Q.C., Chen, Z., Ma, W.Y., Ma, J.: Learning to cluster web search re-sults. In: the 27th Annual International ACM SIGIR Conference on Research and De-velopment in Information Retrieval, pp. 210-217 (2004)

4. Popova, S., Khodyrev, I., Egorov, A., Logvin, S., Gulyaev, S., Karpova, M. and Mouromtsev, D. Sci-Search: Academic Search and Analysis System Based on Keyphrases. In: KESW 2013, Communications in Computer and Information Science, CCIS, vol. 394, pp 281-288, Springer Berlin Heidelberg

5. Pudota, N., Dattolo, A., Baruzzo, A., Ferrara, F., Tasso, C.: Automatic keyphrase ex-traction and ontology mining for content-based tag recommendation. International Journal of Intelligent Systems, vol 25, pp. 1158-1186, 2010

6. You, W., Fontaine, D., Barhes, J.-P.: An automatic keyphrase extraction system for scientific documents. In: Knowl Inf Syst 34, pp. 691-724, 2013

7. El-Beltagy, S. R., and Rafea, A.,: KP-Miner: A keyphrase extraction system for english and arabic documents. In: Information Systems, 34, pp. 132-144, 2009

8. Popova, S., Khodyrev, I.: Izvlechenie i ranzirovanie klyuchevix fraz v zadache annotirovaniya [Keyphrase extraction and ranking in annotation problem]. Journal Nauchno-Texnicheskiy Vestnik Informatsionnix technologiy mechaniki i optiki [Scientific and Technical Journal of Information Technologies, Mechanics and Optocs], Vol. 1, 2013

9. Mihalcea, R., Tarau, P.: TextRank: Bringing order into texts. In: Conference on Empir-ical Methods in Natural Language Processing, pp. 404-411, 2004

10. Xiaojun, W. and Xiao, J.: Single document keyphrase extraction using neighborhood knowledge. In: Proceedings of the 23rd AAAI Conferenceon Artificial Intelligence, pp. 855-860, 2008

11. Xiaojun W., Xiao J.: Exploiting Neighborhood Knowledge for Single Document Sum-marization and Keyphrase Extraction ACM Transactions on Information Systems, 28(2), Article 8, 2010

12. Zesch, T., Gurevych, I.: Approximate Matching for Evaluating Keyphrase Extraction. In: International Conference RANLP 2009. pp. 484-489, Borovets, Bulgaria, 2009

13. Kim, S.N., Medelyan, O., Yen, M.: Automatic keyphrase extraction from scientific ar-ticles. Language Resources and Evaluation, Springer Kan & Timothy Baldwin, 2012

14. Hulth A.: Improved automatic keyword extraction given more linguistic knowledge. In: Conference on Empirical Methods in Natural Language Processing, pp. 216-223, 2003

15. Frank, E., Paynter, G.W., Witten, I.H., Gutwin, C., Nevill-Manning, C.G.: Domain-specific keyphrase extraction. In: Proc. of IJCAI. pp. 688-673,1999

16. Turney, P.: Learning to Extract Keyphrases from Text. In: NRC/ERB-1057, pp. 17- 43, 1999

17. Manning, C., Raghavan, P., Schutz,e H.: Introduction to Information Retrieval. Cam-bridge University Press, 2009

18. Dobrynin, V., Patterson, D., Rooney, N.: Contextual Document Clustering. In Advanc-es in Information Retrieval. Lecture Notes in Computer Science. 2997, pp.167-180, 2004

19. Standford POS tagging tool DOI: http://nlp.stanford.edu/software/tagger.shtml (09.11.2012).

20. Tsatsaronis, G., Varlamis, I., Norvag, K.: SemanticRank: Ranking Keywords and Sen-tences Using Semantic Graphs. In: Proc. of the 23rd International Conference on Com-putational Linguistics, pp. 1074-1082, 2010

21. Hasan, K. S., Ng, V.: Conundrums in Unsupervised Keyphrase Extraction: Making Sense of the State-of-the-Art. In: Coling, Poster Volume, Beijing, pp. 365-373, 2010

Рецензия

Для цитирования:

Попова С.В., Ходырев И.А. Ранжирование в задаче извлечения ключевых фраз: есть ли польза от использования частотных характеристик слов фраз-претендентов? Труды Института системного программирования РАН. 2014;26(4):123-136. https://doi.org/10.15514/ISPRAS-2014-26(4)-10

For citation:

Popova S.V., Khodyrev I.A. Ranking in keyphrase extraction problem: is it suitable to use statistics of words occurrences? Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2014;26(4):123-136. (In Russ.) https://doi.org/10.15514/ISPRAS-2014-26(4)-10

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Труды Института системного программирования РАН

Ранжирование в задаче извлечения ключевых фраз: есть ли польза от использования частотных характеристик слов фраз-претендентов?

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов