Preview

Труды Института системного программирования РАН

Расширенный поиск

Извлечение ключевых терминов из сообщений микроблогов с помощью Википедии

Полный текст:

Аннотация

В статье описывается способ извлечения ключевых терминов из сообщений микроблогов с использованием информации, полученной путём анализа структуры и содержимого интернет-энциклопедии Википедия. Работа алгоритма основана на расчёте для каждого термина его "информативности", т.е. оценки вероятности того, что он может быть выбран ключевым в тексте. В ходе тестирования разработанный алгоритм показал удовлетворительные результаты в условиях поставленной задачи, существенно опережая аналоги. В качестве демонстрации возможного применения разработанного алгоритма был реализован прототип системы контекстной рекламы. Сформулированы также варианты использования информации, полученной путём анализа сообщений Twitter, для реализации различных вспомогательных сервисов.

Об авторе

А. В. Коршунов
ИСП РАН
Россия


Список литературы

1. Martin Ebner. Microblogging - more than fun? - Proceedings of IADIS Mobile Learning Conference 2008, Inmaculada Arnedillo Sánchez and Pedro Isaías ed., Portugal, 2008, pp. 155-159.

2. Herman David, Janh Manfred, Ryan Marie-Laure. (éd.), The Routledge Encyclopedia of Narrative Theory. London, Routledge, 2005.

3. Böhringer, M. Really Social Syndication: A Conceptual View on Microblogging. - Sprouts: Working Papers on Information Systems, 9(31), 2009.

4. D.R. Karger, D. Quan (2005). What would it mean to blog on the semantic web? - Web Semantics: Science, Services and Agents on the World Wide Web, Selected Papers from the International Semantic Web Conference, Hiroshima, Japan, 07-11 November 2004, 3 (2-3), 2005, 147-157.

5. Gartner Highlights 27 Technologies in the 2008 Hype Cycle for Emerging Technologies. - http://www.gartner.com/it/page.jsp?id=739613, 2008.

6. P. Turney. Learning to extract keyphrases from text. Technical report, National Research Council, Institute for Informational Technology, 1999.

7. D. Turdakov. Word sense disambiguation methods. Programming and Computer Software, 2010, Vol. 36, No. 6, pp. 309-326.

8. D. Turdakov, S. Kuznetsov. Automatic word sense disambiguation based on document networks. Programming and Computer Software, 2010, Vol. 36, No. 1, pp. 11–18.

9. Dmitry Lizorkin, Pavel Velikhov, Maxim Grinev, Denis Turdakov. Accuracy estimate and optimization techniques for SimRank computation. - The International Journal on Very Large Data Bases archive. Volume 19 Issue 1, February 2010.

10. Dmitry Lizorkin, Pavel Velikhov, Maxim Grinev, Denis Turdakov. Accuracy Estimate and Optimization Techniques for SimRank Computation. - Proceedings of the VLDB Endowment. Volume 1 Issue 1, August 2008.

11. Maria Grineva, Maxim Grinev, Dmitry Lizorkin. Effective Extraction of Thematically Grouped Key Terms From Text. - Proc. of the AAAI 2009 Spring Symposium on Social Semantic Web. - pp. 39-44.

12. D. Turdakov, D. Lizorkin. HMM Expanded to Multiple Interleaved Chains as a Model for Word Sense Disambiguation. - PACLIC 2009: The 23rd Pacific Asia Conference on Language, Information and Computations. - pp. 549-559.

13. M. Grineva, M. Grinev, D. Lizorkin. Extracting Key Terms From Noisy and Multitheme Documents. - WWW2009: 18th International World Wide Web Conference.

14. M. Grineva, M. Grinev, Alexander Boldakov, Leonid Novak, Andrey Syssoev, D. Lizorkin. Sifting Micro-blogging Stream for Events of User Interest. - Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 2009.

15. Joel W. Reed, Yu Jiao, Thomas E. Potok, Brian A. Klump, Mark T. Elmore, Ali R. Hurson. TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams. - Proc. Machine Learning and Applications, 2006, ICMLA '06, pp. 258-263.

16. Mihalcea, R., and Csomai, A. 2007. Wikify!: linking documents to encyclopedic knowledge. - Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, pp. 233-242. New York, NY, USA: ACM.

17. Salton, G. (1971). The SMART Retrieval System - experiments in automatic document processing. Prentice-Hall, Inc., Englewood Cliffs, NJ.

18. Alchemy API – Demo. - http://www.alchemyapi.com/api/demo.html.

19. Zhao, Dejin and Mary Rosson. How and why people Twitter: the role that micro-blogging plays in informal communication at work. - Proceedings of the ACM 2009 international conference on Supporting group work, 2009.

20. McFedries, P. All A-Twitter. IEEE Spectrum, October 2007, 84.

21. Java, A., Song, X., Finin, T., Tseng, B. Why we twitter: understanding microblogging usage and communities. - Proc. WebKDD/SNA-KDD '07, ACM Press (2007).

22. Krishnamurthy, B., Gill, P., and Arlitt, M. A few chirps about twitter. - Proc. WOSP '08. ACM Press (2008).

23. Honeycutt, C., Herring, S. Beyond microblogging: Conversation and collaboration via Twitter. - Proc. HICSS '09. IEEE Press (2009).

24. Naaman, M., Boase, J., Lai, C.-H. Is it really about me? Message content in social awareness streams. - Proc. CSCW 2010, February 6-10, 2010, Savannah, Georgia, USA.

25. Huberman, B., Romero, D., Wu, F. Social networks that matter: Twitter under the microscope. First Monday [Online] 14, 1 (2008).


Для цитирования:


Коршунов А.В. Извлечение ключевых терминов из сообщений микроблогов с помощью Википедии. Труды Института системного программирования РАН. 2011;20.

For citation:


Korshunov A.V. Keyterm extraction from microblogs' messages using Wikipedia. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2011;20. (In Russ.)

Просмотров: 46


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)