Texterra: инфраструктура для анализа текстов
Аннотация
Об авторах
Денис ТурдаковРоссия
Никита Астраханцев
Россия
Ярослав Недумов
Россия
Андрей Сысоев
Россия
Иван Андрианов
Россия
Владимир Майоров
Россия
Денис Федоренко
Россия
Антон Коршунов
Россия
Сергей Кузнецов
Россия
Список литературы
1. Steven Bird, Ewan Klein, Edward Loper, and Jason Baldridge. 2008. Multidisciplinary instruction with the Natural Language Toolkit. InProceedings of the Third Workshop on Issues in Teaching Computational Linguistics (TeachCL '08). Association for Computational Linguistics, Stroudsburg, PA, USA, 62-70.
2. H. Cunningham, V. Tablan, A. Roberts, K. Bontcheva (2013) Getting More Out of Biomedical Documents with GATE's Full Lifecycle Open Source Text Analytics. PLoSComputBiol 9(2)
3. David Ferrucci et.al. Towards an Interoperability Standard for Text and Multi-Modal Analytics. Technical report RC24122. IBM. 2006
4. Игорь Ножов. "Морфологическая и синтаксическая обработка текста(модели и программы)", тезисы диссертации. 2003
5. Алексеев А., Добров Б., Лукашевич Н. Лингвистическая онтология тезаурус РуТез // Труды конференции Open Semantic Technologies for Intelligent Systems - OSTIS. — 2013. — С. 153–158.
6. YARN Браславский П. И., Мухин М. Ю., Ляшевская О. Н., Бонч-Осмоловская А. А., Крижановский А. А., Егоров П. Е. YARN: начало. Труды конференции Диалог-2013.
7. V. Karkaletsis, P. Fragkou, G. Petasis, and E. Iosif, “Ontology based information extraction from text,” in Knowledge-Driven Multimedia Information Extraction and Ontology Evolution, ser. Lecture Notes in Computer Science, G. Paliouras, C. Spyropoulos, and G. Tsatsaronis, Eds. Springer Berlin / Heidelberg, 2011, vol. 6050, pp. 89–109.
8. C. Unger and P. Cimiano, “Pythia: Compositional meaning construction for ontology-based question answering on the semantic web,” in Natural Language Processing and Information Systems, ser. Lecture Notes in Computer Science. Springer Berlin / Heidelberg, 2011, vol. 6716, pp. 153–160.
9. Jimeno-Yepes, R. Berlanga-Llavori, and D. Rebholz-Schuhmann, “Ontology refinement for improved information retrieval,” Information Processing & Management, vol. 46, no. 4, pp. 426 – 435, 2010.
10. M. Grineva, D. Turdakov, and A. Sysoev, “Blognoon : Exploring a topic in the blogosphere,” in Proceedings of the 20th international conference companion on World wide web, Hyderabad, India, 2011, pp. 213–216.
11. C. Biemann, “Ontology Learning from Text : A Survey of Methods”,LDV-Forum,vol. 20, pp. 75–93, 2005.
12. Н.А. Астраханцев, Д.Ю. Турдаков. “Методы автоматического построения и обогащения неформальных онтологий”. Программирование, Т.39, №1, с. 23-34, 2013.
13. Segalovich A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine
14. Bocharov V.V., Alexeeva S.V., Granovsky D.V., Protopopova E.V., Stepanova M.E., Surikov A.V. Crowdsourcing morphological annotation // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая–2 июня 2013 г.). Вып. 12 (19). — М.: РГГУ, 2013.
15. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Национального корпуса русского языка // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. — М., 2005. 111—135.
16. David Milne and Ian H. Witten. 2008. Learning to link with wikipedia. In Proceedings of the 17th ACM conference on Information and knowledge management (CIKM '08). ACM, New York, NY, USA
17. Stanford Twitter sentiment general domain dataset [Электронный ресурс] URL: http://www.stanford.edu/~alecmgo/cs224n/trainingandtestdata.zip (дата обращения: 22.07.2012)
18. Sentiment140 Twitter sentiment general domain dataset [Электронный ресурс] URL: http://cs.stanford.edu/people/alecmgo/trainingandtestdata.zip (дата обращения: 22.07.2012)
19. KnowCenter Twitter sentiment general domain dataset [Электронный ресурс] URL: http://know-center.tugraz.at/loesungen/daten (дата обращения: 22.07.2012)
20. UNED Twitter sentiment general domain dataset [Электронный ресурс] URL: http://nlp.uned.es/~damiano/datasets/entityProfiling_ORM_Twitter.html (дата обращения: 22.07.2012)
21. International Conference on Weblogs and Social Media movie domain dataset [Электронный ресурс] URL: http://icwsm.cs.mcgill.ca (дата обращения: 6.12.2013)
22. IMDb movie review dataset [Электронный ресурс] URL: http://www.cs.cornell.edu/people/pabo/movie-review-data/polarity_html.zip (дата обращения: 6.12.2013)
23. Twitter Sentiment Dataset from the 1st 2008 Presidential Debate [Электронный ресурс] URL: http://www.infochimps.com/datasets/twitter-sentiment-dataset-2008-debates (дата обращения: 6.12.2013)
24. Mendes P.N., Jakob M., García-Silva A., Bizer C. DBpedia Spotlight: Shedding Light on the Web of Documents. In the Proceedings of the 7th International Conference on Semantic Systems (I-Semantics 2011). Graz, Austria, September 2011.
25. Антон Коршунов. Задачи и методы определения атрибутов пользователей социальных сетей. Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2013
26. M. Grineva, M. Grinev, D. Lizorkin. Extracting Key Terms From Noisy and Multitheme Documents. WWW2009: 18th International World Wide Web Conference
Рецензия
Для цитирования:
Турдаков Д., Астраханцев Н., Недумов Я., Сысоев А., Андрианов И., Майоров В., Федоренко Д., Коршунов А., Кузнецов С. Texterra: инфраструктура для анализа текстов. Труды Института системного программирования РАН. 2014;26(1):421-438. https://doi.org/10.15514/ISPRAS-2014-26(1)-18
For citation:
Turdakov D., Astrakhantsev N., Nedumov Y., Sysoev A., Andrianov I., Mayorov V., Fedorenko D., Korshunov A., Kuznetsov S. Texterra: A Framework for Text Analysis. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2014;26(1):421-438. (In Russ.) https://doi.org/10.15514/ISPRAS-2014-26(1)-18