Texterra: инфраструктура для анализа текстов

Денис Турдаков; Никита Астраханцев; Ярослав Недумов; Андрей Сысоев; Иван Андрианов; Владимир Майоров; Денис Федоренко; Антон Коршунов; Сергей Кузнецов

doi:10.15514/ISPRAS-2014-26(1)-18

Texterra: инфраструктура для анализа текстов

Денис Турдаков, Никита Астраханцев, Ярослав Недумов, Андрей Сысоев, Иван Андрианов, Владимир Майоров, Денис Федоренко, Антон Коршунов, Сергей Кузнецов

https://doi.org/10.15514/ISPRAS-2014-26(1)-18

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

В статье описан проект Texterra, в рамках которого была создана инфраструктура для анализа текстов. Texterra предоставляет масштабируемое решение для быстрой обработки текстовых документов, основанное на использовании знаний, извлекаемых из Веб-ресурсов и текстовых документов. В данной статье раскрываются детали реализации проекта, варианты использования и результаты экспериментальных исследований разработанных инструментов.

Ключевые слова

анализ текстов, обработка естественного языка, Википедия, компьютерная лингвистика, машинное обучение, базы знаний, семантические онтологии, информационный поиск, извлечение терминологии

Об авторах

Денис Турдаков

ИСП РАН
Россия

Никита Астраханцев

ИСП РАН
Россия

Ярослав Недумов

ИСП РАН
Россия

Андрей Сысоев

ИСП РАН
Россия

Иван Андрианов

ИСП РАН
Россия

Владимир Майоров

ИСП РАН
Россия

Денис Федоренко

ИСП РАН
Россия

Антон Коршунов

ИСП РАН
Россия

Сергей Кузнецов

ИСП РАН
Россия

Список литературы

1. Steven Bird, Ewan Klein, Edward Loper, and Jason Baldridge. 2008. Multidisciplinary instruction with the Natural Language Toolkit. InProceedings of the Third Workshop on Issues in Teaching Computational Linguistics (TeachCL '08). Association for Computational Linguistics, Stroudsburg, PA, USA, 62-70.

2. H. Cunningham, V. Tablan, A. Roberts, K. Bontcheva (2013) Getting More Out of Biomedical Documents with GATE's Full Lifecycle Open Source Text Analytics. PLoSComputBiol 9(2)

3. David Ferrucci et.al. Towards an Interoperability Standard for Text and Multi-Modal Analytics. Technical report RC24122. IBM. 2006

4. Игорь Ножов. "Морфологическая и синтаксическая обработка текста(модели и программы)", тезисы диссертации. 2003

5. Алексеев А., Добров Б., Лукашевич Н. Лингвистическая онтология тезаурус РуТез // Труды конференции Open Semantic Technologies for Intelligent Systems - OSTIS. — 2013. — С. 153–158.

6. YARN Браславский П. И., Мухин М. Ю., Ляшевская О. Н., Бонч-Осмоловская А. А., Крижановский А. А., Егоров П. Е. YARN: начало. Труды конференции Диалог-2013.

7. V. Karkaletsis, P. Fragkou, G. Petasis, and E. Iosif, “Ontology based information extraction from text,” in Knowledge-Driven Multimedia Information Extraction and Ontology Evolution, ser. Lecture Notes in Computer Science, G. Paliouras, C. Spyropoulos, and G. Tsatsaronis, Eds. Springer Berlin / Heidelberg, 2011, vol. 6050, pp. 89–109.

8. C. Unger and P. Cimiano, “Pythia: Compositional meaning construction for ontology-based question answering on the semantic web,” in Natural Language Processing and Information Systems, ser. Lecture Notes in Computer Science. Springer Berlin / Heidelberg, 2011, vol. 6716, pp. 153–160.

9. Jimeno-Yepes, R. Berlanga-Llavori, and D. Rebholz-Schuhmann, “Ontology refinement for improved information retrieval,” Information Processing & Management, vol. 46, no. 4, pp. 426 – 435, 2010.

10. M. Grineva, D. Turdakov, and A. Sysoev, “Blognoon : Exploring a topic in the blogosphere,” in Proceedings of the 20th international conference companion on World wide web, Hyderabad, India, 2011, pp. 213–216.

11. C. Biemann, “Ontology Learning from Text : A Survey of Methods”,LDV-Forum,vol. 20, pp. 75–93, 2005.

12. Н.А. Астраханцев, Д.Ю. Турдаков. “Методы автоматического построения и обогащения неформальных онтологий”. Программирование, Т.39, №1, с. 23-34, 2013.

13. Segalovich A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine

14. Bocharov V.V., Alexeeva S.V., Granovsky D.V., Protopopova E.V., Stepanova M.E., Surikov A.V. Crowdsourcing morphological annotation // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая–2 июня 2013 г.). Вып. 12 (19). — М.: РГГУ, 2013.

15. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Национального корпуса русского языка // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. — М., 2005. 111—135.

16. David Milne and Ian H. Witten. 2008. Learning to link with wikipedia. In Proceedings of the 17th ACM conference on Information and knowledge management (CIKM '08). ACM, New York, NY, USA

17. Stanford Twitter sentiment general domain dataset [Электронный ресурс] URL: http://www.stanford.edu/~alecmgo/cs224n/trainingandtestdata.zip (дата обращения: 22.07.2012)

18. Sentiment140 Twitter sentiment general domain dataset [Электронный ресурс] URL: http://cs.stanford.edu/people/alecmgo/trainingandtestdata.zip (дата обращения: 22.07.2012)

19. KnowCenter Twitter sentiment general domain dataset [Электронный ресурс] URL: http://know-center.tugraz.at/loesungen/daten (дата обращения: 22.07.2012)

20. UNED Twitter sentiment general domain dataset [Электронный ресурс] URL: http://nlp.uned.es/~damiano/datasets/entityProfiling_ORM_Twitter.html (дата обращения: 22.07.2012)

21. International Conference on Weblogs and Social Media movie domain dataset [Электронный ресурс] URL: http://icwsm.cs.mcgill.ca (дата обращения: 6.12.2013)

22. IMDb movie review dataset [Электронный ресурс] URL: http://www.cs.cornell.edu/people/pabo/movie-review-data/polarity_html.zip (дата обращения: 6.12.2013)

23. Twitter Sentiment Dataset from the 1st 2008 Presidential Debate [Электронный ресурс] URL: http://www.infochimps.com/datasets/twitter-sentiment-dataset-2008-debates (дата обращения: 6.12.2013)

24. Mendes P.N., Jakob M., García-Silva A., Bizer C. DBpedia Spotlight: Shedding Light on the Web of Documents. In the Proceedings of the 7th International Conference on Semantic Systems (I-Semantics 2011). Graz, Austria, September 2011.

25. Антон Коршунов. Задачи и методы определения атрибутов пользователей социальных сетей. Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2013

26. M. Grineva, M. Grinev, D. Lizorkin. Extracting Key Terms From Noisy and Multitheme Documents. WWW2009: 18th International World Wide Web Conference

Рецензия

Для цитирования:

Турдаков Д., Астраханцев Н., Недумов Я., Сысоев А., Андрианов И., Майоров В., Федоренко Д., Коршунов А., Кузнецов С. Texterra: инфраструктура для анализа текстов. Труды Института системного программирования РАН. 2014;26(1):421-438. https://doi.org/10.15514/ISPRAS-2014-26(1)-18

For citation:

Turdakov D., Astrakhantsev N., Nedumov Ya., Sysoev A., Andrianov I., Mayorov V., Fedorenko D., Korshunov A., Kuznetsov S. Texterra: A Framework for Text Analysis. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2014;26(1):421-438. (In Russ.) https://doi.org/10.15514/ISPRAS-2014-26(1)-18

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Труды Института системного программирования РАН

Texterra: инфраструктура для анализа текстов

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов