Preview

Труды Института системного программирования РАН

Расширенный поиск

Narrabat - прототип сервиса для пересказа новостей в формате стихотворений

https://doi.org/10.15514/ISPRAS-2017-29(4)-23

Полный текст:

Аннотация

В интернете все большую популярность приобретают СМИ, отказывающиеся от общепринятого формального способа изложения новостей и делающие акцент на креативности предоставляемого контента. Яркими примерами могут послужить паблик "Лентач" из социальной сети "ВКонтакте", сопровождающий каждую новость мемами, и ресурс "КАКТАМ?", оборачивающий заголовки в намеренно сверхэмоциональную форму. Мы решили реализовать инструмент Narrabat, пересказывающий новости в еще одном необычном стиле. Его задача - преобразовывать новостные ленты, взятые из сторонних источников, в небольшие стихотворения, отражающие ключевые события новостных сюжетов. В качестве основы для генерации стихов используется большая коллекция русской классики (состоящая из, к примеру, произведений Блока и Некрасова). Одним из главных достоинств выбранной нами формы пересказа и созданного инструмента в частности является то, что, при всей оригинальности вывода, процесс его генерации полностью автоматизирован, в отличие от сервисов, описанных выше. Инструмент работает в несколько этапов: сначала происходит выделение фактов из заголовков выгруженных новостей при помощи Tomita Parser, после чего факты передаются в модуль, отвечающий за генерацию стихотворения. По ходу работы мы использовали несколько подходов для генерации стихотворений, такие, как алгоритмы, построенные на правилах, и машинное обучение, включая нейронные сети. На данном этапе наилучший результат дал первый метод, однако работа по обучению нейронной сети ведется до сих пор. В данной статье мы опишем текущие результаты работы, приведем примеры сгенерированных стихотворений, а также перечислим направления для дальнейшего улучшения инструмента.

Об авторах

И. И. Долгалева
Высшая Школа Экономики
Россия


И. А. Горшков
Высшая Школа Экономики
Россия


Р. Э. Яворский
Высшая Школа Экономики
Россия


Список литературы

1. Douglas E Appelt, Jerry R Hobbs, John Bear, David Israel, and Mabry Tyson. Fastus: A finite-state processor for information extraction from real-world text. In IJCAI, volume 93, pages 1172-1178, 1993.

2. R Mooney. Relational learning of pattern-match rules for information extraction. In Proceedings of the Sixteenth National Conference on Artificial Intelligence, volume 328, page 334, 1999.

3. François Mairesse, Milica Gašić, Filip Jurčíček, Simon Keizer, Blaise Thomson, Kai Yu, and Steve Young. Phrase-based statistical language generation using graphical models and active learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 1552-1561. Association for Computational Linguistics, 2010.

4. Aidan Finn and Nicolas Kushmerick. Active learning selection strategies for information extraction. In Proceedings of the International Workshop on Adaptive Text Extraction and Mining (ATEM-03), pages 18-25, 2003.

5. Kristie Seymore, Andrew McCallum, and Roni Rosenfeld. Learning hidden markov model structure for information extrac-tion. In AAAI-99 workshop on machine learning for information extraction, pages 37-42, 1999.

6. Adwait Ratnaparkhi. Learning to parse natural language with maximum entropy models. Machine learning, 34(1-3):151- 175, 1999.

7. Adam Cheyer and Didier Guzzoni. Method and apparatus for building an intelligent automated assistant, March 18 2014. US Patent 8,677,377.

8. Hugo Gonçalo Oliveira and Amílcar Cardoso. Poetry generation with poetryme. In Computational Creativity Research: Towards Creative Machines, pages 243-266. Springer, 2015.

9. Anja Belz. Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models. Natural Language Engineering, 14(04):431-455, 2008.

10. Tsung-Hsien Wen, Milica Gasic, Nikola Mrksic, Pei-Hao Su, David Vandyke, and Steve Young. Semantically conditioned lstm-based natural language generation for spoken dialogue systems. arXiv preprint arXiv:1508.01745, 2015.

11. Amanda Stent and Martin Molina. Evaluating automatic extraction of rules for sentence plan construction. In Proceedings of the SIGDIAL 2009 Conference: The 10th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 290-297. Association for Computational Linguistics, 2009.

12. Adwait Ratnaparkhi. Trainable approaches to surface natural language generation and their application to conversational dialog systems. Computer Speech & Language, 16(3):435-455, 2002.

13. François Mairesse and Steve Young. Stochastic language generation in dialogue using factored language models. Compu-tational Linguistics, 2014.

14. Gabor Angeli, Percy Liang, and Dan Klein. A simple domain-independent probabilistic approach to generation. In Pro-ceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 502-512. Association for Computational Linguistics, 2010.

15. Ravi Kondadadi, Blake Howald, and Frank Schilder. A statistical nlg framework for aggregated planning and realization. In ACL (1), pages 1406-1415, 2013.

16. Tomáš Mikolov, Stefan Kombrink, Lukáš Burget, Jan Černockỳ, and Sanjeev Khudanpur. Extensions of recurrent neural network language model. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, pages 5528-5531. IEEE, 2011.

17. Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernockỳ, and Sanjeev Khudanpur. Recurrent neural network based language model. In Interspeech, volume 2, page 3, 2010.

18. Yoshua Bengio, Patrice Simard, and Paolo Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE transactions on neural networks, 5(2):157-166, 1994.

19. Yandex LLC. Томита-парсер. https://tech.yandex.ru/tomita/. Дата обращения 10.04.2017.

20. Masaru Tomita. Lr parsers for natural languages. In Proceedings of the 10th International Conference on Computational Linguistics and 22nd annual meeting on Association for Computational Linguistics, pages 354-357. Association for Com-putational Linguistics, 1984.

21. Александр Блок. Собрание сочинений в 8 томах. Государственное издательство художественной литературы, Москва, 1960-1963.

22. Николай Некрасов. Полное собрание стихотворений Н.А. Некрасова в 2 томах. Типография А. С. Суворина, Санкт-Петербург, 1899.

23. Lib.ru: Библиотека Максима Мошкова. http://lib.ru/. Дата обращения 10.04.2017.

24. Александр Пушкин. Собрание сочинений в десяти томах. Том второй. Стихотворения 1823-1836. 1823-1836.

25. Anna Rumshisky, Peter Potash, Alexey Romanov. Ghostwriter: Using an lstm for automatic rap lyric generation. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1919-1924, 2015.

26. Rui Yan. i, poet: Automatic poetry composition through recurrent neural networks with iterative polishing schema. In Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI-16), pages 2238-2244, 2016.

27. Yejin Choi, Marjan Ghazvininejad, Xing Shi and Kevin Knight. Generating topical poetry. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1183-1191, 2016.

28. Yura Batora. Algorithm for splitting words into syllables. https://sites.google.com/site/foliantapp/project-updates/hyphenation. Дата обращения 10.04.2017.

29. Rostislav Yavorskiy, Irina Dolgaleva, Ilya Gorshkov. Narrabat. https://github.com/onobot/allbots/tree. Дата обращения 10.04.2017.


Для цитирования:


Долгалева И.И., Горшков И.А., Яворский Р.Э. Narrabat - прототип сервиса для пересказа новостей в формате стихотворений. Труды Института системного программирования РАН. 2017;29(4):325-336. https://doi.org/10.15514/ISPRAS-2017-29(4)-23

For citation:


Dolgaleva I.I., Gorshkov I.A., Yavorsky R.E. Narrabat - a Prototype Service for Stylish News Retelling. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2017;29(4):325-336. https://doi.org/10.15514/ISPRAS-2017-29(4)-23

Просмотров: 74


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)