Preview

Труды Института системного программирования РАН

Расширенный поиск

Методы построения социо-демографических профилей пользователей сети Интернет

https://doi.org/10.15514/ISPRAS-2015-27(4)-7

Полный текст:

Аннотация

Данная работа посвящена методам построения социо-демографических профилей пользователей сети Интернет. К демографическим атрибутам пользователей относятся пол, возраст, политические и религиозные взгляды, регион проживания, семейное положение и др. Работа является обзором методов определения демографических атрибутов по информации из профиля и сообщений пользователей социальных сетей и других ресурсов Интернета. Наибольшее число исследований посвящено определению пола. Кроме пола, исследователей интересуют такие атрибуты, как возраст, политические взгляды, регион проживания. Абсолютное большинство решений основано на использовании методов машинного обучения с учителем. В данной статье отдельно рассмотрен каждый этап решения: сбор данных, извлечение признаков, отбор информативных признаков, методы обучения классификаторов, оценка качества.

Об авторах

А. Г. Гомзин
ИСП РАН; ВМК МГУ
Россия


С. Д. Кузнецов
ИСП РАН; ВМК МГУ; Московский физико-технический институт (государственный университет)
Россия


Список литературы

1. Li Q., Kim B. M. Constructing user profiles for collaborative recommender system //Advanced Web Technologies and Applications. - Springer Berlin Heidelberg, 2004. - С. 100-110.

2. Bharat K., Lawrence S., Sahami M. Generating user information for use in targeted advertising : заяв. пат. 10/750,363 США. - 2003.

3. Список социальных сетей. [электронный ресурс] https://ru.wikipedia.org/wiki/Список_социальных_сетей

4. Коршунов А. и др. Определение демографических атрибутов пользователей микроблогов //Труды Института системного программирования РАН. - 2013. - Т. 25, стр. 179-194. DOI: 10.15514/ISPRAS-2013-25-10

5. Filippova K. User demographics and language in an implicit social network //Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. - Association for Computational Linguistics, 2012. - С. 1478-1488.

6. Cheng N., Chandramouli R., Subbalakshmi K. P. Author gender identification from text //Digital Investigation. - 2011. - Т. 8. - №. 1. - С. 78-88.

7. Leskovec J., Faloutsos C. Sampling from large graphs //Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2006. - С. 631-636.

8. Gjoka M. et al. Walking in Facebook: A case study of unbiased sampling of OSNs //INFOCOM, 2010 Proceedings IEEE. - IEEE, 2010. - С. 1-9.

9. Conover M. D. et al. Predicting the political alignment of twitter users //Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. - IEEE, 2011. - С. 192-199.

10. Rao D. et al. Classifying latent user attributes in twitter //Proceedings of the 2nd international workshop on Search and mining user-generated contents. - ACM, 2010. - С. 37-44.

11. Deitrick W. et al. Gender identification on Twitter using the modified balanced winnow. - 2012

12. Miller Z., Dickinson B., Hu W. Gender prediction on twitter using stream algorithms with N-gram character features. - 2012.

13. Burger J. D. et al. Discriminating gender on Twitter //Proceedings of the Conference on Empirical Methods in Natural Language Processing. - Association for Computational Linguistics, 2011. - С. 1301-1309.

14. Alowibdi J. S., Buy U. A., Yu P. Empirical evaluation of profile characteristics for gender classification on twitter //Machine Learning and Applications (ICMLA), 2013 12th International Conference on. - IEEE, 2013. - Т. 1. - С. 365-369.

15. Sloan L. et al. Knowing the tweeters: Deriving sociologically relevant demographics from Twitter //Sociological Research Online. - 2013. - Т. 18. - №. 3. - С. 7.

16. Fortunato S. Community detection in graphs //Physics Reports. - 2010. - Т. 486. - №. 3. - С. 75-174.

17. Peersman C., Daelemans W., Van Vaerenbergh L. Predicting age and gender in online social networks //Proceedings of the 3rd international workshop on Search and mining user-generated contents. - ACM, 2011. - С. 37-44.

18. Nguyen D., Smith N. A., Rosé C. P. Author age prediction from text using linear regression //Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. - Association for Computational Linguistics, 2011. - С. 115-123.

19. Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке //Труды Института системного программирования РАН. - 2012. - Т. 23, стр. 215-244. DOI: 10.15514/ISPRAS-2012-23-13

20. Molina L. C., Belanche L., Nebot À. Feature selection algorithms: A survey and experimental evaluation //Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on. - IEEE, 2002. - С. 306-313.

21. Zheng Z., Wu X., Srihari R. Feature selection for text categorization on imbalanced data //ACM Sigkdd Explorations Newsletter. - 2004. - Т. 6. - №. 1. - С. 80-89.


Рецензия

Для цитирования:


Гомзин А.Г., Кузнецов С.Д. Методы построения социо-демографических профилей пользователей сети Интернет. Труды Института системного программирования РАН. 2015;27(4):129-144. https://doi.org/10.15514/ISPRAS-2015-27(4)-7

For citation:


Gomzin A..., Kuznetsov S... Methods for construction of socio-demographic profile of Internet users. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2015;27(4):129-144. (In Russ.) https://doi.org/10.15514/ISPRAS-2015-27(4)-7



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)