Preview

Труды Института системного программирования РАН

Расширенный поиск

Проактивная разметка примеров для адаптации к домену

https://doi.org/10.15514/ISPRAS-2019-31(5)-11

Полный текст:

Аннотация

В статье приводятся исследование возможности переноса знаний в целевой домен из другого, но близкого домена-источника с помощью проактивного обучения. Исследуется применимость использования модели машинного обучения, обученной на домене-источнике, как бесплатного ненадежного оракула для определения сложности примера из целевого домена и принятии решения о необходимости его разметки надежным экспертом. Представлен алгоритм такой разметки, одной из особенностей этого алгоритма является его возможность работы с любым классификатором, имеющим вероятностную интерпретацию выхода. Экспериментальное тестирование на наборе данных из отзывов на продукты Амазон подтверждает эффективность предложенного метода.

Об авторах

Максим Алексеевич Рындин
Институт системного программирования РАН им. В.П. Иванникова
Россия
Аспирант


Денис Юрьевич Турдаков
Институт системного программирования РАН им. В.П. Иванникова, Московский государственный университет имени М.В. Ломоносова
Россия
Кандидат физико-математических наук, заведующий отделом информационных систем ИСП РАН, доцент кафедры системного программирования МГУ


Список литературы

1. Cai Wenbin, Zhang Yexun, Zhang Ya, Zhou Siyuan, Wang Wenquan, Chen Zhuoxiang, Ding Chris. Active Learning for Classification with Maximum Model Change, ACM Transactions on Information Systems, vol. 36, issue 2, 2017, pp. 15:1–15:28.

2. Ozan Sener, Silvio Savarese. Active Learning for Convolutional Neural Networks: A Core-Set Approach. arXiv:1708.00489, 2017.

3. Гилязев Р.А., Турдаков Д.Ю. Активное обучение и краудсорсинг: обзор методов оптимизации разметки данных. Труды ИСП РАН, том 30, вып. 2, 2018 г, стр. 215-250 / Gilyazev R.A., Turdakov D.Y. Active learning and crowdsourcing: a survey of annotation optimization methods. Trudy ISP RAN/Proc. ISP RAS, vol. 30, issue 2, 2018, pp. 215-250 (in Russian). DOI: 10.15514/ISPRAS-2018-30(2)-11.

4. Nicolas Courty, Rémi Flamary, Devis Tuia, Alain Rakotomamonjy. Optimal Transport for Domain Adaptation. arXiv:1507.00504, 2015.

5. Minmin Chen, Zhixiang Eddie Xu, Kilian Q. Weinberger, Fei Sha. Marginalized Denoising Autoencoders for Domain Adaptation. arXiv:1206.4683, 2012

6. Yaroslav Ganin, Victor Lempitsky. Unsupervised Domain Adaptation by Backpropagation. Proceedings of the 32nd International Conference on Machine Learning, 1180–1189, 2015.

7. Rai Piyush, Saha Avishek, Hal Daumé III, Venkatasubramanian Suresh. Domain Adaptation Meets Active Learning. Proceedings of the NAACL HLT 2010 Workshop on Active Learning for Natural Language Processing, 2010, 27–32.

8. Pinar Donmez and Jaime G. Carbonell, From Active to Proactive Learning Methods. Advances in Machine Learning I. Springer, Berlin, Heidelberg, 2010. 97-120.

9. Krishnapuram Raghu, Rajkumar Arun, Acharya Adithya, Dhara Nikhil, Goudar Manjunath, Sarashetti Akshay P. Online Domain Adaptation by Exploiting Labeled Features and Pro-active Learning. Proceedings of the ACM India Joint International Conference on Data Science and Management of Data, 2018.

10. Howard Jeremy, Ruder Sebastian. Universal Language Model Fine-tuning for Text Classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2018, 328–339.

11. Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov. Bag of Tricks for Efficient Text Classification. CoRR, abs/1607.01759, 2016.


Для цитирования:


Рындин М.А., Турдаков Д.Ю. Проактивная разметка примеров для адаптации к домену. Труды Института системного программирования РАН. 2019;31(5):145-152. https://doi.org/10.15514/ISPRAS-2019-31(5)-11

For citation:


Ryndin M.A., Turdakov D.Yu. Domain adaptation by proactive labeling. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2019;31(5):145-152. (In Russ.) https://doi.org/10.15514/ISPRAS-2019-31(5)-11

Просмотров: 136


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)