КОНСТРУИРОВАНИЕ СИСТЕМЫ ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА ОТВЕТОВ НА ВОПРОСЫ ОБУЧАЮЩИХСЯ НА ОНЛАЙН-КУРСЕ НА ОСНОВЕ WORD2VEC

Pavel Aleksandrovich Rozhkin, Igor Nikolaevich Nekhaev, Kirill Anatol’evich Markin


Аннотация


Целью данной работы является разработка системы интеллектуального поиска ответов на вопросы слушателей онлайн-курса среди ранее опубликованных на учебном форуме вопросов-ответов. В настоящее время уже имеются успешные эксперименты по применению систем искусственного интеллекта (IBM WATSON) в онлайн-обучении. В данной работе исследуется возможность построения такой системы с использованием технологии word2vec. Конструируется двухэтапный метод поиска ответа на вопрос с использованием технологии word2vec для векторного представления вопросов и ответов. На первом этапе определяется тематика вопроса и, если она соответствует теме форума, то среди тематических статей форума проводится поиск статей, наиболее релевантных заданному вопросу. Моделировалась реальная ситуация с 16 тематиками и 80 ответами на возможные вопросы в рамках раздела онлайн-курса “Линейная алгебра и геометрия”. На основе построенной векторной модели предметной области сконструирована вопросно-ответная система и проведена оценка качества её работы. Подобраны параметры для достижения наилучшего результата классификации вопросов и поиска релевантных ответов. В 83% случаях релевантный ответ на сформулированный вопрос содержался среди топ-3 ответов, которые система предлагала. Рассматриваются вопросы дальнейшего развития применяемых подходов и повышения полезности конструируемой вопросно-ответной системы.

Цель: разработка системы интеллектуального поиска ответов на вопросы слушателей онлайн-курса среди ранее опубликованных на учебном форуме.

Методология: векторизация вопросов и ответов, нейросетевая классификация тематики вопроса, построение рейтинга ответов.

Результаты: достижение приемлемой точности в поиске релевантного ответа на вопрос среди имеющихся ответов.

Практическое применение: полученные результаты исследования могут быть положены в основу конструирования интеллектуальных помощников учителя на онлайн-курсах.


Ключевые слова


сопроождение обучения на онлайн-курсе, технология word2vec; векторизация вопросов; векторное пространство текстов; классификация тематики вопроса; поиск релевантных ответов

Полный текст:

PDF>PDF

Литература


Parhomenko P.A., Grigor’ev A.A., Astrahancev N.A. Obzor i jeksperimental’noe sravnenie metodov klasterizacii tekstov [Review and experimental comparison of text clustering methods]. Trudy ISP RAN, 2017. Vol 29, no. 2, pp. 161–200.

Shirjaev A. I., Nehaev I. N. Issledovanie primenimosti tehnologii word2vec dlja reshenija zadachi klassifikacii jelektronnyh pochtovyh soobshhenij klientov [The study of the applicability of word2vec technology to solve the problem of classification of e-mail]. Yoshkar-Ola. 2017. No 3, pp. 114–116.

Aggarwal Charu C, Zhai Cheng Xiang. Mining text data. Springer Science & Business Media, 2012.

Blei David M., Ng Andrew Y., Jordan Michael I. Latent dirichlet allocation. Journal of machine Learning research. 2003. Vol. 3, no, pp. 993–1022.

Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473,2014.

Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems. 20140, pp. 3104–3112.

Jason Maderer, Artificial Intelligence Course Creates AI Teaching Assistant. ATLANTA. 2016. GA.URL: http://www.news.gatech.edu/2016/05/09/artificial-intelligence-course-creates-ai-teaching-assistant (date of access: 27.03.2018).

Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective approaches to attention-based neural machine translation. arXiv preprint arXiv:1508.04025,2015.

Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: synthetic minority over-sampling technique // Journal of artificial intelligence research. 2002, рр. 321–357.

Rehurek R., Sojka P. Software Framework for Topic Modelling with Large Corpora. Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks. 2010, pp. 45–50.

Salton Gerard, Buckley Christopher. Termweighting approaches in automatic text retrieval. Information processing & management. 1988. Vol. 24, no 5, pp. 513–523.

Sanjeev Arora, Yingyu Liang, Tengyu Ma. A simple but tough-to-beat baseline for sentence embeddings. ICLR Workshop. 2017.

Scott Deerwester, Susan T Dumais, George W Furnas et al. Indexing by latent semantic analysis. Journal of the American society for information science. 1990. Vol. 41, no 6, pp. 391.

Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient estimation of word representations in vector space. ICLR Workshop. 2013.

Whissell John S, Clarke Charles LA. Improving document clustering using Okapi BM25 feature weighting. Information retrieval. 2011. Vol. 14, no 5, pp. 466–487.

Xu Wei, Liu Xin, Gong Yihong. Document clustering based on non-negative matrix factorization. Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. ACM. 2003, pp. 267–273.




DOI: https://doi.org/10.12731/2227-930X-2018-1-106-128

Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2018 Pavel Aleksandrovich Rozhkin, Igor Nikolaevich Nekhaev, Kirill Anatol’evich Markin

Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.

Контент доступен под лицензией Creative Commons Attribution-NonCommercial-NoDerivs 4.0.

ISSN 2328-1391 (print), ISSN 2227-930X (online)