Способы выявления многопользовательских компьютеров в сети Интернет

Dmitry Sergeevich Iurasov


Аннотация


В работе предложены три способа выявления многопользовательских компьютеров, то есть тех, с которых двое и более пользователей, осуществляют доступ в сеть Интернет с помощью общих компьютера и браузера. Они основаны на анализе истории посещений веб-страниц пользователями и различных методах математической статистики. Первый способ построен на предположении, что доступ в сеть с общего компьютера осуществляют пользователи разного пола и требует наличия оценок процента пользователей мужского пола на веб-страницах. Второй способ заключается в проверке гипотезы однородности последовательных пользовательских сессий. В его основе лежит предположение, что пользователь компьютера мог смениться только в интервале между сессиями. Третий способ опирается на тот факт, что у большинства пользователей существуют сайты, которые они посещают достаточно часто и регулярно. И заключается в определении таких сайтов, их последующей кластеризации и анализе расстояний между полученными кластерами. Основные недостатки данного способа, как и у предыдущего, связаны с необходимостью разбиения истории посещений веб-страниц на сессии. Предложен способ оценки качества выявления многопользовательских компьютеров при отсутствии размеченной тестовой выборки, основанный на предположении, что доля таких компьютеров среди мобильных устройств и устройств, используемых в офисах, существенно ниже, чем в случайной выборке. Проведен анализ истории посещений веб-страниц за один календарный месяц более чем 300000 пользователей, собранной с помощью cookie-идентификаторов в сети Интернет, которые хранятся на их компьютерах. Способы определяют в случайной выборке от 7 до 10 процентов устройств как многопользовательские. Эксперимент продемонстрировал работоспособность предложенных способов.

Ключевые слова


многопользовательский компьютер; расстояние Жаккара; иерархическая кластеризация; cookies; идентификация; t-критерий Стьюдента; уровень значимости; система обнаружения вторжений

Литература


Understanding IP Addressing: Everything You Ever Wanted To Know. URL: http://www.3com.com/other/pdfs/infra/corpinfo/en_US/501302.pdf (дата обращения: 05.10.2014).

McKinkley K. Cleaning Up After Cookies. iSec Partners White Paper. URL: http://www.isecpartners.com/storage/white-papers/iSEC_Cleaning_Up_After_Cookies.pdf (дата обращения: 05.10.2014).

Бессонова Е.Е., Зикратов И.А., Колесников Ю.Л., Росков В.Ю. Способ идентификации пользователя в сети Интернет // Научно-технический вестник информационных технологий, механики и оптики, 2012. № 3 (79). С. 133–137.

Бессонова Е.Е., Зикратов И.А., Росков В.Ю. Анализ способов идентификации пользователей в сети Интернет // Научно-технический вестник информационных технологий, механики и оптики, 2012. № 6 (82). С. 128–130.

Кантор И. Способы идентификации в интернете. URL: http://javascript.ru/unsorted/id (дата обращения: 04.04.2013).

Fulgoni G. When the Cookie Crumbles. URL: http://www.comscore.com/Insights/Blog/When_the_Cookie_Crumbles (дата обращения: 05.10.2014).

Htun P.T., Khaing K.T. Anomaly intrusion detection system using random forests and k-nearest neighbor // International Journal of P2P Network Trends and Technology, 2012. V. 3(1). P. 67-71.

Manavoglu E., Pavlov D., Giles C. L. Probabilistic User Behavior Models // In Proc. of the Third IEEE International Conference on Data Mining. - Melbourne, USA, 2003. P. 203-210.

Соколов А. М. Современные модели обнаружения аномалий в компьютерных системах // Управляющие Системы и Машины, 2004. №. 5. С. 67-73.

Tan K. The application of neural networks to unix computer security // In Proc. of the IEEE International Conference on Neural Networks. - Perth, Australia, 1995. V. 1. P. 476-481.

Ryan J., Lin M., Miikkulainen R. Intrusion detection with neural networks // Advances in Neural Information Processing Systems 10, 1998. P. 254-272.

Юрасов Д.С., Зикратов И.А. Различение пользователей на основе их поведения в сети Интернет // Научно-технический вестник информационных технологий, механики и оптики, 2013. № 6 (88). С. 148–151.

Phuong D.V., Phuong T.M. Gender prediction using browsing history // Advances in Intelligent Systems and Computing, 2014. V. 244. P. 271-283.

Burger J. D., Henderson J., Kim G., Zarrella G. Discriminating gender on Twitter // Proc. of the Conference on Empirical Methods in Natural Language Processing. - Edinburgh, UK, 2011. P. 1301–1309.

Hu J., Zeng H.-J., Li H., Niu C., Chen Z. Demographic prediction based on user’s browsing behavior // Proc. of the 16th International World Wide Web Conference. - Banff, Canada, 2007. P. 151-160.

Arlitt M. Characterizing Web User Sessions // SIGMETRICS Perform. Eval. Rev. 2000. V. 28(2). P. 50-56.

Zakay N., Feitelson D. G. On identifying user session boundaries in parallel workload logs // Proc. of the 16th Workshop on Job Scheduling Strategies for Parallel Processing. - Jerusalem, Israel, 2012. V. 7698. P. 216-234.

Lipkus A.H. A proof of the triangle inequality for the Tanimoto distance // Journal of Mathematical Chemistry. 1999. V. 26. № 1–3. P. 263–265.

Tan P., Steinbach M., Kumar V. Introduction to Data Mining. - Addison-Wesley, 2005. P. 487–568.

Davis J., Goadrich M. The relationship between Precision-Recall and ROC curves // Proc. of the 23rd International Conference on Machine Learning. - Pittsburgh, USA, 2006.

Neyman J., Pearson E.S. On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I // Biometrika. 1928. V. 20a. № 1/2. P. 175-240.




DOI: https://doi.org/10.12731/wsd-2015-6.1-565-579

Ссылки

  • На текущий момент ссылки отсутствуют.




(c) 2016 В мире научных открытий



ISSN 2658-6649 (print)

ISSN 2658-6657 (online)

HotLog Яндекс цитирования