МЕТОДИКА ИДЕНТИФИКАЦИИ АВТОРСТВА ТЕКСТОВ КОРОТКИХ СООБЩЕНИЙ ПОЛЬЗОВАТЕЛЕЙ ПОРТАЛОВ СЕТИ ИНТЕРНЕТ НА ОСНОВЕ МЕТОДОВ МАТЕМАТИЧЕСКОЙ ЛИНГВИСТИКИ

Ilya Sergeevich Lebedev, Mikhail Yevgenievich Sukhoparov


Аннотация


В статье рассматриваются особенности определения авторства текстов коротких сообщений порталов, блогов, сайтов сети Интернет. Акцентируется внимание на возможности поиска лиц, имеющих несколько разных учетных записей и распространяющих от них сообщения. Приведена зависимость предложений от количества слов в комментариях пользователей порталов. Предложена модель текстового сообщения портала сети Интернет. Представлен метод идентификации авторства текстов коротких сообщений пользователей порталов сети Интернет, построенный на основе наивного байесовского классификатора. Особенностью предлагаемого метода является анализ не только частотных словарей, формируемых на основе выборки сообщений для идентификации пользователей, но и использование ими правил и связей на основе синтаксической информации языка. Приводятся частоты встречаемости частей речи и частоты связей между частями речи ограниченного естественного языка в комментариях. Показан граф связей между частями речи относительно предложно-падежной формы существительного. Приведены лингвистические характеристики, применяемые для идентификации пользователя портала. Выделены структуры на основе графа связей между частями речи относительно предложно-падежной формы существительного ограниченного естественного языка, используемые для идентификации авторства текстов. Проведен эксперимент, показывающий достигаемые показатели вероятности идентификации пользователя портала сети Интернет в зависимости от обучающей выборки. Приводятся графики вероятности определения авторства на основе выбранных признаков.

Ключевые слова


ИДЕНТИФИКАЦИЯ АВТОРСТВА; БАЙЕСОВСКИЙ КЛАССИФИКАТОР; КЛАССИФИКАЦИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ

Литература


Кан Д.А., Лебедев И.С., Сухопаров Е.А. Идентификация объектов текста в информационных системах//Программные продукты и системы, 2009, №2(86) C. 163-168

Лебедев И.С., Борисов Ю.Б. Анализ текстовых сообщений в системах мониторинга информационной безопасности//Информационно-управляющие системы 2011, №2. C. 37-43

Gómez-Rodríguez C., Kuhlmann M., Satta G., Weir D.J. Optimal reduction of rule length in linear context-free rewriting systems//Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 539-547

Gildea D. Grammar factorization by tree decomposition Computational Linguistics, 2011, 37 (1), pp. 231-248

Rytter W. Application of Lempel-Ziv factorization to the approximation of grammar-based compression Theoretical Computer Science,2003, 302 (1-3), pp. 211-222

Тузов В.А. Компьютерная семантика русского языка. -СПб.: Изд-во СПбГУ,2004. -400 с.

Боярский К.К., Каневский Е.А. Разработка инструментария для полуавтоматической морфологической разметки текста//Труды международной конференции «Корпусная лингвистика -2008». -СПб.: С-Петербургский гос. Университет, Факультет филологии и искусств, 2008. С. 83 -88.

Каневский Е.А. Некоторые вопросы пополнения морфологического словаря терминами предметной области//Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. -М.: РосНИИ Искусственного Интеллекта, 2001. Т. 2. С. 156-160.

Боярский К.К., Каневский Е.А. Проблемы пополнения семантического словаря//Научно-технический вестник СпбГУ ИТМО, 2011 №2(72), С. 132-137

Лебедев И.С. Формализация конструкций естественного языка//Вопросы современной науки и практики. Университет им. В.И.Вернадского, 2009, №1(15) C. 171 -175




DOI: https://doi.org/10.12731/wsd-2014-6.1-18

Ссылки

  • На текущий момент ссылки отсутствуют.




(c) 2016 В мире научных открытий



ISSN 2072-0831 (print)

ISSN 2307-9428 (online)

                              

Контент доступен под лицензией Creative Commons Attribution-NonCommercial-NoDerivs 4.0.

HotLog Яндекс цитирования