АЛГОРИТМ ПОСТРОЕНИЯ СЕМАНТИЧЕСКОГО ЯДРА ДЛЯ ТЕКСТОВОГО КЛАССИФИКАТОРА

Dmitry Vadimovich Bondarchuk


Аннотация


Многие методы машинного обучения, основаны на так называемом «мешке слов» (bag of words): каждый документ представляется, как вектор c численным значением компоненты для каждого терма, содержащий все слова, представленные в обучающей подборке текстов. Каждая компонента данного вектора отражает частоту появления терма в документе. Однако, такой подход имеет несколько существенных недостатков:

– отображает словосочетания в разные сущности;

– отображает синонимы в разные сущности;

– отображает полимонимы в одинаковые сущности.

В статье предлагается другой подход, основанный на построении семантического ядра. В этом случае можно избежать явного вычисления вектора признаков для каждого терма. Одним из ключевых достоинств данного подхода является его модульность: разграничение собственно алгоритма анализа данных от статистического анализа, необходимого на предварительном этапе. Основная идея применения методов, основанных на сборе семантического ядра – переход к новому семантическому пространству, размерность которого меньше размерности исходного пространства.


Ключевые слова


data-mining; text-mining; семантическое ядро; интеллектуальный анализ данных; интеллектуальный анализ текстов; векторная модель представления знаний

Литература


Бондарчук Д.В. Использование латентно-семантического анализа в задачах классификации текстов по эмоциональной окраске. // Бюллетень результатов научных исследований. 2012. №2 (3). С. 146-151

Бондарчук Д.В. Интеллектуальный метод подбора персональных рекомендаций, гарантирующий получение непустого результата. // Информационные технологии моделирования и управления. 2015. №2(92). С. 130-138.

Гантмахер Ф. Р.. Теория матриц. М.: Наука, 1966. 576 с. - ISBN ISBN 5-9221-0524-8.

AlSumait L. and Domeniconi C. Local Semantic Kernels for Text Document Clustering. In Workshop on Text Mining, SIAM International Conference on Data Mining, Minneapolis, MN, 2007. SIAM

Forsythe G. E., Malcolm M. A., and Moler C. B.. Computer Methods for Mathematical Computations. Prentice-Hall, 1977.

Luke Tierney, Lisp-Stat: An Object-Oriented Environment for Statistical Computing and Dynamic Graphics, Wiley Series in Probability and Mathematical Statistics, John Wiley & Sons, 1990.

Wilkinson J., The Algebraic Eigenvalue Problem, Clarendon Press, Oxford, 1965.




DOI: https://doi.org/10.12731/wsd-2015-8.2-713-723

Ссылки

  • На текущий момент ссылки отсутствуют.




(c) 2016 В мире научных открытий



ISSN 2658-6649 (print)

ISSN 2658-6657 (online)

HotLog Яндекс цитирования