АЛГОРИТМ ПОСТРОЕНИЯ СЕМАНТИЧЕСКОГО ЯДРА ДЛЯ ТЕКСТОВОГО КЛАССИФИКАТОРА
Аннотация
Многие методы машинного обучения, основаны на так называемом «мешке слов» (bag of words): каждый документ представляется, как вектор c численным значением компоненты для каждого терма, содержащий все слова, представленные в обучающей подборке текстов. Каждая компонента данного вектора отражает частоту появления терма в документе. Однако, такой подход имеет несколько существенных недостатков:
– отображает словосочетания в разные сущности;
– отображает синонимы в разные сущности;
– отображает полимонимы в одинаковые сущности.
В статье предлагается другой подход, основанный на построении семантического ядра. В этом случае можно избежать явного вычисления вектора признаков для каждого терма. Одним из ключевых достоинств данного подхода является его модульность: разграничение собственно алгоритма анализа данных от статистического анализа, необходимого на предварительном этапе. Основная идея применения методов, основанных на сборе семантического ядра – переход к новому семантическому пространству, размерность которого меньше размерности исходного пространства.
Ключевые слова
Литература
Бондарчук Д.В. Использование латентно-семантического анализа в задачах классификации текстов по эмоциональной окраске. // Бюллетень результатов научных исследований. 2012. №2 (3). С. 146-151
Бондарчук Д.В. Интеллектуальный метод подбора персональных рекомендаций, гарантирующий получение непустого результата. // Информационные технологии моделирования и управления. 2015. №2(92). С. 130-138.
Гантмахер Ф. Р.. Теория матриц. М.: Наука, 1966. 576 с. - ISBN ISBN 5-9221-0524-8.
AlSumait L. and Domeniconi C. Local Semantic Kernels for Text Document Clustering. In Workshop on Text Mining, SIAM International Conference on Data Mining, Minneapolis, MN, 2007. SIAM
Forsythe G. E., Malcolm M. A., and Moler C. B.. Computer Methods for Mathematical Computations. Prentice-Hall, 1977.
Luke Tierney, Lisp-Stat: An Object-Oriented Environment for Statistical Computing and Dynamic Graphics, Wiley Series in Probability and Mathematical Statistics, John Wiley & Sons, 1990.
Wilkinson J., The Algebraic Eigenvalue Problem, Clarendon Press, Oxford, 1965.
DOI: https://doi.org/10.12731/wsd-2015-8.2-713-723
Ссылки
- На текущий момент ссылки отсутствуют.
(c) 2016 В мире научных открытий
ISSN 2658-6649 (print)
ISSN 2658-6657 (online)