Перейти к содержимому
UzScite
  • НСИ
    • Новости События
    • Методическая информация
    • Нормативные документы
  • Каталог журналов
  • Указатель авторов
  • Список организаций

A comparison of naive bayes models for text classification

Бабомурадов О.Ж.

Бобоев Л.Б.

Отахонова Б.И.

Проблемы вычислительной и прикладной математики

  • № 1(19) 2019

Страницы: 

39

 – 

43

Язык: английский

Открыть файл статьи
Открыть страницу статьи в Интернет

Аннотация

The article deals with the task of classifying text documents in the Uzbek language, based on methods and models of data mining. For preliminary data processing, the word portfolio method is used, on the basis of which the characteristic space is formed in the form of an alphabet of words from text. For the classification of text documents, naive Bayes approaches are used — the Bernoulli model and the multi-nominal model. Text documents used in the article are formed from state official information sources of the National Information Agency of Uzbekistan. When comparing probabilistic classification methods, 600documentswereused, whichconsistof169,205wordsbelongingto6 classes. The result of a comparative analysis of experimental studies showed that with large dimensions of text documents, it is effective to use multi-nominal classification models, and to use the Bernoulli model on small text volumes.

В статье рассматривается задача классификации текстовых документов на узбекском языке. Для предварительной обработки данных используется метод портфеля слов, с помощи которого формируется признаковое пространство в виде алфавита слов из текста. Для классификации текстовых документов используются подходы наивного Байеса — модель Бернулли и мультиноминальная модель. Текстовые документы, используемые в статье, сформированы из государственных официальных информационных источников Национального Информационного Агентства Узбекистана. При сравнении вероятностных методов классификации использовано 600 документов, состоящих из 169205 слов и относящихся к 6 классам. Результат сравнительного анализа экспериментальных исследований показали, что при большой размерности текстовых документов эффективно использовать мультиноминальную модель классификации, а модель Бернулли использовать на малых объемах текста

Список использованных источников

  1.  S.B. Kim, K.S. Han, H.C. Rim, S.H. Myaeng. December 2006. “Some Effective Techniques for Naive Bayes Text Classification”, IEEE Transactions on Knowledge and Data En-gineering.
  2.  A. A. Alekseev, A. S. Katasev, A. E. Kirillov, A. P.. 2016. “Kirpichnikov. Classification of text documents based on text mining technology ”Informatics, Computational Technique and Control, Bulletin of the Technological University.
  3.  Polyakov I. V., Sokolova T. V., Chepovsky A. A., Chepovsky A. M. 2015. “The problem of text classification and differentiating features” Vestn. Novosib. state un. Series: Information Technology.55–63
  4.  C.D. Manning, P. Raghavan, H. Schütze. 2008. “Introduction to Information Retrieval”, Cambridge University Press, Cambridge . 2nd ed. Reading, MA: Addison-Wesley. 463 p.
  5.  R.E. Madsen, S. Sigurdsson, L.K. Hansen, J. Larsen. 2004. Pruning the vocabulary for better context recognition”, Proceedings of the International Conference on Pattern Recognition, 2.pp. 483-488.
  6.  J.H. Paik. 2013. “A novel tf-idf weighting scheme for effective ranking”, Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 343-352

Список всех публикаций, цитирующих данную статью

Copyright © 2025 UzScite | E-LINE PRESS