A comparison of naive bayes models for text classification
- № 1(19) 2019
Страницы:
39
–
43
Язык: английский
Аннотация
The article deals with the task of classifying text documents in the Uzbek language, based on methods and models of data mining. For preliminary data processing, the word portfolio method is used, on the basis of which the characteristic space is formed in the form of an alphabet of words from text. For the classification of text documents, naive Bayes approaches are used — the Bernoulli model and the multi-nominal model. Text documents used in the article are formed from state official information sources of the National Information Agency of Uzbekistan. When comparing probabilistic classification methods, 600documentswereused, whichconsistof169,205wordsbelongingto6 classes. The result of a comparative analysis of experimental studies showed that with large dimensions of text documents, it is effective to use multi-nominal classification models, and to use the Bernoulli model on small text volumes.
В статье рассматривается задача классификации текстовых документов на узбекском языке. Для предварительной обработки данных используется метод портфеля слов, с помощи которого формируется признаковое пространство в виде алфавита слов из текста. Для классификации текстовых документов используются подходы наивного Байеса — модель Бернулли и мультиноминальная модель. Текстовые документы, используемые в статье, сформированы из государственных официальных информационных источников Национального Информационного Агентства Узбекистана. При сравнении вероятностных методов классификации использовано 600 документов, состоящих из 169205 слов и относящихся к 6 классам. Результат сравнительного анализа экспериментальных исследований показали, что при большой размерности текстовых документов эффективно использовать мультиноминальную модель классификации, а модель Бернулли использовать на малых объемах текста
В статье рассматривается задача классификации текстовых документов на узбекском языке. Для предварительной обработки данных используется метод портфеля слов, с помощи которого формируется признаковое пространство в виде алфавита слов из текста. Для классификации текстовых документов используются подходы наивного Байеса — модель Бернулли и мультиноминальная модель. Текстовые документы, используемые в статье, сформированы из государственных официальных информационных источников Национального Информационного Агентства Узбекистана. При сравнении вероятностных методов классификации использовано 600 документов, состоящих из 169205 слов и относящихся к 6 классам. Результат сравнительного анализа экспериментальных исследований показали, что при большой размерности текстовых документов эффективно использовать мультиноминальную модель классификации, а модель Бернулли использовать на малых объемах текста