Bibliografie
Conference Paper (international conference)
Information-theoretic feature selection algorithms for text classification
,
: Proceedings of the International Joint Conference on Neural Networks, p. 3272-3277
: International Joint Conference on Neural Networks, (Montreal, CA, 31.07.2005-04.08.2005)
: CEZ:AV0Z10750506
: IAA2075302, GA AV ČR, GA102/03/0049, GA ČR, KSK1019101, GA AV ČR, 1M0572, GA MŠk
: text classification, feature selection, mutual information
(eng): Four new algorithms for feature/word selection for the purpose of text classification are presented. Sequential forward selection method based on improved mutual information criterion functions is used. The performance of the proposed criteria compared to the information gain which evaluate features individually is discussed. Experimental results using naive Bayes classifier based on multinomial model, linear support vector machine and k-nearest neighbor classifiers on the Reuters data are analyzed.
(cze): Byly navrženy nové algoritmy pro výběr příznaků/slov pro řešení problému klasifikace textových dokumentů. Byl použit sekvenční "dopředný" algoritmus založený na několika modifikacích kriteria vzájemné informace. Účinnost navržených kriterií byla porovnána s nejčastěji používanými kriterii pro výběr slov (vzájemná informace, chí-kvadrát statistika, odds ratio) při použití Bayesova klasifikátoru, lineárního support vector machine a k-nejbližších sousedů na Reuters-21578 datových souborech.
: 09K, 09J, 12B
: BB