摘要:文本分类技能在搜索引擎中有很重要的用处,本文简要分析了文本分类的点评办法,应用于搜索引擎的分类进程,重点介绍了现行的文本主动分类办法,包括经典算法和新算法以及未来的发展趋势。
关键词:文本分类;分类器;精确率
互联网的出现,使得人类全部的信息资源以前所未有的方式和程度在全球内互联互通,现在网上的信息纷繁杂乱,还没有一个统一的组织规范。在信息量如此丰厚的网上查找自己感兴趣的信息是燃眉之急,搜索引擎就应运而生。即便如此搜索引擎搜索到的信息也是杂乱无章的,假如咱们对网页进行分类就会为咱们供给许多便利。假如人工进行分类几乎是不行能的,假如可以施行网页的主动分类,就可以完成网页标引和检索的分类主题一体化,搜索引擎就可以兼有分类阅读、检索和关键词检索的长处;可以深入到网页层次,协助用户迅速的判别返回的成果是否契合自己的检索要求。
1点评办法
因为文本分类从根本上说是一个映射进程,所以点评文本分类体系的标志是映射的精确程度和映射的速度。映射的速度取决于映射规矩的杂乱程度,而点评映射精确程度的参照物是经过专家思考判别后对文本的分类成果(这儿假定人工分类完全正确并且扫除个人思维差异的因素),与人工分类成果越附近,分类的精确程度就越高,这儿隐含了点评文本分类体系的两个目标:精确率和查全率,精确率是一切判别的文本中与人工分类成果符合的文本所占的比率。其数学公式标明如下:
查全率是人工分类成果应有的文本中分类体系符合的文本所占的比率,其数学公式标明如下:
精确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不行偏废,因而,存在一种新的点评目标,FI测验值,其数学公式如下:
2文本分类进程
从图1可以看出,构建一个分类器的关键因素包括:预处理、练习集、特征选取算法、分类算法和截尾算法等。
3常用分类算法
到现在为止发生了许多的文本主动分类办法,如中心向量法、朴素贝叶斯办法等等。在评论各种分类办法之前,咱们首要说明本章用到的一些常用符号。
D={}标明将要被分类的文本的特征向量;
c1,...ck标明这些文本可能的类别;
T={d1,...dn}标明包括N个文本的练习集;
y1,...yn,标明这N个练习文本的类别;
Nj标明练习会集类的样本个数;
m标明练习集特征个数;
3.1中心向量法
中心向量算法比较简略,它使用向量空间模型,对各个练习类别别离核算平均向量,进行规范化处理,再核算相似度。设T={d1,...dn}={,...,},标明文档dj的向量,Wi,j标明特征i在文档.j中的权重,关于类别Ci其间心向量VCi={VW1,i,...VWm,i}其间:
然后,用Cos(D,VCi)来核算它们之间的相似度。
3.2朴素贝叶斯办法(NaveBayes)
NaveBayes(简称NB)理论的基本观念是:假定在给定的文本类语境下,文本特色是彼此独立的。
贝叶斯分类办法以贝叶斯定理为理论基础,是一种在已知先验概率与条件概率的状况下的形式识别办法。贝叶斯分类办法分两种:一种将问题简化,假定一个特色对给定类的影响独立于其他特色,即特征独立性假定。当假定成立时,与其他分类算法相比,朴素贝叶斯分类器是最精确的。可是实际问题中文本特色之间的依靠联系是可能存在的。这就要求考虑特色之间的依靠程度,显然其核算杂乱度比前一种高得多,当然也更能反映实在文本的状况。可是完成十分杂乱,现在还停留在理论的研究阶段。很多的理论和试验标明贝叶斯算法繁杂,且作用不显著。可是咱们可以学习其项无关性的基本概念。
3.3k-近邻算法(K-NN)
KNN办法是一种根据实例的文本分类办法.首要,关于一个测验文本,核算它与练习样本会集每个文本的文本相似度,依文本相似度找出k个最相似的练习文本。然后在此基础上给每一个文本类打分,分值是k个练习文档中归于该类的文本与测验文本之间的文档相似度之和。对这k个文本所属类的分值统计完毕之后,即按分值进行排序。为了分类合理,应当选定一个阈值,可以认为测验文本归于跳过阈值的一切类。
knndoc是指在练习会集依文本相似度找出与文本dx,最相似的k个练习文本所组成的练习文本子集;当练习文本dx归于c,类时g(di,cj)取1,否则取0.一般可以经过另外的测验文本集进行调整。
3.4支撑向量机(SVM)
支撑向量机(SVM)建立在核算学习理论的结构危险最小化原则之上,其主要思维是针对两类分类问题在高维空间中寻找一个超平面作为两类的切割。以保证最小的分类错误率。用(SVM)完成分类,首要要从原始空间中抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量。包括这个向量的文本称为正例,一切不包括这个向量的文本称为反例。空白被定义为在线形联系里,距正例和反例最近的超平面中的实例。一个支撑向量机是从最大空白中分离反例的正例调集构成的超平面。
3.5根据投票的办法(VotingMethod)
根据投票办法比较典型的有Bagging法和Boosting法。a.Bagging法。练习R个分类器fi,分类器之间其他相同就是参数不同。其间fi是经过从练习调集中(N篇文档)随机取(取后放回)N次文档构成的练习调集练习得到的。关于新文档d,用这R个分类器去分类,得到的最多的那个类别作为d的最终类别。b.Boosting法。相似Bagging办法,可是练习是串行进行的,第k个分类器练习时关注对前k-1分类器中错分的文档,即不是随机取,而是加大取这些文档的概率。
3.6遗传算法(GeneticAlgorithms,GA)
遗传算法是一种根据生物进化进程的组合优化办法。其基本思维是:随着时间的更替,只要最适合的物种才得以进化。将这种思维用于文本发掘就是根据遗传算法取得最适合的模型,并据此对模型进行优化。遗传算法可以处理其他技能难以处理的问题,然而它也是一种最难了解和最开放的办法。遗传算法常与神经网络结合起来使用,以在较高的层次上提高模型的可了解性。它有三个基本算子:遗传、交叉、变异,其基本进程为:a.随机发生初始种群;b.结构点评函数;c.挑选高适应值的个别进入下一代;d.经过遗传、变异算子发生新的个别;e.重复b~d进程,直到发生最优化个别,问题处理。
3.7神经网络
神经网络的基本特色:很多简略节点的杂乱衔接;高度并行处理;分布式存储,信息存在整个网中,用权值体现出来,有联想才能,可以从一个不完整的信息恢复出完整信息;自组织、自学习。图2是一个多层的神经网络结构图。
神经网络的最大长处是他能精确地对杂乱问题进行预测。
以上列出了七种分类办法可是这些分类办法也还远没有到达满足用户的需求。伴随着核算机技能的不断进步,人们也在不断的研究新的分类办法。
4小结:此文章关于深入研究文本信息加工、信息效劳有重要的指导意义。尽管文本分类技能取得了长足发展,不断涌现新的算法,可是关于一般用户的感觉还是不可以随心所欲的快捷便利的找到自己所需求的信息,所以在文本主动分类领域还有很大的发展空间。
参考文献
[1]奉国和.根据聚类的大样本支撑向量机研究.核算机科学,2006(4).
[2]王义麟.一种根据决策树的分类算法J.软件学报,2004,15(1):1-4.
[3]和亚丽,
宁波网站优化陈立潮.Web文本发掘中的特征选取办法研究J.核算机工程,2005(5).
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波seo排名
宁波seo网站优化
宁波网络seo公司
宁波seo优化公司
宁波seo哪家好