摘要:本文考察了谷歌搜索引擎的PageRank技术,整合了各种技术和方法,总结了计算PageRank的方法。进搜索引擎索引技术,
宁波seo优化将数据挖掘中的数据分类技术,用户自动化中的负反馈技术和后缀表引入搜索引擎,这大大提高了搜索引擎的准确性。
键词:搜索引擎;数据分类;负面反馈;挖掘中图分类号:TP31文献标识码:A文章编号:1673-8454(2011)07-0085-03,高效和智能检索机制网上信息。
成为计算机网络领域的研究中心。索引擎是帮助人们搜索信息的搜索工具:它们收集和发现信息,理解,提取,组织和处理信息,为用户提供搜索服务。索引擎原理源于传统的全文信息检索理论。索引擎包括全文检索系统,用于自动收集网页的数据收集系统,以及用于检索结果的页面生成系统。接中的链接会拉出更多其他页面或转移到其他站点。Crawler收集的网页被添加到搜索引擎数据库以允许用户查询。索引擎系统。搜索引擎系统的整体模式与普通搜索引擎进行比较,普通搜索引擎具有两个附加模块:自动分类模块和用户反馈模块。入这两个模块是为了提高搜索引擎的召回率和准确性。计用户负反馈模块的负反馈用户实现:当用户选择查询结果时,搜索引擎记录用户选择的结果。时,搜索引擎通过数据挖掘提取用户选择的结果的共同特征,并基于该共性校正他自己的搜索策略。果用户对搜索结果不满意,则重复该过程,从而提供更高的准确性。询结果。户负反馈模块的算法如下: 。

统基于挖掘技术检索Select_i用户选择集的用户感兴趣的Interest_i类别集。包含有关系统类别的信息。行新搜索:如果用户未刷新结果,请退出。旦搜索引擎已经加入了用户的负反馈模块,用户和搜索引擎之间的相互作用可以增加搜索引擎可以更清楚的理解和准确的研究需要用户,大大提高了搜索引擎的性能。本的自动分类实现自动文本分类是利用数据挖掘技术发现隐含规则,达到搜索引擎的智能。键问题是如何构建分类函数或分类模型。文的搜索引擎使用Navie Bayes模型。Navie Bayes分类模型是基于概率的分类方法,假设C是文本的集合。确定一个文档d是否属于某一类在这里,你可以通过计算概率P(C / S)这样做,也就是概率的大小属于文档类词。标准对于模型Navie贝叶斯是分配给类次最大化的概率P(次/ d),也就是说,为了解决ARG最大值P(次/ d)。P(次/ d)可以根据文件长度被分解:根据贝叶斯法则:文本的自动分类的步骤:每个数据的网页是由特征矢量X = {X1,X2表示的,xn},其中x1,X2 ,, xn是网页中的关键字。初始测试条件中,X包含网页的所有关键字。此,n的值通常很大,并且在实际应用中也需要压缩所有特征。上面的计算公式相同,只有所有训练文本中单词的比例,其中| D |是培训文本的总数。后,根据上面计算的互信息,以新的特征量的形式提取前20个。大化可以通过训练样本来估计。过上述步骤,机器人模块收集的每个网页数据被分配到一个类,从而完成自动分类网页数据的过程。缀矩阵技术的分析和设计由于通过网络传输的数据量太大,当前的主压缩算法必须对压缩数据进行排序。排序被称为排序后缀,后缀参照对应位S.原始字符串的子串开始直到串S的端部。如,原来的字符串S = ABCD和后缀ABCD S0 = S1 = b C,CD = S2,S3 = d,通过后缀排序是将原始S.快速排序算法链后缀算法qsufort的所有后缀排序(三fast by suffix)是许多后缀数组算法的主要算法,它只占用8nbytes的存储空间。的主要功能如下:空后缀(int * x,int * p,int n,int k,int l){int * pi,* pk; int i,j,s,sl; V = x; I = p; / *定义全局值。* / if(n> = kl){/ *如果可能,b / s *,j / transform =(V,I,n,k,l,n); bucketsort(V,I,n,j); / * bucketsort在第一个位置。* /} else {transform(V,I,n,k,l,INT_MAX); for(i = 0; i <= n; ++ i)I [i] = i; / *用后缀初始化我。* / h = 0; sort_split(I,n + 1); / *快速排序在第一个位置r。* /} h = r; / * Transformer汇总没有气泡。* / While(I [0]> = -n){/ *只要组合的排序组不是唯一的。* / Pi = I; / * pi是该组的第一个职位。* / Sl = 0; / * sl是已排序组的反转长度。* / Do {if((s = * pi)<0){pi- = s; / *忽略已排序的组。* / Sl + = s; / *为sl添加一个倒置长度。* /} else {if(sl){*(pi + sl)= sl; / *在pi之前组合已排序的组。* / sl = 0;} pk = I + V [s] +1; / * pk-1是结束未排序的组。* / Sort_split(pi,pk-pi); pi = pk; / *下一组。* /}} while(pi <= I + n); if(sl)/ * if ar半径以排序组结束。* / *(Pi + sl)= sl; / *将排序后的组合在一起。

/ h = 2 * h; / *双三深度。* /}对于(i = 0; i <= n; ++ i)/ *从逆向重建后缀数组。* / I [V [I] = I;}对于sort_split函数的源代码如下:静态无效sort_split(INT * P,INT N){INT * PA * BP * PC * PD * pl,* pm,* pn; int f,v,s,t,tmp;的#define KEY(P)(V [*(P)+(M)])的#define SWAP(P,Q)(TMP = *(ρ)*(P)= *(Q),*(Q)= tmp)if(n <7){select_sort_split(p,n); / *对较小的表进行特殊排序。

* / return;} v = choose_pivots(p,n); pa = pb = p; pc = pd = p + n-1;而(1){而(BP <= PC &&(F = SEARCH(bp)的)<= V){如果(F == V){交换(PA,PB); ++ PA; PB} ++;}而(PC> = bp的&&(F = CLE(PC))> = v)的{如果(F == V){交换(PC,PD); - pd;} - pc;} if(pb> pc)暂停; SWAP(pb,pc); ++ pb; -pc;} pn = p + n; if((s = pa-p)>(t = pb-pa))s = t; for(pl = p,pm = pb-s; s; - s,++ p1,++ pm)SWAP(pl,pm); if((s = pd-pc)>(t = pn-pd-1))s = t; for(pl = pb,pm = pn-s; s; - s,++ p1,++ pm)SWAP(pl,pm); s = pb-pa; t = pd-pc; if(s> 0)sort_ Separate(p,s); update_group(p + s,p + n-t-1); if(t> 0)sort_split(p + n-t,t);}。
序算法的快速后缀的一般步骤由排序的第一个字母,并将结果的原始字符串存储的整数数组中I或H = 1,定义围绕表V中的基团数..使用Quicksort三元拆分处理每个未排序的组,使用V [i + h]作为后缀i。记组中未分类的部分,该部分不等于关键字。h。

于不等于关键字的组的未排序部分,递归调用排序算法。统集成该系统最终在Linux下开发。Red Hat Linux 9.0下,它是用C ++编写的,MySQL数据库用作备份字典,文档索引库等的主数据库。测试阶段期间,我们所定义的目标分类,并用作源文档网页搜狐,雅虎,TOM和CSDN,极大地提高了系统的搜索准确度。
究的未来方向是逐步优化机器人网络机器人搜索算法,并根据汉语的特点采用最佳的分词算法。?用具的竹刷"
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波seo推广公司
宁波网站seo优化
宁波谷歌优化
宁波网络seo
宁波网站排名优化