随着网络信息的爆炸式增长,
宁波网站优化通用搜索引擎面临着诸如索引大小,更新速度和自定义要求等许多挑战。对这些挑战,将生成探索适应特定主题和自定义搜索的主题的应用程序。介绍了基于爬虫的自定义搜索引擎的体系结构,搜索策略,相关性和其他方面的知识。
细介绍了基于链接结构和改进策略的搜索算法。键词:个性化;搜索引擎;研究主题; PageRank中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)31-9028-02互联网技术的快速发展提供了对网络信息资源的访问。炸性增长的情况。索引擎在一定程度上响应了用户的需求,但许多国内外调查结果显示[1],约有71%的人对研究结果感到失望。外,对于普通用户而言,互联网上的“信息丢失”和“资源过载”问题的多样性,可靠性和信息动态变得越来越严重。
以说上述情况不具备短期突破的技术可能性。此,有效的解决方案是根据当前对现有网络信息资源的使用来确定如何进行有效的技术改进。本概念自定义搜索引擎基于个性化推荐服务的搜索引擎属于个性化搜索引擎的概念[2]。定义搜索引擎既指定界面的自定义,也指内容的个性化。面定制是为用户提供自定义搜索引擎界面风格和布局功能,并根据用户无需提供其预定制界面;内容个性化是为用户提供个性化搜索结果而不检索信息。使使用相同的搜索词,有需要的用户也会得到不同的结果。然,这里的重点是定制内容,真正的意义大于定制界面。DOLTRI-Agent [7]由南京大学研究。
统应用核心技术在网络上查找信息。的主要特点是它具有学习功能,可以在与信息交互时获取用户的信息,包括用户的兴趣,爱好和思维方式。络机器人,也称为蜘蛛程序。Web爬虫[2]是一个自动提取网页的程序,是搜索引擎的重要组成部分。络蜘蛛通过网页的链接地址搜索网页,从网站的某个页面(通常是主页)开始,读取网页的内容,找到它网页中的其他链接地址,然后在链接地址中找到以下网页。续骑自行车,直到您阅读了本网站上的所有页面。果您将Internet视为网站,Spider可以使用此原则输入Internet上的所有网页。在搜索引擎中占有重要地位,影响搜索和搜索引擎验证,确定搜索引擎的数据容量大小和索引机器人的质量直接影响页面的非活动链接搜索结果的数量不存在的页数。于自定义搜寻器的搜索引擎自定义信息收集模板主题的搜寻器基于创建通用搜寻器并执行自定义信息的提取将模块添加到网页的整个过程中。

些模块包括主题确定模块,优化的初始离开模块,主题相关性分析模块和排名模块。1是基于主题爬虫的自定义信息收集模型[3]。
源管理器模块检索网页; 2)调用相关性分析模块来分析网页的相关性; 3)分析模块根据分析的不同结果进行相应的处理; 4)分析模块将等待数据库处理的URL继续工作,在第一步循环,直到没有新的URL,5)排序l页面的重要性。于Web地图的超链接结构的搜索策略基于链接结构的搜索策略主要涉及使用Web结构信息来指导搜索并确定页面和链接的重要性值分析网页之间的关系。文本链接分析技术是新闻搜索引擎使用的重要手段。面介绍几种用于超链分析的重要算法。PageRank算法PageRank算法[3]由斯坦福大学的谢尔盖·布林和劳伦斯·佩奇于1998年提出。本思想是:[4]:如果一个页面被引用许多其他页面,这可能是一个重要的页面。个页面,即使它没有被多次引用,也会被一个重要的页面引用。此,该页面可能是一个重要的页面;它的重要性被平均分配并传送到它所指的页面。
面重要性量化后的得分是PageRank的值。名的谷歌搜索引擎使用PageRank算法。络中超文本链接的结构可以有向图G =(V,E)的形式表示,其中V是一组节点(网页),E是边缘(如果有的话)从页面i到页面j的链接)假设页面u,有T1,T2 ... Tn的链接页面;参数d表示沿着链接访问网页的“随机冲浪者”的衰减系数,值的范围是(0)在1和经验值之间,我们通常取0.85。
C(Ti)表示从频道Ti的网页到其他网页的链接数,PR(u)被定义为网页u的链接的权重。算PageRank值的公式如公式(1)所示:(1)其中e是1 / max,即max是所有网页的总和和权重每个网页的初始分配是总和的倒数。

算法的特征指出了网页外部链接页面的页面排名,以及链接页面传送到网页的页面排名值越高。此,即使网页意外地提到与查询主题不同的关键字,由于其较高的值,它将被排名较高,这将影响搜索结果的相关性和准确性。HITS算法HITS算法[4]由康奈尔大学的J. Kleinberg提出。Kleinberg将网页划分为两类:集线器(中央级)和权限级(权限级)。限是具有更高值的网页,具体取决于指向它的页面,而集线器是指向更多权限的页面,具体取决于它们指向的页面。HITS算法的目标是使用某种计算方法(即排名最高的权限)为搜索查询获取最有用的网页。是,算法计算的内容超过PageRank。且根据用户的要求,实时性能很差。
且,算法权威和群体可以产生“主体漂移”和“主体泛化”现象。此,Authorities and Hubs算法适用于广泛主题的查询。进PageRank算法通过按主题引入想法并重新计算网页的链接关系,对PageRank算法进行了以下两项改进。先,PageRank排名在页面的重要性中起着重要作用,但它不适用于主题(查询独立)。里,改进了PageRank方法:根据链接关系,增加了一定重量的语义信息,使得生成的重要页面与某个主题相关,构成了SPageRank算法。SPageRank算法利用PageRank发现重要页面的好处并利用主题的相关性。PageRank算法中引入相关分析以获得改进的公式(2)。(2)其次,这里仅以集线器为例来说明e的改进。
种用于计算网页集线器值的新算法描述如下:定义N的页面总数是Web,SO的定义是页面溢出的总数,Oi的定义是度输出页面I,用于计算矢量e的公式是:EI =爱* N / N,这个矢量e的改良配方中取代SPageRank面向对象以获得用于ü页的加权公式(3 ):( 3)这提供了面向主题的搜索和系统响应时间。题相关算法搜索引擎基础是传统的全文搜索技术,遵循传统的搜索模式。传统的文档相似度计算算法[5]中,Salton教授提出的向量空间模型是最广泛使用的。
量空间模型基于这样的基本假设:文章术语出现的顺序是无关紧要的,并且它们在文章主题中的作用是彼此独立的。他。此,该文件可被视为一系列无序条款。合。不同的方法来计算页面主题的相关性,如朴素贝叶斯,神经网络,实例映射模板和矢量空间模型(VSM)。中,向量空间模型需要较少的训练文档:主要目标特征可以从少量训练文档中提取,计算简单,正确率高,更适合于发现网络信息。种基于VSM向量空间模型的简单向量距离算法。
算法的基本思想是计算图2中两个矢量之间角度的余弦。算VSM相似度的公式如公式(4)所示:(4)总结按主题定制搜索引擎主要是为了收集相关主题,为用户提供个性化的信息服务。目前是收藏研究的热点之一。题采集的关键是采集结果和主题的相似性计算。
以通过相关链接信息预测要收集的结果的相似性,反映用户的个性化需求。SPHINX [5]是由美国卡内基梅隆大学开发的专题定制搜索系统。
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波seo排名
宁波网站优化推广
宁波网络seo
宁波网站seo优化
宁波网站seo