随着互联网的迅速发展和普及,人们越来越依赖互联网来共享信息和访问它。

时,网络上的大量信息是我们宝贵而宝贵的资源,但这些格式和信息内容各不相同,充斥着许多虚假信息和垃圾邮件。索引擎技术是以高效便捷的方式使用这些资源的有效方式。
文建立了搜索引擎性能评估模型,并基于测量数据获得了传统的搜索引擎排名性能。据Nutch开源搜索引擎,使用PageRank算法创建引擎。性化信息搜索,这是合理的。估和推广。文档建立的模型具有很强的适用性和通用性,对搜索引擎评估和定制搜索引擎的开发和推广具有一定的参考价值。[关键词]层次分析法熵法自定义搜索引擎算法PageRank Nutch中图分类号:TP391.3文献标识码:A文章编号:1009-914X(2014)40-0147-01高级介绍互联网速度的发展和普及,人们越来越依赖互联网来共享信息和访问信息。见的搜索引擎包括百度,谷歌,雅虎等。些搜索引擎的排名可以为用户提供搜索引擎的选择。且,本文设计了一个自定义搜索引擎,以满足用户的个性化搜索需求。合搜索引擎性能评估算法搜索引擎性能评估指标Internet搜索引擎的性能基准可分为四类:索引库,搜索功能,效果研究,亲和力[1]。索引擎索引库评估包括索引的数量,索引文件的类型,索引的深度和更新的频率。于难以检测索引索引的数量,因此可以通过召回率间接地反映出索引索引的数量。此,在索引库的评估索引中不考虑它。引文件类型是指FT P文件的索引,WWW文件,新闻组文件,Usenet文件等。

个附加文件加1点,值在1和4之间,索引深度值和更新频率等于。
索引擎提取性能指标由三部分组成:召回率,准确率和提取时间。

是,互联网上的信息正在迅速变化:现有信息明天可能会消失,新信息将会出现。续采用传统意义上的召回和精确度将无法进行合理的计算。立相对召回率和相对准确度指标来衡量提取效果。

于用户首选项的自定义搜索引擎设计和PageRank算法的新闻搜索引擎模型该模型在win7 + cygwin + Nutch架构中使用Nutch开源搜索引擎-1.2 + tomcat + jdk,以便考虑到需求根据用户兴趣的精确性,完整性和响应时间,设计一个只关注的垂直搜索引擎关于用户的兴趣,特别是检索新闻信息。
索引擎排序算法Nutch仅考虑网页链接的数量,不考虑源网页的得分,因此不反映网页的重要性。PageRank使用离线计算,这是一个已经探索过的网页,反映了现有网页的相对重要性。离线计算的PageRank因子乘以在线计算的OPIC因子作为网页的新重要性因子,并将其添加到Nutch网页评级公式,
宁波网站优化以便于发现权威网页并改善他们的分数,从而改变网页的排序方式。化搜索引擎的渲染结果。置搜索引擎评估指标属于专用垂直搜索引擎的新闻搜索引擎,其评估指标因此不同于问题分析的完整搜索引擎。先,注意用户兴趣水平的特征值,并使用前三个信息来匹配用户的兴趣作为标签。为0-3。次,关注准确性,即搜索引擎提供的前30条信息的准确性。
后,关注响应时间,即搜索引擎加载搜索信息所需的响应时间。于创建信息搜索引擎的配置环境是通过研究和学习开源搜索引擎Nutch [3]在因特网上创建信息搜索引擎。用Nutch搜索引擎的工作流配置开发环境,下载并安装JDK,Tomcat,Cygwin虚拟机等。Win7操作系统下,配置他们的系统变量。

JDK是Java,Cygwin的,一个Unix仿真环境在Windows平台下,Tomcat,一个免费的Web应用程序服务器和开源的,Nutch的,搜索引擎上运行的软件开发工具包带有分析程序的开源Java实现。Crawler)和研究员(研究员)。后,配置Nutch系统变量。进的搜索引擎模型,因为PageRank算法不确定链接到网页的所有页面是否与网页位于同一站点。一网站上的大多数链接都是为网站导航而设计的,具有网站设计师的主观色彩。
此,PageRank算法无法客观地反映链接内容的识别和认可。外,一些网页使用来自网站其他页面的不相关链接作弊,以便提高搜索中网页的排名。此,对于网页的权威性测量,使用PageRank的以下改进[5]:其中,链接到网页的所有网页和不在同一网站上的网页,网页的链接数量;同一站点上的一组网页,控制场外链路与站内链路之间链路的加权因子,位于站外的链路可以更客观地反映链路内容的断言,其值通常大于0.5。文通过修改Nutch程序中的PageRank值来优化搜索引擎的恢复性能,直到搜索引擎的得分大于阈值。整搜索引擎性能评估算法摘要本文档采用层次分析法,更全面地考虑了影响搜索引擎性能的指标。确定每个指标的权重时,在一定程度上采用了层次分析法和熵法的组合。观因素减少,权重更合理。据用户的喜好和PageRank算法的新闻搜索引擎模型的优点:强大的定制,根据用户的需求,只有感兴趣的内容给用户“个性化专用”出现在搜索结果中;可以过滤广告并且内容对用户不感兴趣;响应时间很短,因为基于此模板的自定义搜索引擎只需要将特定信息抓取到用户的关注点,而Google,百度和其他搜索引擎必须搜索庞大的数据库可移植性很强,只有轻微的修改Nutch机器人程序,它允许它分析其他URL,可以转换为自定义搜索引擎,这使其得到很好的推广。于时间限制,搜索引擎界面未设计,此模型设计的自定义搜索引擎的用户界面不像百度和谷歌那样用户友好。性化搜索算法改进模型提高了新闻搜索引擎采用了改进的PageRank算法,考虑到网页的相对重要性,防止使用本网站的其他页面创建链接到一些无意义的网页作弊行为,优化。究结果。
文档中列出的模型易于应用和转移,可以轻松扩展到音乐,旅行和电影等定制研究领域,以及对搜索引擎评估和开发的一些评估。个性化搜索引擎的推广。考值参考文献[1]王新凡,搜索引擎性能全局评价数学模型及其应用[J]。[2]李光利。直搜索引擎的研究与设计[D]交通大学,华东,2008。3]白坤,严国华。于Lucene / Heritrix的垂直搜索引擎的研究与应用[J]。算机应用与软件,2009,01:212-215。[4]潘涛。
正友。进Nutch页面排序效果的方法[J]。息,2010:13:42-44。5]张伟,李志伟。于Web的搜索引擎优化策略PageRank算法[J]。算机应用,2005,07:1711-1712。
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波网站seo
宁波网络seo
宁波seo推广公司
宁波seo排名
宁波谷歌seo