宁波seo优化专栏

宁波seo:基于Nutch Customs主题搜索引擎的研究与设计

发布时间:2019-01-19 00:18:44

  [摘要]利用Nutch搜索引擎技术和全面的网络设计思想,构建了基于Nutch的海关情报搜索引擎系统模型及其主要功能和模式。析并提出了系统各功能子模块的功能集成。着实施该系统的相关技术路线的实施,海关系统专业搜索引擎的问题得不到很好的解决,海关情报和文献资源的全文检索也在统一的技术平台。

宁波seo:基于Nutch Customs主题搜索引擎的研究与设计_no.37

  户提供了一种有效,快速,准确地获取情报信息的有效工具。
  [关键词] Nutch海关主题搜索引擎统一海关研究系统稳步增加科技投入和资金投入。些网站提供有关宏观经济和社会部门的广泛信息和统计数据。此同时,与外界隔绝的海关公司内部网站在联系交流,学术研究,互助合作等方面发挥了积极作用。论海关内部的商业合作,科学研究还是需要在海关之外搜索海关信息和统计数据,都必须找到一种有效的方法来从海关获取有价值的信息。量信息。前,通用搜索引擎内部排序算法和商业拍卖排名机制确定搜索结果的准确性不是很高,所涉及的字段也是如此宽,需要用户进行二次过滤。别是在海关方面,它不够深入和专业。此迫切需要一个专门的搜索引擎,其中习俗是社会和习俗的主题。之,相关概念搜索引擎是现代信息检索技术在大规模文本集合中的实际应用。1993年第一个搜索引擎“Excite”诞生以来,搜索引擎已进入第四阶段发展,搜索引擎按主题进行。题搜索引擎的目的是在特定领域中创建网络信息资源库,并智能地收集网络上响应所定义主题或满足主题需求的信息资源。题下搜索引擎的主题越高,搜索引擎越接近主题,用户就越容易找到关于主题的信息。NutchNutch是一个完整的基于Lucene的Web搜索引擎解决方案,一个开源应用程序和Java。Nutch基于Hadoop的分布式处理模型可确保高效执行,还具有类似Eclipse的插件机制,可确保良好的系统适应性并轻松集成到客户端应用程序中。用Nutch按主题创建搜索引擎的优势是不同的:与商业搜索引擎相比,Nutch是一个开源的,任何人都可以查看和修改他们的排序算法。此,Nutch为学术研究和政府网站提供了更高的透明度,更适合专业和学术研究。Stutch Nutch非常灵活,可以定制并集成到相应的应用程序中。于Nutch的插件机制,Nutch可以用作搜索个性化信息载体的搜索平台。据搜索引擎对海关主题的搜索标准,可以将其整合到搜索引擎主页上的海关主题,以达到为用户提供有针对性的搜索服务的目的。利可图的使用Nutch本身不需要支付任何费用,它可以以最低的成本工作:每月捕获数十亿的网页,维护每个分析网页的索引;每秒执行数千次搜索并获得高质量的结果。计海关主题索引机器人系统模型的思路如下:基于Nutch的探索,探索的功能是有限的,宁波seo其定义的操作范围是也就是说,根据目标用户的需要提取海关主题的基于网络的信息。官方网站上正式公布并发布,它是一个URL集合,可自动收集有关该主题的信息;在获得链接数据之后,通过过滤和分析主题来建立全文索引库,用户搜索索引库。统可以分为三个层次:数据层:将定义的URL注入crawldb数据库,创建一个crawl-db数据库爬网列表,然后运行“创建一个页面”循环/更新数据库“直到分析完成。间层:根据分析的网页生成的片段内容更新链接数据库,然后建立全文索引应用层:用户通过以下方式执行查询操作用户界面,通过Tomcat服务器将用户请求转换为lucene查询,并返回结果。析功能模块和实现路径有两种方法可以为初始URL集创建初始URL集:超链接和网站管理员提交。统打算采用网站管理员提交模式:管理员使用海关网站主题定义一组网址作为初始网址集。证搜索引擎后,将网站的URL添加到crawldb数据库进行分析。入操作在Nutch的一个主包的分析包中调用类注入器,其主要功能是格式化和过滤URL集,以定义URL的状态on:unfetched(UNFETCHED)并遵循某种方法。

宁波seo:基于Nutch Customs主题搜索引擎的研究与设计_no.167

  
  始化分数并合并URL以消除重复。generate操作调用explore包中的类构建器。要功能是从crawldb数据库中提取URL,过滤它,对其进行排序,域名和链接号。使用散列算法按降序对其进行分类;组织列表以在段上书写。
  取操作调用类以在恢复包中退出。

宁波seo:基于Nutch Customs主题搜索引擎的研究与设计_no.133

  要操作是根据段文件夹中的提取列表提取作业。
  恢复过程中,由于链接,页面的URL可能会更改,因此必须更新URL。址,为了达到理想的信息获取速度,一般采用多线程并行信息捕获策略。析操作调用解析包的解析段,解析段中检索到的页面,并将页面排序为日期解析和分析文本。析日期记录标题和作者的页面。日期,链接等,页面的文本内容保存在分析文本中。updatedb操作调用crawl包中的crawldb类,其主要功能是根据cue目录中fetch文件夹和crawl文件夹的内容更新crawldb,以添加新URL并替换旧的。引索引模块Lucene是Jakarta Apache的一个开源项目,它提供了一种非常简单的方法来创建索引。建文档类型的对象时,文档字段对应于表或数据库视图的结构,因此可以根据类别控制提取权重元数据和要索引的域,以及需要分词的域等。Lucene索引文档并且不需要文档格式,无论是HTML,MS Word,PDF,Excel,XML还是纯文本文件,只要可以从这些文件中提取文本信息。此,Nutch使用插件机制通过各种文档解析器将文档转换为纯文本字符流。Lucene Analyzer负责过滤标点符号和无意义的单词,例如“是”,将字符流转换为关键字并遵循“术语词典”,频率文件(频率)位置文件结构存储在索引文件中。
  词算法不同于英文文章的空间,它允许区分每个单词的限制。文文章必须分为句子形成单词(分词算法)。系统打算使用包含112,967个不同单词的THDic分词字典,以在逆最大匹配(RMM)方法中执行分词操作。THDic分词词典中的最大单词数为17,并且从文章或句子的末尾分组17个单词,并与单词分词词典进行比较。
  的,直到最后一句话。

宁波seo:基于Nutch Customs主题搜索引擎的研究与设计_no.168

  统计,这种方法的错误率仅为1/245。究人员通过逐一查询中国100所大学图书馆的网站获得了以下统计数据:62%的统一搜索窗口显示在主页上,83%的网站具有以下功能:统一搜索。以看出,对于具有大量异构数字资源的大学图书馆,统一便捷的一站式搜索方法是服务改进的必然趋势。此,有必要设计和制作统一的搜索界面,简洁美观,功能实用,并通过页面的形式接受用户请求请求。

宁波seo:基于Nutch Customs主题搜索引擎的研究与设计_no.103

  到搜索请求后, Tomcat后台服务器对用户输入的搜索关键字执行剪切操作并削减分数。个单词作为参数传递给Lucene索引文件库以进行比较搜索。果到达,则对搜索结果进行排序和汇总,返回到Tomcat服务器,最后转发到网页。为用户,页面上显示的是类似于百度或谷歌搜索的搜索输入框,以及按相关性排序的一组搜索结果。于中国海关系统对特定领域搜索引擎的迫切需求,本文提出了搜索引擎,主题搜索引擎及相关技术,重点介绍了成熟的Nutch搜索引擎的设计。他的主要想法。析和讨论了应用构建自定义搜索引擎的概念的概念。过分析Nutch的功能,结构和优点,提出了一个关于海关主题的完整搜索引擎系统模型,然后研究了该系统的各种功能模块和实现方法。先,它解决了搜索引擎和海关话题。建网络资源恢复系统的问题。
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波seo推广公司  宁波网络seo  宁波网站排名优化  宁波seo排名  宁波网站seo