宁波seo优化专栏

宁波网站优化:研究和实施基于Nutch的医疗信息搜

发布时间:2019-02-05 00:19:49

  作者简介作者:刘琳(1981-),女,计算机科学系,重庆电子工程学院,计算机多媒体图像恢复技术研究室主任。0引言随着中国新医改的不断深入和进步,中国医疗信息产业取得了长足的进步,在此期间产生了大量的医疗信息资源。个过程,其数量已超过肺结核。对如此大量的医疗数据资源,传统的通用搜索引擎检索不相关的信息主体,并包含大量冗余搜索结果,无法满足用户的具体要求。复材料。息服务人员如何高效准确地找到个性化医疗知识和所需信息的资源,医学垂直搜索引擎成为解决这一问题的有效途径。直搜索引擎是通用搜索引擎的改进和扩展[1]。于医疗垂直搜索引擎,按内容排序可以有效提高恢复的准确性和效率。前,通用搜索引擎仍存在诸多问题,这反映在医学研究:查询结果不允许完全理解医学术语和用户搜索条件无法准确索引导致大量冗余搜索结果和低恢复效率。他医学搜索引擎在相似性和排名的比较方面仍需要改进。Nutch是一个基于Apache Foundation [2]的Java实现的开源搜索引擎,它为我们提供了运行搜索引擎所需的所有工具,其排序基于网页本身。外,由于Nutch是一个开源框架,任何人都可以看到他们的排序算法是如何实现的。Nutch还拥有灵活而强大的插件系统。平赵等[3]开发的Nutch进行垂直搜索引擎的新药开发,但其主要的限制是研究和开发新药和医学等领域的应用没有完全考虑到。文通过添加中文分词插件,使其具备中文信息处理功能,改进并开发了许多Nutch的核心功能。外,专业医学词典在词汇分词和索引功能方面进行了优化,使其更适合医学信息的垂直搜索引擎。文提出的基于Nutch的垂直医疗信息搜索引擎可以快速查询和共享医疗信息。

宁波网站优化:研究和实施基于Nutch的医疗信息搜索引擎_no.109

  验结果表明,该增强提高了医学信息主体识别的准确性和有效性,减少了搜索结果的冗余,干扰了不相关的搜索结果,使得定位用户并搜索更准确的搜索结果并改进系统。用于复杂异构网络环境的适应性和处理能力。统功能和体系结构Nutch体系结构简介Lucene是一套全文索引恢复工具。Lucene的搜索算法属于索引提取,它使用空间交换时间,对文件和字符流执行全文索引以提取,并在库中执行快速搜索。索以获取搜索位置时的索引。位置保存文件的路径,其中搜索项显示为关键字。Nutch是一个基于Lucene的Web搜索引擎,它向Lucene添加了Web爬虫和其他与Web相关的应用程序包。Nutch主要通过WebDB,LinkDB,Segments和Index 4数据结构提供数据支持[4]。WebDB用于存储扫描开始时显示的所有URL信息(包括新扫描)。LinkDB用于存储链接信息。些段存储以宽度扫描的重叠页面。引存储捕获的信息。

宁波网站优化:研究和实施基于Nutch的医疗信息搜索引擎_no.117

  引网页索引后的文件。的架构图如图1所示.Nutch的主要工作流程可以分为几个步骤:创建一个新的WebDB,也就是说创建一个用于存储URL的集合,注入用于在WebDB中初始爬网的根URL,这些URL充当Web爬网程序的门户URL。于扫描网页并在达到用户定义的扫描级别时终止扫描任务;从WebDB的新段生成初始扫描列表;根据分析列表分析网页的内容更新WebDB的大量链接URL;重复步骤 - 并在达到指定数量的扫描级别时停止扫描任务;使用计算的页面权重更新细分;根据权重索引分析的页面;删除网页中的重复内容和URL 10;将多个索引组合成一个总索引,为搜索提供索引库。1架构nutch所在的步骤 - 主要由web机器人完成,任务是完成网页的收集,步骤10,主要由Lucene创建,是创建索引库。成上述两个任务后,剩下的就是提供一个人性化的查询界面,方便用户使用。统架构本文实现的系统增加了一个医学主题管理模块和一个基于Nutch框架的中文分词模块。
  系统使用IKAnalyzer中文分词插件,因为它提供了与Nutch更好的兼容性,并提供智能分词和最小分词。户可以根据实际需要选择合适的分词功能。于Nutch框架已经提供了搜索引擎的核心部分,例如网络爬虫,网络分析,Web索引和网页检索,您只需要专注于开发模块。疗主题管理。统的整体功能流程如下:Nutch的内置网络蜘蛛用于探索大量网页并逐一进行分析。当获得一定数量的网页时,就在网页的文档上判断医疗文档的相关性。果网页与医疗主题相关,则它会对网络爬虫起作用,继续抓取URL链接,如果不相关,则删除当前链接。面,而是页面中考生的URL队列中的URL,探索可能的有关页面和使用Nutch的索引自己去建立这些网络相关的文件对应的索引对医学科目。索界面和搜索结果呈现页面仍然使用内置的Nutch界面。统实施该系统为系统管理员提供可配置的工具来管理医学术语。统管理员可以运行系统爬网程序,宁波网站优化与来自Internet的主题相关联的网页,创建索引以及向用户提供搜索服务。着时间的推移,新的网页将被添加到因特网,并且已经注册和索引的网页可能被原始网站删除或修改,这需要更新扫描,添加新页面。Web,无效的网页处理等。
  回和精确度是衡量搜索引擎质量的重要指标。回率是检索到的链接网页数与搜索到的所有网页数之比。确度报告是检索到的相关网页数量与检索到的网页总数之比。于不可能获得整个因特网的网页数量,因此难以计算垂直搜索引擎的召回率。时,垂直搜索引擎的主要目的是使搜索结果包含更多与主题相关的网页,以便系统仅使用搜索。
  近评估系统性能。2显示了医疗信息网站的改进和恢复的示例。图2中,首先输入在搜索字段“脊肌萎缩症”,然后与返回的结果的页面上显示的关键字是“脊肌萎缩症”而不是“脊髓”或“肌肉”。如“萎缩”之类的关键词不能准确地反映医学主体对用户的研究需求。2实验结果结论本文介绍和分析了Nutch优秀的开源搜索软件,并提供了基于Nutch开源平台的垂直医疗信息搜索引擎。系统基于Nucth提供的链接分析增加了医学主题辨别力,并增加了中文分词插件,以提高中国医学科目信息辨别的准确性和效率。该系统的研究可以促进医学信息化的发展,并将在帮助该领域的从业者方面发挥很好的作用。而,在引擎中仍有一些领域需要改进,例如提高研究效率和在黑暗网络中搜索。
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波网络seo公司  宁波网站seo  宁波网络seo  宁波网站seo优化  宁波seo推广公司