使用Solr,Nutch和其他开源软件为电子元件创建垂直搜索引擎涉及许多实现细节。文档提供了关键问题的实用解决方案,如数据采集,中文搜索,结果输出,分页处理和集成数据库。
于搜索引擎不同的开源技术是开源社区,这显著缩短了搜索应用建设周期,可以创建自定义的应用程序基于垂直搜索引擎系统的特点具体需求。Solr是一个独立的商业搜索应用程序解决方案,在许多着名的美国网站中使用,例如美国最大的技术新闻网站CNet。
于Lucene开发高性能,Solr的实现不仅是一种丰富的查询语言,最好的,Lucene的查询性能,同时也可配置的API,可扩展性和类似的外部Web服务。户可以通过HTTP请求提交的搜索引擎服务器指定的XML文件格式生成索引,或者通过运行“HTTP GET”进行查询,以获取XML格式返回的结果。
Solr与其他开源搜索软件的结合已成为构建垂直搜索引擎的首选解决方案。直搜索引擎的整体结构本文档中描述的电子元器件垂直搜索引擎使用的Solr 1.4为核心的基础设施和集成开源软件,例如Nutch的和IK Analyzer来充分利用其灵活的配置,其丰富的功能和有效的表现。简单的代码,可以快速收集,搜索文本和检索大型电子元件参数,满足市场上技术研究人员和采购人员的专业,精确和深刻的需求。部门的知识。子元件垂直搜索引擎系统包括四个主要部分:数据采集,数据处理,规划和数据管理以及搜索服务。据收集科负责互联网浏览,过滤,排序和抽象,内部网,内部电子文档,结构化数据(关系数据库,XML)等。;数据处理部分负责分类,修改和修改收集的数据。划和数据管理部分负责定义和管理系统的元数据,包括分类系统,特征参数,参数类型和测量单位。航,数据挖掘,行业报告和其他自定义定制服务。
般结构如图所示。文介绍了几个关键的实现方法,如数据采集(采集网页,结构化的数据采集,中国支持),研究结果的呈现(导航水平,高亮,处理分页) 。据收集网页捕获互联网上收集的数据网页不是Solr的主管,我们可以依靠Nutch在这方面的出色表现。于Hadoop分布式系统,Nutch可以在一台机器或多台机器的集群上运行。Nutch可以根据用户的需要配置某些页面进行探索。此,分析的质量非常高。这个系统中,我们使用Solr作为处理搜索结果的源和入口点,并且我们使Nutch能够做它最擅长的事情:捕获和提取内容。
Nutch配置文件是nutch-site.xml。置包括指定的蜘蛛的名称,激活插件,限制单个计算机可以扫描的最大URL数,以及指定扫描规则。成这些基本配置后,即可执行分析。
据收集结构,以充分利用现有资源,提高数据检索的效率,我们已经包含超过一百万的电子元器件和超过1000万个参数特征元素来自中国和韩国中国电子制造商数据库的电子元件产品数据库。为结构化数据源,电子元件信息库同时将所有数据导入Solr,后续维护使用增量导入。于搜索的表主要涉及基本产品信息表,制造商的基本信息表,分类表,特征参数表,参数模板表,d模型信息,产品特征参数值表,测量表单位等。Solr以可配置的方式从数据库中的多个列和多个表生成Solr文档。置方法包括在域节点中定义特定字段(类似于数据库字段),然后通过配置文件导入所有数据,以发现和处理由插入和更新。文搜索支持Solr分析包不直接提供中文搜索支持。
这里,我们使用IK Analyzer Light中文分段工具包来协同工作。IK分析仪基于开源的Java和IKAnalyzer的新版本3.2.0上已经演变成一个共同的词为Java组件,独立于Lucene项目,并提供了Solr的接口。
中IK分析器的通过电子部件的搜索引擎系统中使用的特征包括以下内容:以600万个字/秒的高速处理能力“细粒迭代结束之前碎裂算法”;与英文字母(IP)地址,电子邮件,网址),数字(日期,
宁波网站优化中国量词常用的罗马数字,科学计数法),中国词汇(姓名,治疗的名支持工作多字的分析的地方)和词语的其他分割,优化的存储字典对于减少的存储器中,全文本搜索查询Lucene的分析器IKQueryParser优化:在分析算法的模糊度被用来优化在查询关键词的组合在搜索排名中,可以大大提高恢复的成功率。于电子元件的垂直搜索应用面向特定的专业领域,因此IK Analyzer本身提供了丰富的常用词汇,但它仍然适用于专业应用。运的是,IK Analyzer提供了良好的可扩展性。们可以很容易地开发和定制与配置文件,它可以搜索诸如“无铅柱状薄膜电阻的精度”和用户词典“半波随机固态继电器。专业词汇。染搜索结果Solr的搜索结果通常以XML格式返回,不适合普通用户。而,Solr的提供了各种方法(如正则表达式和文本分析)进行重新排序搜索返回产生视觉的网页结果容易理解的用户,但它们都需要大量的编码工作。系统中,我们使用XSLT将XML格式的结果文件转换为HTML文件。换后,您可以获得一个可以显示搜索结果的页面。Solr提供类似于类别过滤器的构面功能。行层不需要在Solr中配置,但可能需要以新的方式索引应用程序内容。盖在索引字段中完成,并且该层对于未破坏的非小写字更有效。

常不需要存储构面字段,因为覆盖的想法通常是为用户显示可读值。

得注意的是,Solr不会在层次结构中创建类别,并且必须在索引期间由应用程序本身添加,就像在索引应用程序时将关键字归属到文档一样。果存在级别字段,则Solr提供用于定位这些级别及其编号的逻辑。外,要在搜索结果中获取最合适的文本并突出显示,有必要突出显示搜索结果。出显示可编辑的配置文件实现。置包括用于突出显示文本的前缀和后缀(通常指定字体,字体大小,颜色或此处突出显示的其他文本样式)。果你有很多搜索结果,你仍然需要页面,但我们不想编写复杂的代码来实现分页。
们在专为Solr设计的系统中使用了一个开源分页插件来浏览Solr的搜索结果。
实上,Solr的功能远不止于此,许多搜索功能可以通过简单的配置和少量的修改来实现。

前,我们围绕Solr作为主体和执行各种功能的探索仍在继续,我们努力充分利用开源软件的好处,降低开发成本,以保证系统的操作和性能。(作者:董亚是电子工业出版社,周俊松是电子信息科学与技术部工业和信息技术研究所)"
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波网站排名优化
宁波seo推广公司
宁波seo排名
宁波网络seo
宁波seo网站优化