鉴于目前的农业搜索引擎不准确和不正确的字符串的不完全研究问题的基础上,搜索引擎,如Nongsou顺农华农在线和中国农业信息网站的分析,在中国使用,Nutch框架为垂直农业信息搜索引擎。索引擎对农业用语进行分类,并构建专门的农业词典以加快查询速度。外,基于Nutch的搜索引擎使用了改进的PageRank算法,以便获得最大的加权网页页面进行排序,值呈现的研究成果,
宁波seo实现搜索结果的预期结果初始。键词:荷兰结构,农业搜索引擎,农业词典;设计中图分类号:TP391.3文献标识码:A文章编号:0439-8114(2015)18-4603-04DOI:10.14088 / j.cnki.issn0439- 8114.2015.18.055随着农业信息化的发展,农业信息爆炸式增长,搜索引擎已成为不可或缺的研究工具,也是使人们收集信息的必要手段之一。前,农业信息量达到100TB。
于农业数据如此之多,快速有效地获取个性化农业知识和资源已成为当前农业信息搜索中的一个迫切问题[1]。年来,平行于农业信息化的发展,各类农业科研发动机的逐渐发展,虽然他们可能满足当前农业发展的需要,但有必要继续的发展农业专题研究。前,有超过10000种的农业部门网站和其数量超过200万[2] [2]刘燕华等[3]领导的三个搜索引擎谷歌,百度和中国顺农在农业领域。析比较表明,全面的搜索引擎中的搜索功能,结果,信息容量等方面具有明显的优势,但缺乏专业化和局部的农业内容的内容。
国还有许多农业研究引擎,如农业研究,顺农,华农在线和中国农业信息网。业研究网络使用独特的智能页面技术来执行网页信息的结构化索引。
户查询结果以农业科研单位,农业专家,农业实用技术等为主,从而实现农业信息的普及。制服务为迫切需要有关农业和市场信息的科学和技术信息的企业,部门和农民提供有用的工具,以获得准确的农业信息。Soon.com使用基于网页的主体,加速更新信息,以提高召回和信息精确度,并建立一个新的适应性研究模型的内容索引复杂的,该公司开发并部署了超过6 200软件机器人承担串行收集,清洗,分类,分组,排序和农业信息WEB的分布和主要实现处理工作的自动化WEB信息,而不是与农业信息服务的提取,修改和分配有关的一系列艰苦工作。
大大降低了农村网络信息服务的成本。农在线已在农业领域取得了垂直搜索的应用程序和整合各类参与现有的互联网部门和行业的农业信息资源,实现个性化的有关农民的信息需求,提供专业知识问题以及答案。功能;组织农业专家回答问题,组织大学论坛,建立农产品物流,农产品价格,谈判平台和与国外交流的产业平台。管这些农业搜索引擎能够满足用户的一般需求,问题也会出现:召回和精度低,死链现象使得搜索结果的用户不完整,不准确或无法访问。

户可能被其他信息打扰或对搜索引擎不满意。炜[4]进行了Nutch的搜索引擎搜索的农业信息化的实现进行了初步研究,并延长了Nutch的搜索引擎来搜索农业信息。项研究应用Nutch的搜索部分搜索的农业信息,建立的基础上,研究框架Nutch的,阶级的共同农业词农业信息的垂直搜索引擎,成立专业词典和农业类精确的网络农业信息。

户可以获得更准确和有用的查询信息。索引擎Nutch Nutch是Apache的项目之一,它使用Java语言作为实现和开发的工具。为一个完全开源的搜索引擎,它被广泛应用于本地搜索引擎和扩展,搜索引擎处理Nutch的(图1)的设计与实现农业科研引擎的搜索引擎Nutch的具有良好结构,便于农业搜索引擎的设计,并设计不同的插件来执行其功能。这项研究中所设计的整个搜索引擎分为六个主要模块:信息过滤模块,信息采集模块,中国话模块的分割,农业专业字典,索引和存储模块查询模块,如图2所示。据当前农业发展和农业研究发动机的现状功能结构,这项研究提供了基于与六个主要模块农机专业词典引擎搜索:过滤模块信息,信息捕获模块,中文分词模块,农业专业词典。
索引存储模块和查询模块。

息捕获模块,索引存储模块和请求模块是在Nutch搜索结构中的现有模块的基础上实现的。农业科研,信息过滤模块,该模块农业专业词典,提高了运动模块中的排序算法的设计和开发的专业主题,以更好地满足要求过滤农业网站的农业专题研究。相关的页面和链接,爬虫将扫描网站的URL,从URL中删除后缀并提取关键字。于专业的农业词典过滤,删除不相关的网址和网页链接,然后提取网页中的内容(标题,摘要,正文,网页等)(标题,网页的摘要,正文等),以及任何非结构化的项目。页的内容是结构化和出现的频率提取内容的关键字是由农业专业词典中的组合权重,进行农业信息初步筛选。
块农业专业字典农业专业字典是广义mots.Le字的准确的分割的一个必要条件是指名词,动词,形容词,代词,几次,量词量词在GB / T13715-92定义的“分割现代汉语中的信息处理“。词,介词,连词,辅助词,模态粒子,插入和录音。业搜索引擎将填补四个主要搜索功能:农业科学,农业产业化,农业产业链和全局搜索,将农业的话在农业科学,农业产业化,农业产业链等几大类。业科学包括传统农业科学,水生科学,林业等。(图3)。统农业科学包括农业环境科学,植物生产科学,畜牧科学,农业工程科学和农业经济学[5]。产科学包括水生资源,水产养殖,渔业,水产品加工技术,渔业经济学等。[6]。林科学包括林业,林业,环境森林科学,森林工程科学,森林处理科学,森林经济管理等基础科学。[7]。业行业包括粮食,经济作物,果树,蔬菜,花卉,生猪,肉牛,家禽,水产品和农产品物流。业链的预生产包括苗木和农业设施;生产包括种植/农业/渔业,农产品,农业机械,现场管理,加工包括清洁/包装,等级分类,保险加工,加工食品消费包括营销和食品服务。合研究是对农业信息的各个方面的研究,包括农业科学,农业和产业链。着专业词典的建设,用户可以直接查询相关的词汇遇到的查询词的属性之后,否则可能会在充分调研的质疑,这显著减少质疑的时间和将使查询的结果更准确。询模块的用户可以使用搜索界面中的搜索命令来使用模糊查询和多条件查询。统调用中文分词模块,对搜索命令进行分段,将其分解为关键字并索引到Nutch索引库中。户的网页通过分配权重对搜索结果进行排序,并将其呈现给用户。序算法传统的PageRank [8]:P(μ)= C(1)其中μ是一个网页,P(μ)如果所述网页的PR值,F(μ)是一组网页由页面μ指示,B(μ)是指向μ,N(μ)= |的网页集F(μ)|是指向μ链路的数量,P(v)为对网页指向米到Web v页PR值,N(v)为的指向V和v链路的数量是归一化因子(通常为0.85)。于算法没有确定网页的超链接是相关的主题,排序算法PageRank的出现漂移的主题。PageRank算法的改进算法在此[9]系统中使用的:PR(P)=(1-d)+ d×(2)其中PR(p)是网页P,PR的的PageRank( Ti)的是在Ti网页的PageRank和是归一化因子,其是网页p来的Ti中证明的样式的相似性值S,S(T)= B为一组的Ti网页的链接连接。算法扩展通过审核,这大大降低了不相关的网页的价值的传播和分配权重同类题材的网页上显示网页的PageRank的的价值网页。
个过程整个搜索引擎由三个过程组成:信息捕获,信息处理和信息检索。业信息的收集主要负责收集,整理和各种农业类网站的农业信息存储,这个过程包括爬虫,页面分析仪,更新程序和网址农业信息过滤器。行动物会用交叉的形式探索和利用农业信息有用的网页和协同农业网站的链接。
分析器进行拍摄的内容进行语法和词法分析,删除重复的网址,发送的网页内容在页面分析器检查的内容,从网页过滤信息和删除网页和不必要的URL。URL更新程序主要更新过滤的URL以便于下一个扫描周期。疗和农业信息分类分析网页的相关性explorées.Selon归类在本研究中所确定的农业词典农业类探索了网页的信息进行匹配和匹配不同类型的关键字分析的网页是可分类和可访问的,搜索公式基于反向排序。

主要步骤是:从纯文本,信件由农业专家,相关农业信息存储的中国职业字基于字典的网页信息转换为分类和建立的研究按相反顺序排序。络资源回收农业信息农业用户发送一个请求,并呼吁中国话分割模块请求模块基于农业专业词典用于分析用户输入的查询,整合成一个搜索公式指定查询本地Nutch库并返回用户请求。页注册。
此同时,在该模块中,改进的PageRank算法将被用来和网页的加权处理将返回的网页的基础上进行。执行标准化处理以获得相应的100个最佳关键字,并且将由算法执行计算。球提高了查询结果的准确率和召回率。结基于研究框架Nutch的,该研究建立了农业专家的字典进行准确分类农业信息和网页信息,以及创建一个索引Nutch的图书馆,通过它系统使用改进的PageRank算法改进初始搜索结果。搜索结果中对关键字进行排序并显示最相关的结果。于整个系统的设计和插件的设计,寻求信息的目的“个体,准确,全面的”农业会实现,用户将获得搜索结果更完整,更准确。
本文转载自
宁波seowww.leseo.net
补充词条:
宁波网站seo优化
宁波seo网站优化
宁波网站排名优化
宁波网站优化推广
宁波网络seo