宁波seo优化专栏

宁波seo:中国农业智能垂直搜索引擎系统的构建与

发布时间:2019-02-14 00:22:06

  鉴于多样性和农业信息网络的复杂性以及对“三农”,在中国,中国智能垂直搜索引擎AgriRoom进行了研究和实施,以及关键技术所涉及的特殊性在体系结构和系统的实现中引入了AgriRoom:在信息过滤网页的基础上进行分类和多元线性回归分析,宁波seo反向索引技术基于随机索引和潜在语义分析的物理存储模型和语义检索模型进行分页。系统目前正在使用中,并取得了显着的应用效果。键词:农业信息,垂直搜索引擎;架构中图分类号:TP393.02文献标识码:A文章编号:0439-8114(2014)12-2913-05架构和实现农业chinoiseCHEN燕hongAbstract的智能垂直搜索引擎:多样性和在互联网上的农业信息的复杂性,并在中国,AgriRoom“三农”的特点,为中国农业智能垂直搜索引擎进行了研究和实现。AgriRoom和关键技术的在该系统的实施方式相关联的体系结构:基于所述网页分类和多元线性回归分析信息过滤技术,倒排索引标签的物理存储模式中,模型基于随机索引分析和潜在语义分析的语义提取。对应用产生了重大影响。键词:农业信息;垂直研究工程体系结构在20世纪90年代早期,搜索引擎开始用于农业,主要是商业公司,有时是组织和政府机构。搜索引擎的质量的角度来看,农业搜索引擎的组织和部门发展和管理的质量比商业公司要高,主要是因为政府部门和组织都涉及到部门这有其固有的优势。
  型的代表包括美国农业网络信息中心(AGNIC)和由美国普林斯顿设立的Agriscape搜索[1]。“Nongsou”中国首届农业垂直搜索引擎,是目前世界上最大的农业垂直搜索引擎,基于数据,执行智能搜索功能“全文搜索+语义搜索” [2] 。年,华农在线利用自然语言语义分析技术实现了农业领域信息处理和垂直搜索的应用。时,一些网站在中国提供农业信息搜索功能。着给予“三农”和中国的多样性和互联网上的农业信息复杂的特点搜索引擎技术的发展,许多问题必须探索。研究构建中国智能垂直搜索引擎AgriRoom,从系统架构,信息过滤,将物理存储模型和语义检索模型提出,为进一步研究建立一个发动机的基础智能垂直搜寻中国农业。国智能农业垂直搜索引擎系统架构小组根据以往的研究成果,设计并实现了一个功能齐全的智能垂直搜索引擎AgriRoom。体系结构如图1所示。为专注于对互联网上的农业信息的垂直搜索引擎,AgriRoom凸显农业,初始种子网站词库的特点,同时提供特殊过滤模块,用于过滤高农业利益的网页,节省资金。储空间可确保信息的准确性。此同时,AgriRoom采用基于库双模双指数奠定高效回收的基础和保证精度和召回制度的速率潜在语义检索方法。先,系统使用索引模块创建一个有效的分页索引库,然后将检索模块转换为双语义空间,为下一个语义检索做准备。统的体系结构如图1所示.Professional Web Browser [1]从农业种子站点列表中获取网页的URL。果该地址不在要删除的URL队列中,则该网页将被爬网到Internet上的相应Web服务器。描分析的网页并提取网页。链接信息和web内容信息被发送到信息过滤模块。后网络蜘蛛继续探索下一页进行相同的处理。到由专业网络蜘蛛发送的分析页面后,信息过滤模块确定网页的内容是否与农业的主题,无论是垃圾邮件或网页基于关键字及其在农业关键词数据库中的权重的导航页面。果页面与农业主题的相关性低于定义的阈值,或者页面是垃圾页面,则页面的URL将被发送到要删除的URL队列。则,将页面发送到索引模块进行索引,页面也存储在农业网页的数据库中。

宁波seo:中国农业智能垂直搜索引擎系统的构建与实现_no.73

  旦索引模块获得了页面信息并执行了相应的处理,就会创建一个分页反向索引并将其存储在索引库中[3]。
  所有抓取网页被索引,该提取模块读取扩展倒排索引库中的索引并且通过分析随机指数[4]和分析更有效地建立了一个双语义空间潜在语义[5]。旦用户已经输入的查询条件时,恢复模块分析,贩卖和转换的标准查询指令,其执行所述请求的语义分析和包含在语义空间中的信息获取查询结果。后,将结果页面返回给用户。能AgriRoom中国农业垂直搜索引擎系统的关键技术,被应用到各种技术全面的方式,除了经典的[1]网络探索,中国的分词技术[6]还包括三项关键技术:信息过滤技术,分页反向索引技术和语义恢复技术。滤信息为了有效减小索引的大小并提高系统效率,AgriRoom使用基于网页分类技术和多元回归分析的信息过滤模型[7]如图2所示。个工作流程可分为培训流程和测试流程。训练过程中,一旦制备的训练游戏实例(文本提取,中国分词),所提取的特征中,该矢量表示,多元线性回归的数学模型被构造和最后进行回归分析以获得回归方程。

宁波seo:中国农业智能垂直搜索引擎系统的构建与实现_no.78

  要过滤的中文网页预处理并用矢量表示,然后在多元回归方程中代入以确定网页是否是农业网页。图2所示,构建信息过滤模型所需的主要因素是:建立学习集,网页预处理,特征选择算法和多元线性回归分析:建立学习集。
  训包是研究的出发点和基础,但与许多标准的英语培训包相比,标准的中文在线培训课程起步较晚。目前为止,中文文本只有少量培训包,仍然没有标准的中文在线培训包。了解决这个问题,100名学生被动员手动收集互联网50000名农业的网页,其中包括35000作为单独的训练和15000测试和百度一直作为首选网站互联网上的蜘蛛。们随机查获了12,000个网页,手动选择了7,000个非农业网页,其中4,000个用作培训实体,3,000个用作测试事件。过反复测试,最终确定学习组实例用于信息过滤。)预处理网页。页的前处理主要包括页面的正文提取,对中国分词的工具用于对所提取的文本和结果进行的中国话分割的分割后索引。择特征的算法。键字不仅用于建立回归模型的因素,也区分农业网页的最关键因素的网页不选择关键字的agricoles.La方法都会对一个显著的影响识别效果的模型。文在深入研究中文网页分类中典型特征词提取方法的基础上,提出了一种基于实际应用的特征词选择新方法。骤如下:a)从农业训练游戏索引文件中获取农业训练游戏。分词结果起租1(T1,T2,...,TN)和频率设定相关文件DF1的(DF1,DF2,......,DFN);湾充分利用总体非农培训索引文件(T1)游戏Termin2分词结果,T2,...,TM)和设定相应的文件DF2(DF1,DF2频率,...,dfm); c)审查的字词1所有DF1的TI所有方面的文件的频率,指出ny_dfi,然后查询所有DF2挑战文档TI字表示fny_dfi的频率,计算差值C的绝对值农业培训集和非农业培训集中的文件频率,即C = ABS(ny_dfi-fny_dfi)。语Ti为在C值的相反的顺序进行排序,并且术语TI,C的值是否大于预定阈值被选择为区分农业网页和非农网页的特性的话。过比较不同分词工具的特征词选择结果,最终确定前100个特征词(表1)。元线性回归分析。元回归分析[8]是一种处理独立变量和因变量之间统计相关性的数学统计方法。然独立变量和因变量之间没有确定性的函数关系,但可以努力找到最能代表它们之间关系的数学表达式。归分析具有广泛的应用,例如经验公式的评估,因子分析和产品质量控制。识别中国农业网页的过程中,前40个关键词和MATLAB用于进行多元线性回归分析。后,该回归方程,可用于获得的分类,即一个分类为:y = -0.368 + 0.187 4 4倍[0] + 0.210 4倍[1] 0202 4倍[2] + 8X 0125 [3] 0364 2×[4] 0188 2×[5] 0135 7×[6] 7X 0083 [7] 0126 8X [8] 5×0045 [9] 6×0061 [10] 0053 8倍速[11]为0x 0105 [12] 0097 0X [13]为0x 0404 [14] 0071 1×[15] -0018 4倍[16] 0076 1×[17]] -0.372 7倍[18] 0.118 8倍[ 19] -0098 9x的[20] 7×0078 [21] 0065 8倍[22] -0088 4倍[23] -0054 9x的[24] -0028 5倍[25] + 0.047 5倍[26] -0.083 6×[27] 0.036 6×[28] -0.134 3倍[29] 0.003 4倍[30] 5×0.004 [31] 0.034 4倍[32] 6×0.045 [33] 0.020 3×[34] + 0X 0.038 [35] - 0.063 9x [36] - 0.026 6x [37] + 0.092 7x [38] - 0.083 2x [39]。x [i]是第i个特征字的对应值。果单词出现在网页中,则x [i]的值等于1,否则等于0;如果计算出的y的最终值大于0,则网页是农业网页,否则它不是农业网页。排索引分页为了解决常规倒排索引,的缺点,如低收率和硬更新[9] AgriRoom采用倒排索引结构分页(图3)。排索引的存储装置的方法与数据库和磁盘上的文件混合,并且仅d文档集合被存储在数据库中,和倒T的术语集合和IT索引集合存储在磁盘上的文件中。了提高恢复速度,AgriRoom将倒排索引打印为100份。个文件夹下有3个文件,分别是IND,SITES和URLS,所有顺序文件。个条目网站IND文件存储偏移(SitesOffset)文件,其中包含术语(SITECOUNT)网站的数量,文件的数量术语(URLCOUNT),并在文件中的条目。D(TotalCount)集中出现的总次数。SITES文件将条目的偏移量(UrlsOffset)存储在每个站点的反向索引(Site_ID)中。
  URLS文件存储条目的反向索引,并由Site_ID聚合。
  了提高反向索引的恢复和更新效率,反向索引文件作为页面存储在磁盘上[10]。了减少文件页面中的碎片,AgriRoom将反向索引集保存在多个文件中。个文件都有不同的页面大小,并指定配置文件中每个文件的路径,文件名和页面大小(页面大小:文件系统页面大小的整数倍) )。个反转文件都有一个标题页(HeadPage)和几个数据页(DataPage)。面大小(每页)文件,下一个空白页(NextFreePageNo)的页数(页页次)和页码都存储在标题页。面的页码(PageNo)存储在数据页面中。果单个输入的倒排索引数据的长度比所述数据页面的尺寸时,数据的下一个页的页号(NextPageNo),索引的长度和索引数据存储。据页面只能存储一列反向索引数据。于散列数据结构在内存中的最佳性能,设置项中T和所有IT倒排索引存储在散列数据结构在内存中,提高回收效率。向文件和磁盘上和在存储器中的词典文件的结构示于图4的基于语义技术恢复双语义空间恢复模式是搜索引擎的关键技术之一中国垂直智能化在农业领域,可以有效地回收风险。型[11]。复模式的基本思想是要打破恢复过程以两个步骤:使用增强型随机索引技术[11],以生成空间和纸张空间字的所有测试农业,然后获得查询短语和文档空间的语义向量。载体相比主文档的列表中,潜在语义矩阵用于生成文档空间[12]的文档相似性矩阵,并且文档之间的相似性的值被用于搜索文档在预先选择的文件清单中超过指定阈值的员工。更新文档列表,最后获得返回给用户的结果列表。AgriRoom的语义检索模型如图5所示。统实现基于整个系统设计和研究结果。究团队为中国农业开发了一个功能齐全的智能垂直搜索引擎AgriRoom。原始站点,探索互联网上的相关网页,并在过滤信息后,建立农业网页数据库和索引反向分页数据库。进行额外的语义分析之后,语义索引库最终可供用户使用。体的农业信息检索服务。发环境和工具的硬件开发环境刀片黎明64位中,主图案是4 GB内存,260 GB,软件配置的硬盘容量:红帽Linux操作系统,其核心是2.6 .31.5-127.fc12。i686.PAE,编译器是GCC 4.4.2,Web服务器是Apache 2.x.系统后台的数据库是:MySQL。行AgriRoom的在IE地址栏中的URL,并将结果之间的系统中的实例示于图6在搜索框中输入“棉花价格新疆”后,将搜索结果如图7所示。击搜索结果页面中第一个结果的超链接以访问该页面。果如图8所示。结面对庞大的互联网资源,快速有效地获取个性化知识和农业资源的问题已成为数字农业的迫切问题。国农业部门智能垂直搜索引擎的出现将有效解决农业信息“跋涉”问题。此,开发了基于网页分类和多元线性回归分析的信息过滤技术,基于随机分析和潜在语义分析的分页逆索引技术和语义检索模型。
  后,建立了农业智能农业垂直搜索引擎AgriRoom。
  际应用证明该系统可以为用户提供方便,准确的农业信息检索服务。
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波seo网站优化  宁波网络seo公司  宁波网站seo  宁波网络seo  宁波seo推广公司