宁波seo优化专栏

宁波seo:JAVA技术和人工智能在搜索引擎中的应用

发布时间:2019-03-01 00:19:35

  Nutch的是分布式的纯Java开发一个优秀的搜索引擎,但中国话分割使用的机械算法分割不明确的颗粒mots.Lorsquil会议的句子中,分词效果不好BP神经网络用于改进该引擎上汉语词的分词算法,为汉语词的分词提供了一定的人工智能。[关键词]中国的话神经网络NutchBP中图分类号搜索引擎细分:TP3文献标识码:A文章编号:1671-7597(2009)1220062-02的快速发展和互联网的日益普及已经导致在线信息的快速增长。Internet上获取所需信息已成为用户日益关注的问题。索引擎是解决此问题的新技术。指的是使用特定的计算机程序来收集互联网上的信息并根据某些策略对其进行理解。提取,组织和处理并为用户提供搜索服务,以实现信息导航的目标。Web搜索引擎的工作原理搜索引擎程序主要由机器人,索引器,搜索器和用户界面(用户界面,用户界面)组成。存储装置是由页面存储器的(资源库和桶是两个部分,机器人实质上是一个计算机机器人程序通过互联网自动检索各种不同的网页信息,压缩页的原始内容并将其存储在本地仓库页面进行索引。备所使用。索引程序定期提取页面引用的网页的原始信息,分析和分解网页的内容,宁波seo指标字作为主关键字并且执行初步分类处理。
  结果被存储在“隔室”合适(桶)”,这是在材料存储单元中。用户经由提交请求UI用户界面,搜索者根据单词搜索索引和预先排序的桶(Barrel)用户输入的查询密钥,然后采用特定的页面优先级算法,最终确定结果,以尽可能满足用户的查询需求。后,用户界面的用户界面将最终查询的结果呈现给因特网用户。索引擎分析分布式的Nutch(1)介绍的Nutch Nutch的是Java互联网搜索引擎在2003年开发的一个开源它的目标是创建一个开源的网络搜索引擎,灵活,易于扩展和国际。文中描述的测试基于Nutch 0.9,基于Lucene 2.0.0和Hadoop 0.7.1。Nutch 0.9使用Lucene进行中文分词,索引和搜索,并使用Hadoop进行分布式计算,例如索引,浏览网页等。
  (B)Nutch Nutch的整体结构可分为两部分:爬行和搜索。器人分析页面并将检索到的数据转换为反向索引,并且搜索程序响应用户对反向索引搜索的请求。器人和研究人员之间的接口是一个索引,它们都使用索引中的字段。际上,研究计划和机器人可以位于不同的机器上。1显示了Nutch的一般架构。(3)Nutch Global Process首先,Web页面收集程序使用常规集合和增量集合扫描Internet的Web页面,然后索引原始Web页面并将其存储在数据库中。据。后,索引程序提取诸如URL,标题,内容等的关键字。获的网页,将不同格式的数据源转换为内部可识别的文件格式,然后创建一个反转文件,即文档。

宁波seo:JAVA技术和人工智能在搜索引擎中的应用_no.147

  键字用作索引,文档作为索引目标的结构来构建和管理索引库。后,查询服务程序接收用户提交的查询词,进行词的分词和过滤,在索引数据库和数据库中搜索相应的网页,对结果进行排序。据内部评分算法并返回结果。Nutch的整个过程在图2所示。
  进的中国字分割算法Lucene的(1)的间隙中国字段LUCENE的中国中国字符序列被划分成有意义的词,它们是分割中文单词,又称分词。

宁波seo:JAVA技术和人工智能在搜索引擎中的应用_no.114

  
  文分词技术属于自然语言处理技术的范畴,一句话,人们可以理解一个词是什么,什么不是一个知情词但是如何让它理解到电脑呢?使用分词算法。有的分词算法可以分为三类,基于字符串匹配的分词,基于理解的分词和基于统计的分词。Lucene的中文分词使用机械分词算法(最大前向匹配方法)。机械分词算法遇到带有模糊粒子的短语时,分词效率不高,因为它没有语义分析,只是简单地划分词汇。了提高分词的准确性,使用神经网络分割代替Lucene的机械分割,Lucene能够学习和适应。
  练可以正确地分割具有模糊粒子的句子,这使得分词比机械分割更好。(2)Lucene中文词分析中JE组件的BP神经网络实现的汉语词语的分割。析1.5.1 MMAnalyzer采用中文分词算法,具有正的最大对应关系,可以加载自己的词库。词准确率达到95%。用分词算法形成BP神经网络分割算法。MMAnalyzer类被增强以生成输入样本和用于分词的预期值的样本。程序定义了SuperMMAnalyzer类,它继承自MMAnalyzer并重写MMAnalyzer方法tokenStream(String fieldName,Reader reader)。返回一个SuperMMFilter过滤器。有最终令牌trainAndNext()抛出IOException {Token t = input.next(); if(t == null){return null;} else {String temp = t.termText0; System.Out.print(“”+ temp); if(count + temp.1ength()> 10){writeZeros((10-count)* 1 6,output); writeZeros(10-count,desired);计数= 0;(!计数= 0)} {如果Desired.print( “1”);}其他{Desired.print( “0”);}对于(INT I = 1; idesired.print( “0” );}计数+ = temp.1ength();温度= FileIO.getBytesBinary(温度,BPENCODE, “;”);如果(数== 10){临时= temp.substring(0,temp.1ength() - 1 ); output.println(温度);désiré.println();计数= 0;}其他{output.print(温度);désirée.print( “;”);}返回吨;}}的next()方法SuperMMFilter播放下分裂。词的分割,这是学习模式,调用trainAndNextO方法,该方法产生在输出流中原始条目,并提取正确的单词样品。

宁波seo:JAVA技术和人工智能在搜索引擎中的应用_no.42

  所希望的输出流的方法返回在临时串的Unicode格式的二进制编码字符的序列,每个字符被分为“”测试点和结果实施例1:这首诗是太钝它是。为:这首歌/诗歌/太/简单/无味/例2:它的下降NDU /下例3.他跑起来像一个切风:他/突发/风/有点像/陆/赛车/例4:物理难摆在:物理学/学习/ C非常困难。5:我学会了如何制作肉丸。为:I / Learn / / / package / dumplings。统通过转换过程将这些样本转换为神经网络的输入元素,然后是样本。练:表1列出了上述五个学习示例的网络输出值3000次(保留3位有效数字)。以看出,分割处的输出值接近1,非分割处的输出值接近零。实上,随着学习次数的增加,正确分割点的数量将继续增加,分词的准确性将继续增加,节点的输出值与目标值逐渐下降。MMAnalyzer的上述五个分词的结果如下:例1:诗/太平/轻/无味。
  2:从/向上/向下。3:一阵风/相同/潮流。4:物理/起床/艰难。施例5:学习/准备的饺子。MMAnalyzer删除了空字(“this”,“has”,“he”,“like”等)。MMAnalyzer是最大的分词,扫描字符串的方向是从左到右,所以在例1中。匹配对应“太平”时,它被分割;在示例4中,“物理”被配对,因为“物理”满足最大分割的条件,并且“物理”和“物理”具有相同的效率。

宁波seo:JAVA技术和人工智能在搜索引擎中的应用_no.41

  这个词的条件下,最大长度的划分是可取的,例如2也是如此。论实验表明,BP神经网络的学习和适应性具有明显的优势。告原始MMAnalyzer在分割面临模糊分词的过程中。
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波谷歌seo  宁波seo哪家好  宁波谷歌优化  宁波网站排名优化  宁波seo网站优化