本文探讨了中文新闻搜索引擎的新闻搜索功能构建技术,包括抓取,解析,重建索引,发布搜索,用户界面构建等过程。基于Lucene开源软件。词和Pagerank技术使得开发原型系统成为可能并获得良好的研究效果。[关键词] Lucene新闻搜索引擎Pagerank中文分词当前社会随着信息的快速发展,信息的获取已成为最常见,最重要的生产活动之一。

人们的生活中,互联网的发展改变了传统的信息传递渠道,许多信息可以在几秒钟内从世界末日传播到最后。
息的传播已经从传统的纸质新闻转移到电子新闻,新的信息门户,技术革命,往往导致生活方式的改变。受方法转换为主动搜索方法,甚至是未来的问答交互方法。息检索技术起着核心作用。前,虽然像谷歌这样的搜索引擎公司已经推出了信息搜索系统,但他们的技术尚未公布,用户无法对其进行改进以进一步定制系统。外,各种信息提供者通常必须提供使用户更容易导航的搜索引擎。取信息。此,搜索引擎技术在专业信息领域的研究具有重要意义和价值。文研究了中文信息搜索引擎的构建技术,并实现了一个基于Lucene Open Source Java [1]软件包的原型系统。统概述设计目标本系统考虑了信息检索的特点,如速度和权限,并介绍了网页分析技术从网页中提取信息,分割技术中文和PageRank系统评分技术。据您的需求进行更改。统结构创建Web搜索引擎,包括从Web文档中搜索的分析,分析,索引和发布,是一项复杂的任务。本研究中,新闻网页数据集选自权威门户网站,如新浪,搜狐,雅虎,中国新闻网等。统不仅可以执行一般搜索引擎提供的关键字搜索,还可以与一般搜索不同。引擎可以满足用户搜索新闻的特殊需求。系统首先采用WebZIP工具定期分析网页不同的新闻网站,将它们保存到本地磁盘,然后使用HTMLParser的分析,以网页提取内容,时间发布,URL链接和本地路径。过PageRank技术计算链接到网站的重要性;中文分词技术用于分割新闻内容,然后由Lucene解析器进行分析,并将结果提交给索引器进行索引。引的结果和PageRank的值被提供给研究人员,并且一旦用户向研究人员发出请求,就返回相应查询的结果。统模块和设计探索网页我们使用Webzip软件作为探索网页的工具。着新闻网页的探索,我们选择了几个权威网站(搜狐,雅虎,中国新闻网)作为我们实验数据的来源。体步骤如下:首先,在项目的地址栏中创建项目并输入要扫描的网站的根目录,例如www.news.sina.com。次,一系列的选择在项目属性由:HTML文件类型选择,选择各级linklever捕捉网页的任何级别,并选择当前网站只pagelocation分析网站的网页。们使用Webzip来捕获总计超过700兆字节的数据用于实验。HTML分析和中文单词的分割由于Lucence只支持纯文本索引,如txt,我们必须解析和过滤数据,包括HTML,以便执行索引。
们使用HTMLParser(3)开源来解析网页并提取网页。闻标题,发布时间,新闻内容和链接地址会过滤掉不必要的信息,例如标签。们使用ICTCLAS [4]中文分词工具对文本进行分段,并将其发送给Lucence索引器进行索引。

引首先使用Lucene分析器来抑制常用单词,大写字母,替换同义词等。后,
宁波seo您可以索引四个域,即“路径”,“内容”,“时间”和“标题”。项研究可以建立在这四个领域,根据不同的研究需求搜索不同的领域。如,如果您需要在特定时间检查文档,只需查找“时间”字段即可。建基于建立索引的搜索功能,我们必须建立一个API recherche.Le Lucence搜索机制是基于用户输入的关键字,利用其分析仪(我们使用ICTCLAS中文分词)分析关键词,然后分析结果。过搜索功能查找并返回一组咨询文件。这个系统中,我们提供了两个搜索功能:一个是Lucence搜索功能的改进版本,它结合了Lucence评分规则和页面排名,而另一个则按时间排序。搜索引擎研究的背景下,评分规则的确定是一个基本问题:如何确保用户对网页感兴趣或者通过上面重要的信息丰富的网页标记,什么这是一项艰苦的工作,也是研究的热点。成熟的方法包括矢量模型,贝叶斯网络等。Lucence使用矢量模型:基本思想是基于地图关键字在矢量空间中的文件,计算基于词频的文档和词语的反向频率的权重,然后计算请求向量q和文档dj之间的相似性。相似性用作查询。
件的分数。于Lucence仅考虑文档本身的内容,因此不考虑文档之间的关系以及文档之间的引用关系往往反映文档的重要性。如,经常引用的文档通常是一份好文档,尽管它可能是其文档的内容。高,但因为它是权威的,我们仍然需要提高它的分数。PageRank使用类似的链接来计算基于类似想法的网页的重要性。技术已应用于Google。此,我们引入了Pagerank来修改Lucence的评分机制,并在计算矢量模型时添加了Pagerank的值,然后将其标准化。们在提取重要新闻之前所做的工作主要是为用户提供新闻搜索功能。了搜索服务,我们还为用户提供网页上的导航平台,要知道现在是什么新闻最重要的是他们,甚至在将来开发个性化推荐系统。此,提取重要新闻是一项关键任务。我们的研究中,这个问题的解决方案如下:A。先提取每个new的标题,然后使用Lucene解析器来抑制空单词并对它们进行分段。B.对于每个标题,我们基于矢量模型比较其与其他标题的相似性以获得其得分。C.对于发布新闻的网站,每个网站根据其网站的重要性获得不同的权重。D.对于新闻的位置,我们认为它也会对得分产生影响,使用以下公式:timescore = 1-i /(2 * legnth)。是网页上的新闻位置,长度是当天新闻的总数。
E.最后,我们综合所有得分因子得到以下公式:得分= titrecore *时间*重量*(1 + 0.2 * title.length());根据分数显示当天的重要新闻,从大到小。验表明,重点新闻和一些更受关注的新闻都在前景中。PageRank计算PageRank是Google用于根据网页之间的关系对网页进行加权的算法。本思想是当网页A具有指向其他网页的n个链接时,网页A的等级值被分成n个副本,并且分别分配n个网页。
代计算方法用于重复计算网页集合中使用的网页,直到它收敛到固定点。们在其中使用该算法。统使用Tomcat作为Web服务器并使用Jsp / Servlet体系结构。面提供了两种排序方法:内容相似度和时间,并实现中文,pagerank和其他技术的分词。据信息搜索的特点,得到了相应的算法。佳搜索结果。来,需要对用户推荐,新闻识别等进行大量研究。
本文转载自
宁波seowww.leseo.net
补充词条:
宁波seo哪家好
宁波seo外包
宁波网络seo公司
宁波谷歌优化
宁波谷歌seo