垂直搜索是给定行业的专业搜索引擎,搜索引擎的细分和扩展,网页库中特定类型信息的集成,域提取和数据经过处理。
单将返回给用户。文使用Heritrix和Lucene来探索和索引学校新闻网站的页面,以建立相应的新闻垂直搜索引擎系统。键词:垂直搜索; Heritrix的; Lucene的;汉语词的分词;搜索引擎中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)29-0350-03研究垂直搜索引擎基于Heritrix的和LuceneZHENG汝BIN1,SA为Li,谢Ting2( 1.大学计算机科学与工程,集美大学,厦门361021,中国的;集美大学2.大学诚毅,厦门361021,中国)摘要:垂直搜索引擎集中在一些特殊的领域。是搜索引擎的扩展和细分,能够在网页集合中集成和提取用户喜爱的信息,并为用户呈现最易读的搜索结果。文档创建了一个采用Heritrix和Lucene的垂直搜索引擎系统。键词:垂直搜索引擎; Heritrix的; Lucene的;汉语词的分词;搜索引擎简介随着互联网的快速发展,随着互联网上的信息呈指数增长,网站数量急剧增加。何确保用户在Internet上快速找到所需信息已成为研究的热点。这种背景下,雅虎,谷歌和百度等公司逐渐加入了搜索引擎市场。统的搜索引擎是一种通用的搜索引擎,呈现给用户的搜索结果是网页信息的非结构化摘要。结构化网页信息的数量很重要,但查询不准确且不充分。直搜索引擎(垂直搜索引擎)是针对特定用户的专业,准确和详细的搜索和演示。呈现给用户的搜索结果范围被过滤,限制并具有特定颜色。一般搜索引擎的搜索结果相比,垂直搜索引擎可以为用户提供更高的准确性和结构。果标准垂直搜索引擎包括为kooxoo.com寻找火车票并为soufun.com寻找住所。

文介绍如何使用Heritrix和Lucene创建一个新的垂直搜索引擎系统,以便用户可以充分享受垂直搜索引擎技术带来的好处。直搜索引擎的基本技术垂直搜索引擎系统主要由以下技术组成:Web爬虫,Web信息检索,中文分词和索引。Web爬网程序通过指定的种子(种子)沿着页面中包含的链接不断抓取网页。过分析捕获的网页的内容,可以确定要提取的结构化信息,并将网页的内容分析为格式化信息。后,这种格式化的信息通过中文单词的分割来索引。索时,您可以通过在索引中执行快速搜索来搜索关键字的结构化信息。
参见图1. Web机器人Web机器人,也称为Web蜘蛛或Web机器人,是自动浏览网页的程序,是搜索引擎的重要组成部分。Web爬网程序使用一个或多个初始URL作为入门,以持续扫描页面上新符合条件的URL指向的页面。

满足某些停止条件时,网络爬虫结束。受欢迎的网络机器人是Larbin和Heritrix。Larbin由年轻的法国人Sebastien Ailleret独立开发。个简单的机器人Larbin每天可以抓取500万个网页。Heritrix机器人用于我们的系统。是由Java开发的开源Web机器人项目。好的事情是它的可扩展性,开发人员可以扩展其各种组件来实现自己的探索逻辑。页提取Web机器人分析的内容是非结构化网页。创建垂直搜索引擎,必须在特定条件下提取网页的非结构化数据以形成结构化数据。是垂直搜索引擎和通用搜索引擎之间的巨大差异。统将正则表达式和HTMLParser组合在一起,将网页解析为格式化文本。用网页文件由元素组成。多数项目以开始标记开头,结束标记结束,开始标记和结束标记之间的部分是项目的主体。个元素都有一个名称和可选属性,这些属性在开始标记中指示。于开始和结束标记,分隔它们的部分是HTML元素的主体。
然正则表达式是功能强大的文本分析工具,但结合上述Web文件的特性,我们可以使用正则表达式来提取HTML文本。是使用正则表达式来提取文本需要很多细节,而且用途不是很多。此,我们使用HTMLParser来提取网页信息。HTMLParser是一个开源Java库,提供接口以支持HTML文本的解析和线性解析。析文本的最佳方法是将正则表达式与HTMLParser相结合。
据用户的需要,我们使用正则表达式和HTMLParser从网页中提取所需信息,并创建结构化文本以供进一步处理。文单词和全文索引的分段对于结构化文本,可以将Lucene编入索引以进行快速搜索。Lucene是一个用Java编写的全文索引引擎工具包,可以轻松地与各种应用程序集成,以实现应用程序的全文索引/恢复。使用反向技术,这是一种面向单词的索引机制,通常由两部分组成:单词(关键字)和出现。于索引中的每个单词,列表(位置表)用于记录所有文档中单词的位置。索索引时,您可以按关键字快速查找所有文章中关键字的位置。向技术的关键之一是确定关键词,但Lucene本人并不能很好地支持中文词的分词,因此Lucene不能很好地处理中文的网页。同参与包括ICTCLAS参与者和中国科学院的JE参与者。系统中,我们使用分词JE来执行中文单词的分词。直新闻搜索系统设计新闻学校搜索引擎系统是一个垂直搜索系统,用于学校信息站点的信息。系统主要由用于浏览网页的模块,用于提取和构造信息的模块,用于索引单词分割的模块,存储模块组成。景和信息显示模块。见图2. Web爬网模块Web爬网模块负责分析学校信息网站的合格新闻页面,这部分主要由Heritrix完成。此模块中,我们必须将页面检索的起始URL作为Heritrix种子。子的选择必须使Heritrix不会错过新闻中心的所有新闻。过分析,我们使用新闻中心页面的URL链接到http://chengyi.jmu.edu.cn/news/index.asp?typeid=21。是使用此URL作为种子种子仍然可以保存许多与新闻无关的页面。
此,我们需要扩展Heritrix并添加网址选择策略以过滤不需要的网址。这里,我们可以扩展Heritrix中的FrontierSchedular以满足要求。分代码是:if(url.indexOf(“chengyi.jmu.edu.cn/news /”))! = -1 || url.indexOf(“robots.txt”)! = -1 || url.indexOf(“Dns:”)! = -1)getController()。GetFrontier()。表(caUri);在代码中,chengyi.jmu.edu.cn / news /是信息页面URL的前缀,因此必须保留它。
过限制,
宁波seo可以保存新闻详细页面。后,捕获符合标准的相关新闻页面。息提取和结构化模块该模块是区分垂直搜索和一般搜索的重要模块。主要负责将所需数据提取和构建到捕获的网页中。析后,新闻页面必须包含几个字段:原始网页的URL,新闻标题,新闻发布日期,新闻来源,新闻的作者和信息的主体。们设计的是从的HTMLParser提取基类继承并实现了结合extraction.En正则表达式的HTMLParser,该网页的新闻信息的方法的新闻信息提取ExtractorNews类最后根据上面分析的几个领域提取。存储在不同的文本文件中以供进一步处理。词索引模块该模块负责将单词分割为中文并索引生成的文本文件。部分主要使用JE字分割作为构成词组件,Lucene作为全文索引模块。节首先添加一些特殊词典。已经有了一个标准词汇表,但由于名称和一些专有名称的特殊性,标准词典可能不包含一些特殊名称。据学院的具体情况,我们可以创建一个词汇,其中包含学校的名称和学校员工的姓名,这可以使参与更加精确和准确。索引方面,由于我们可能需要搜索搜索的不同部分,例如搜索作者的姓名和正文内容,我们应该为不同的部分使用不同的解析器,以便获得更好的结果。果对于作者的名称,Lucene StandardAnalyzer分析器直接使用,正文内容必须是JE解析器(MMAnalyzer)。后,在Lucene中使用PerFieldAnlyzerWrapper将不同的解析器组合到文档的多个部分。台存储模块该模块负责将格式化的新闻文本文件存储在后台的SQL服务器数据库中,并调用分词索引模块来存储信息。闻内容各部分的索引。息显示模块主要使用Tomcat创建Web平台,为用户提供搜索界面,同时使用用户提交的关键字调用搜索服务。索引文章的用户,作者,标题和内容。返回与用户对应的结果。索界面如图3所示。论垂直搜索引擎是城市未来搜索引擎技术发展的重要方向。以预见,这将为用户带来更准确和有效的信息。文通过Heritrix和Lucene为学校信息站点创建了一个垂直搜索引擎,为用户提供了更好的搜索体验。
本文转载自
宁波seowww.leseo.net
补充词条:
宁波谷歌seo
宁波网站seo优化
宁波网站排名优化
宁波网络seo公司
宁波网络seo