宁波seo:在基于Heritrix和Lucene的垂直搜索引擎上搜

发布时间：2019-03-23 00:18:48

　　垂直搜索是给定行业的专业搜索引擎，搜索引擎的细分和扩展，网页库中特定类型信息的集成，域提取和数据经过处理。
　　单将返回给用户。文使用Heritrix和Lucene来探索和索引学校新闻网站的页面，以建立相应的新闻垂直搜索引擎系统。键词：垂直搜索; Heritrix的; Lucene的;汉语词的分词;搜索引擎中图分类号：TP311文献标识码：A文章编号：1009-3044（2008）29-0350-03研究垂直搜索引擎基于Heritrix的和LuceneZHENG汝BIN1，SA为Li，谢Ting2（ 1.大学计算机科学与工程，集美大学，厦门361021，中国的;集美大学2.大学诚毅，厦门361021，中国）摘要：垂直搜索引擎集中在一些特殊的领域。是搜索引擎的扩展和细分，能够在网页集合中集成和提取用户喜爱的信息，并为用户呈现最易读的搜索结果。文档创建了一个采用Heritrix和Lucene的垂直搜索引擎系统。键词：垂直搜索引擎; Heritrix的; Lucene的;汉语词的分词;搜索引擎简介随着互联网的快速发展，随着互联网上的信息呈指数增长，网站数量急剧增加。何确保用户在Internet上快速找到所需信息已成为研究的热点。这种背景下，雅虎，谷歌和百度等公司逐渐加入了搜索引擎市场。统的搜索引擎是一种通用的搜索引擎，呈现给用户的搜索结果是网页信息的非结构化摘要。结构化网页信息的数量很重要，但查询不准确且不充分。直搜索引擎（垂直搜索引擎）是针对特定用户的专业，准确和详细的搜索和演示。呈现给用户的搜索结果范围被过滤，限制并具有特定颜色。一般搜索引擎的搜索结果相比，垂直搜索引擎可以为用户提供更高的准确性和结构。果标准垂直搜索引擎包括为kooxoo.com寻找火车票并为soufun.com寻找住所。

宁波seo:在基于Heritrix和Lucene的垂直搜索引擎上搜索_no.57

　　文介绍如何使用Heritrix和Lucene创建一个新的垂直搜索引擎系统，以便用户可以充分享受垂直搜索引擎技术带来的好处。直搜索引擎的基本技术垂直搜索引擎系统主要由以下技术组成：Web爬虫，Web信息检索，中文分词和索引。Web爬网程序通过指定的种子（种子）沿着页面中包含的链接不断抓取网页。过分析捕获的网页的内容，可以确定要提取的结构化信息，并将网页的内容分析为格式化信息。后，这种格式化的信息通过中文单词的分割来索引。索时，您可以通过在索引中执行快速搜索来搜索关键字的结构化信息。
　　参见图1. Web机器人Web机器人，也称为Web蜘蛛或Web机器人，是自动浏览网页的程序，是搜索引擎的重要组成部分。Web爬网程序使用一个或多个初始URL作为入门，以持续扫描页面上新符合条件的URL指向的页面。

宁波seo:在基于Heritrix和Lucene的垂直搜索引擎上搜索_no.82

　　满足某些停止条件时，网络爬虫结束。受欢迎的网络机器人是Larbin和Heritrix。Larbin由年轻的法国人Sebastien Ailleret独立开发。个简单的机器人Larbin每天可以抓取500万个网页。Heritrix机器人用于我们的系统。是由Java开发的开源Web机器人项目。好的事情是它的可扩展性，开发人员可以扩展其各种组件来实现自己的探索逻辑。页提取Web机器人分析的内容是非结构化网页。创建垂直搜索引擎，必须在特定条件下提取网页的非结构化数据以形成结构化数据。是垂直搜索引擎和通用搜索引擎之间的巨大差异。统将正则表达式和HTMLParser组合在一起，将网页解析为格式化文本。用网页文件由元素组成。多数项目以开始标记开头，结束标记结束，开始标记和结束标记之间的部分是项目的主体。个元素都有一个名称和可选属性，这些属性在开始标记中指示。于开始和结束标记，分隔它们的部分是HTML元素的主体。
　　然正则表达式是功能强大的文本分析工具，但结合上述Web文件的特性，我们可以使用正则表达式来提取HTML文本。是使用正则表达式来提取文本需要很多细节，而且用途不是很多。此，我们使用HTMLParser来提取网页信息。HTMLParser是一个开源Java库，提供接口以支持HTML文本的解析和线性解析。析文本的最佳方法是将正则表达式与HTMLParser相结合。
　　据用户的需要，我们使用正则表达式和HTMLParser从网页中提取所需信息，并创建结构化文本以供进一步处理。文单词和全文索引的分段对于结构化文本，可以将Lucene编入索引以进行快速搜索。Lucene是一个用Java编写的全文索引引擎工具包，可以轻松地与各种应用程序集成，以实现应用程序的全文索引/恢复。使用反向技术，这是一种面向单词的索引机制，通常由两部分组成：单词（关键字）和出现。于索引中的每个单词，列表（位置表）用于记录所有文档中单词的位置。索索引时，您可以按关键字快速查找所有文章中关键字的位置。向技术的关键之一是确定关键词，但Lucene本人并不能很好地支持中文词的分词，因此Lucene不能很好地处理中文的网页。同参与包括ICTCLAS参与者和中国科学院的JE参与者。系统中，我们使用分词JE来执行中文单词的分词。直新闻搜索系统设计新闻学校搜索引擎系统是一个垂直搜索系统，用于学校信息站点的信息。系统主要由用于浏览网页的模块，用于提取和构造信息的模块，用于索引单词分割的模块，存储模块组成。景和信息显示模块。见图2. Web爬网模块Web爬网模块负责分析学校信息网站的合格新闻页面，这部分主要由Heritrix完成。此模块中，我们必须将页面检索的起始URL作为Heritrix种子。子的选择必须使Heritrix不会错过新闻中心的所有新闻。过分析，我们使用新闻中心页面的URL链接到http://chengyi.jmu.edu.cn/news/index.asp?typeid=21。是使用此URL作为种子种子仍然可以保存许多与新闻无关的页面。
　　此，我们需要扩展Heritrix并添加网址选择策略以过滤不需要的网址。这里，我们可以扩展Heritrix中的FrontierSchedular以满足要求。分代码是：if（url.indexOf（“chengyi.jmu.edu.cn/news /”））！ = -1 || url.indexOf（“robots.txt”）！ = -1 || url.indexOf（“Dns：”）！ = -1）getController（）。GetFrontier（）。表（caUri）;在代码中，chengyi.jmu.edu.cn / news /是信息页面URL的前缀，因此必须保留它。
　　过限制，宁波seo可以保存新闻详细页面。后，捕获符合标准的相关新闻页面。息提取和结构化模块该模块是区分垂直搜索和一般搜索的重要模块。主要负责将所需数据提取和构建到捕获的网页中。析后，新闻页面必须包含几个字段：原始网页的URL，新闻标题，新闻发布日期，新闻来源，新闻的作者和信息的主体。们设计的是从的HTMLParser提取基类继承并实现了结合extraction.En正则表达式的HTMLParser，该网页的新闻信息的方法的新闻信息提取ExtractorNews类最后根据上面分析的几个领域提取。存储在不同的文本文件中以供进一步处理。词索引模块该模块负责将单词分割为中文并索引生成的文本文件。部分主要使用JE字分割作为构成词组件，Lucene作为全文索引模块。节首先添加一些特殊词典。已经有了一个标准词汇表，但由于名称和一些专有名称的特殊性，标准词典可能不包含一些特殊名称。据学院的具体情况，我们可以创建一个词汇，其中包含学校的名称和学校员工的姓名，这可以使参与更加精确和准确。索引方面，由于我们可能需要搜索搜索的不同部分，例如搜索作者的姓名和正文内容，我们应该为不同的部分使用不同的解析器，以便获得更好的结果。果对于作者的名称，Lucene StandardAnalyzer分析器直接使用，正文内容必须是JE解析器（MMAnalyzer）。后，在Lucene中使用PerFieldAnlyzerWrapper将不同的解析器组合到文档的多个部分。台存储模块该模块负责将格式化的新闻文本文件存储在后台的SQL服务器数据库中，并调用分词索引模块来存储信息。闻内容各部分的索引。息显示模块主要使用Tomcat创建Web平台，为用户提供搜索界面，同时使用用户提交的关键字调用搜索服务。索引文章的用户，作者，标题和内容。返回与用户对应的结果。索界面如图3所示。论垂直搜索引擎是城市未来搜索引擎技术发展的重要方向。以预见，这将为用户带来更准确和有效的信息。文通过Heritrix和Lucene为学校信息站点创建了一个垂直搜索引擎，为用户提供了更好的搜索体验。
　　本文转载自
　　宁波seowww.leseo.net
　　补充词条：宁波谷歌seo 宁波网站seo优化宁波网站排名优化宁波网络seo公司宁波网络seo

乐华观点

上一篇：宁波seo:语义Web的关键语义搜索引擎技术研究

下一篇：宁波seo优化:音频搜索引擎Google LiSten的新方向