在介绍搜索引擎的基本原理和框架的基础上,提出了一种实验方案,通过集成Larbin,Lucene和ICATLAS等各种开源工具,快速构建小型搜索引擎。验表明,该引擎可以有效地补充网页的收集,处理,索引和检索。
键词:搜索引擎;开源代码中的工具;信息搜索中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)05-10ppp-0c简介随着互联网的快速发展和广泛使用,网络是用户提供的丰富的资源,搜索引擎已成为互联网最重要的应用之一。们需要像谷歌和百度这样的大型搜索引擎,但是为特定领域创建垂直和小规模搜索引擎以获得更有针对性和准确的搜索结果也很有用。于它们的体积小,这种类型的搜索引擎需要较少的投资和简单快速的构建。们可以快速有效地构建一个小型搜索引擎,而无需使用开源在线工具进行“重新开始”进行集成和二次开发。介绍搜索引擎的基本原理和框架的基础上,本文提出了一个集成Larbin,Lucene和ICATLAS等几个开源工具的实验方案,以快速构建一个小型搜索引擎。系统可以有效地补充小规模网页的收集,处理,索引和检索。可以用作教学和研究的垂直或实验室搜索引擎。下部分分为三个部分:第一,它介绍了各种开源工具,可以在不同平台上由搜索引擎的不同部分选择,然后是实验模式的具体实现过程,然后是摘要工作开源工具介绍搜索引擎通常包括三个主要步骤:网页收集,页面分析和信息检索[5],它使用三种基本技术:收集器,分析器和换热器,以及方便用户查询。集器信息主要通过网页之间的链接关系收集。可以将网页集合设计为有向图,并继续沿着链接展开所需的页面以下载相应的网页[5]。于整个过程在互联网上看起来像蜘蛛,我们通常称这个网页收集器为“网络蜘蛛”或“网络机器人”。常,大型搜索引擎的搜索引擎针对互联网上的所有URL,而小型垂直搜索引擎通常只关注某些网站,因为它的大小有限,所以它的收集器相对简单并且当然不包括任何算法,分析效率等。求很高。LarbinLarbin是一个完整的网络搜索机器人,由法国Sebastien Ailleret为Linux / FreeBSD平台开发,目前版本为2.6.3。Larbin可以从互联网上免费下载,并受GPL的约束。个简单的机器人Larbin每天可以在标准PC上获得大约500万个网页[2]。用Larbin的方法将在第3节中详细介绍.Offline ExplorerOffline Explorer由Metaproducts for Windows启动,目前版本为4.9。是一个共享软件,你可以下载试用版。
了网页,您还可以捕获图像,音频,视频等。是一个Windows界面程序,易于安装。先使用“工具”菜单中的“选项”对话框设置连接数(最多可同时下载100个任务),超时,下载时间和其他设置。后按向导在向导对话框中定义项目。

必须主要确定项目URL(初始地址),名称,级别限制(集合的深度),文件类型(您可以设置捕获所有文件,您也可以忽略视频文件,音频)。图像和其他类型),下载文件的位置(设置爬虫可以探索其他位置或只是加载初始URL /服务器,如在垂直搜索引擎只需要探索,网站的内容必须在这里定义Web),你可以开始收集。外,可以在“属性”中设置文件类型过滤,URL过滤和内容过滤等详细设置。
析器主要使用两种类型的工作:中文类型转换和分词。型转换主要提取捕获文件的内容并成为文本文件,这有利于实现以下搜索功能。
件类型主要包括HTML,PDF,Word,Excel等。换文件类型后,还需要提取代表内容的功能以支持将来的请求。此,作为分析器的另一个基本任务是从网页的内容部分提取关键字。于中文,没有英文类型的分词标记,因此必须首先对文本进行分段,以便在后续作业中编入索引。Html我们的工作主要是删除Html页面的代码部分。

可以通过简单的程序或标准软件完成。见的软件是HTML2TXT。HTML2TXT是适用于Windows平台的免费软件。持批量文件转换,方便大规模处理捕获的文件。不仅允许您将HTML文件转换为TXT格式,还可以格式化文本以供进一步处理。PDF主要将PDF文件转换为TXT文件。见的软件是PDF2TXT,Solid Converter,它们都在Windows平台下工作。PDF2TXT不仅支持将PDF文档转换为英文,还保留PDF布局信息并支持所有PDF文档格式。软件功能强大且易于使用。点是对中国人的支持不好。Solid Converter支持转换为中文,允许您批量转换PDF文件为TXT格式。OfficeOffice中的常见文件类型是DOC和XLS。Linux系统中,WvWare可以使用命令wvText --charset = gb2312 1.doc 1.txt将DOC转换为TXT。Windows上,您可以使用“DOC Batch to TXT”软件。Total Excel Converter 1.3在Windows平台上运行。不仅支持批量Excel文件转换为文本文件,还可以从命令行或其他程序转换。文单词分词目前搜索引擎中常用的分词软件包括两种类型的ICATLAS和一种大规模的智能分词。ICATLAS是由中国科学院计算机科学研究所开发的中文词汇分析系统,包含中文分词,部分语音标记,命名实体识别等功能。新单词的识别,以及用户的词典。
前版本为3.0,分词速度为996 KB / s,分词精度为98.45%。
ICTCLAS是用C / C ++编写的,支持Linux,FreeBSD和Windows操作系统,提供API接口,支持C / C ++ / C#/ Delphi / Java等语言。典开发,可以在程序中调用简单的配置。以与Lucene集成。Massive Smart Word Segmentation是由Mass Information Technology Co.,Ltd。发的软件包。于二次开发,包括模糊识别,未记录的单词识别,关键字标记,用户定义的字典和语音部分标记。割的准确率为99.7%,速度达到2000万字/分钟。平台支持,多代码系统,多线程。能智能分词在VC ++ 6.0下开发,支持Windows。ICATLAS类似,它还提供了C / C ++开发接口。
索器检索器的工作分为两部分:索引表和搜索。置索引表的过程如下:在扫描网页并将主体信息划分为索引之后,获得以网页编号为主键的前索引表。后,重新排列该表并合并对应于相同索引字的数据以获得具有关键字作为主键的索引表,也称为反向文件索引[5]。后可以恢复索引。

用的索引器是Lucene和FirteX。LuceneLucene是一个高效,易于使用,基于Java的全文索引引擎工具包,由全球索引/检索领域的领先专家Doug Cutting开发,具有可扩展的IR库。
前的版本是2.3.0。可以轻松地与各种应用程序集成,以进行索引/全文恢复。要包括结果排序,查询表达式处理,子域搜索,字段排序,多索引搜索和结果融合等功能[1]。Lucene的使用将在第3节中详细介绍.Clucene还是全文搜索引擎的C ++版本,完全移植到Lucene。FirteXFirteX是由中国科学院计算技术研究所和C ++开发的功能强大的全文索引和恢复平台[3]。前版本是1.0.3。要特点是快速文本索引构建,动态文档集索引维护,句子查询,Top-k查询的快速处理,各种恢复模型,产品搜索,工作站搜索,网站搜索,新闻搜索和大型搜索引擎。其他领域的应用。CompilX首先使用FirteX进行编译和安装,FirteX在Windows平台上使用Microsoft Visual Studio .NET 7.1进行编译和安装。Linux平台下的流程如下:下载源代码,配置Makefile文件,编译FirteX,最后安装FirteX。立索引时,使用Fxist工具的“索引”选项卡在用户设置中定义文档集类型,索引数据路径,存储位置和索引等,在系统设置中,设置索引内存的大小,索引箱的最大数量,每个文档的索引词的最大数量等。成设置后,您可以保存设置文件以供日后使用。后,单击“开始索引”按钮以启动索引线程。用Fxist工具进行搜索,首先打开索引,选择相应的解析器,设置返回的文档数,输入查询表达式,然后单击“查询”。面的索引和恢复工作也可以通过功能界面实现,如扫描(扫描文档集,反向索引创建),搜索(通过表达式请求),doc(获取结果)请求)等系统实现系统的一般结构如图1所示。1系统结构图我们使用第2节中描述的软件在Linux平台下创建垂直图书搜索引擎。藏家使用Larbin收集当当网,卓越和互动出版等定向网站。larbin.conf文件:爪牙是在主要定义删除#noExternalLinks为是有效的,waitDuration设置为30,depthInSite设置为3,startUrl到http://www.dangdang.com(或joyo.com等); file options.h:有效#define SIMPLE_SAVE,#define NO_DUP; types.h中的文件:更改备份目录:#定义SaveDir可以“当当网/” gmile编译和运行./larbin开始,开始探索网页,如果放弃了,运行Ctrl + C键,重启./larbin -scratch实现,可以通过http:// server_run_larbin:8081 /查看运行状态。析器主要执行网页转换和中文分词。一个编写JAVA程序本身并使用正则表达式。者使用ICATLAS,调用函数是ICATLAS_Paragraph(Text,SegText)。引器和提取器使用Lucene [4]。要分为两部分:构建索引服务器和搜索。建索引服务器的基本步骤如下:1。取文本; 2.构建文档。Document是一个集合类的字段,可以被视为虚拟文档,并通过add方法添加每个字段的内容(文本,标题,关键字,路径等)3。加指数。IndexWriter用于创建和更新索引数据类。
必须首先初始化,设置索引存储路径,解析器,创建索引,然后通过重复运行addDocument方法将文档添加到索引。用Optimize方法来索引。化,最后需要执行close方法来关闭索引。索的基本步骤如下:1。

始化。IndexSearcher是一个提取类,首先初始化它,并设置存储索引的路径。2.创建查询,确定检索表达式,Query包括TermQuery(按术语搜索),BooleanQuery(“和/或”搜索,PhraseQuery(多关键字搜索))子类。3.检索并返回结果。用IndexSearcher Search方法进行查询,结果存储在Hits类对象中,length方法返回结果数,doc(n)返回第n个文档,并可用于浏览所有查询结果。户界面由PHP实现:首先,获取用户查询公式,用户通过表单输入的指令发送给收集器,然后从收集器获取结果,文件标题,路径等显示给用户。束语基于小规模搜索引擎,本文选择构建基于Larbin + Lucene的垂直搜索引擎。验表明,构建的系统可以补充上述图书网站的检索并返回正确的结果,从根本上实现预期的功能,提高收集,分析,报告和处理的效率。引和检索,
宁波网站优化可以满足垂直搜索引擎各方面的要求。索引擎的基本结构也可以在实验室中以真实,完整的方式呈现给学生,这是进一步研究和研究搜索引擎的良好基础。

本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波seo哪家好
宁波网站排名优化
宁波seo外包
宁波seo推广公司
宁波网站seo优化