浅谈搜索引擎的体系结构与索引技术

发布时间：2018-12-07 16:06:59

　　摘要:跟着Internet迅猛发展，查找引擎已经成为人们进行信息获取必不可少的东西。本文介绍了查找引擎的分类，探讨了查找引擎的作业原理和体系结构，终究对其索引技能进行了研究。
　　关键词:查找引擎;体系结构;作业原理
　　1查找引擎的分类
　　1.1目录式查找引擎
　　目录式查找引擎(也称分类式查找引擎)首要经过人工发现信息，由编辑人员根据信息资源的内容按必定的主题进行分类安排，并形成信息摘要，将信息置于事前断定的分类框架中，安排成一层一层的分类目录，目录下面有更详细的子目录。信息的类别也由大到小、由粗到细，整个查找引擎形成了一个层次型的类别目录。用户能够逐层阅读，选择不同的主题对网络信息进行过滤，所选择的主题类别越小，信息的相关性就越高，用户就越有或许找到自己所需求的信息。这类查找引擎的功能首要取决于对所获取网页的人工归类或主动分类算法的准确度怎么。其代表有:Yahoo，LookSmart，Open，Directory，GoGuide等。例如，中文雅虎(Yahoo)有14个一级目录，最深有6级子目录，其运用的是手艺录入办法得到Web页面摘要信息，而非全页面内容信息。其形成的详细办法是:首要维护人员对新Web站点进行阅读，然后对阅读内容进行内容提取，并形成摘要信息和关键字，终究将这些信息分类进行存储。因为Yahoo的遍及程度十分高，因而现在Yahoo体系的维护人员不再需求到Internet上去寻找新Web站点，而是由新Web站点的发布者主动经过页面提交本站点的有关信息，体系的维护人员只需求对这些提交的信息进行归类存储，然后对外发布揭露。
　　Yahoo给用户供给了两种查询办法:漫游查询和关键词主动查找。漫游查询即用户运用阅读器在Yahoo的Web页面上按主题目录进行逐层深化地查找所需求的内容信息。关键词主动查找办法是体系根据用户提交的查询关键词，主动对目录树结构进行查找查找，回来契合条件的成果集。目录式查找引擎的突出特点是具有比较好的信息质量，但因为采用手艺进行Web页面信息的获取和维护，所以存在以下不足:信息掩盖率低，信息实时更新不行及时，目录维护消耗的人力资源大;根据关键词而非全文进行查询，或许在查询时造成某些相关信息的遗漏;采用漫游查询办法的功率不高，而且因为目录查询树结构的不断增大，查询某一特定主题的代价和时刻开销会越来越大。
　　为了处理目录式查找引擎存在的问题，人们引入了人工智能技能，用机器人(也称之为Robot，Spider，Wanderer，Worm)替代手艺去发现、加工、收拾信息，这样就出现了机器人查找引擎。
　　1.2机器人查找引擎
　　为了处理目录式查找引擎存在的问题人们引入了人工智能技能用机器人替代手艺去发现加工收拾信息这样就出现了机器人查找引擎，机器人查找引擎不需求人工收集信息而是由一个被称作"机器人"的计算机程序在网络上不停地匍匐和查找，依据必定的网络协议在Internet中主动获取网页信息并经过对网页内容和特征的分析采用必定的策略安排信息并树立自己的索引数据库为用户供给查询务。HotBot，InfoSeek，Google，Excite、天网等就是这类检索体系的典型代表。
　　1.3元查找引擎
　　因为单个查找引擎的掩盖范围往往不会太广，为了找到自己所需求的信息，用户常常需求运用多个查找引擎，以期望找到更多、更全、更准确的信息。但因为不同的查找引擎在其查询语法以及接口界面上往往不同，需求用户重新学习和适应不同的检索办法，这给用户运用多个查找引擎带来了极大的不便。为了处理这个问题，研究人员开发了元查找引擎。元查找引擎统一了不同查找引擎的查询接口，由统一的元查找引擎接口对用户提交的查询恳求进行处理，别离将其转换为契合底层查找引擎查询语法要求的子查询，同时向多个查找引擎提交查询的成果，由底层查找引擎在各自的索引数据库中进行查询。在各个查找引擎回来检索成果后，元查找引擎将子查询成果进行汇总、去重、重新排序等处理，终究向用户回来终究的检索成果。元查找引擎体系一般都没有自己的索引数据库，而是以一个署理的人物，宁波seo运用其它查找引擎的数据库来进行效劳。在层次上，元查找引擎要比机器人查找引擎和目录式查找引擎要高。元查找引擎体系的底层查找引擎可所以机器人查找引擎，也可所以目录式查找引擎。元查找引擎的长处是回来成果的信息量更大、更全，其查全率较高，处理了单个查找引擎掩盖范围相对狭隘的限制，缺陷是不能够充分运用基层查找引擎的排序功能，用户需求做更多的筛选。这类查找引擎的代表是MetaCrawler，SawyScarch，InfoMarket等。
　　2查找引擎的作业原理和体系结构
　　2.1查找引擎的作业原理
　　以机器人查找引擎为例。机器人查找引擎的作业进程分为三大步:一是在网上发现信息，如www网页、Newsgroup文章、FTP文件等等;二是把发现的信息收集到本地，经过信息分类和索引等加工处理把信息存储在本地数据库;三是供给效劳，即经过相应的算法和接口在本地数据库中查找到信息，并以必定的形式回来给用户。查找引攀首要由三个模块组成，别离为收集模块，预处理模块和效劳模块。查找引擎三段式作业流程如图1所示:
　　其间收集模块即为网页收集，由网络爬取器主动完结。预处理是对抓取到的原始网页数据进行索引处理，取得索引数据库。效劳指的就是检索体系，为用户供给查询效劳。
　　2.2查找引擎的体系结构
　　由图2可知，查找引擎首要由收集器，索引器，检索器，日志分析器组成。查找引擎先由收集器到网上收集网页原始数据，然后由索引器对原始数据进行处理，树立索引数据库，终究由检索体系向用户供给查询效劳。这其间还有日志分析器对进程进行记载，便于日后对用户行为进行分析，取得有用信息，有助于改进体系。
　　3查找引擎索引技能
　　信息索引就是从已发现的网页中提取一些特征，以便用户很容易地检索到所需的信息。即经过必定的办法发生一个索引项集合来作为一篇文档或查询恳求的内部表示。
　　索引的办法首要分为两种:一种根据关键词的索引;另一种是根据概念的索引。第一种是大多数查找引擎运用的办法，是从文档中提取重要的词作索引。在文档中顶部出现的词以及在整个文档中出现多次的词能够认为是比较重要的。第二种办法与前种不同之处在于试着了解语义，用一个词能代表许多意义相近的词，这样既节省了索引空间，也为检索时可回来有关主题的一切文档，乃至这些文档中的词与检索词并不准确匹配。Excite是当时网络中比较闻名的根据概念检索的查找引擎。本文中仅介绍根据关键词的全文索引，也就是对每篇文档全文提取关键词进行索引。树立索引需求进行两方面的技能处理:关键词的提取，树立倒排文档索引。
　　分词就是从每个页面文档中提取必定数量的关键词或者常识。为了提取关键词或常识，必须分割出单个词或语句。能够经过对英文文章或语句的语法和语义分析来提取出该文章的首要意思。但这些办法都是根据英文本身就有明显的词间分割这个事实上的，因而英文根本不存在分词问题。但关于汉语等无明显词间隔的语言来说，必需要先对原文进行分词，然后再提取它。
　　中文分词技能属于自然语言处理技能领域，关于一句话，人能够经过自己的常识来明白哪些是词，哪些不是词，但怎么让计算机也能理解，其处理进程就是分词算法。现有的分词算法可分为三大类:根据字符串匹配的分词办法、根据理解的分词办法和根据统计的分词办法。
　　参考文献
　　[1]刘琨，郑有才.查找引擎分析[J].微机发展，2005.
　　[2]化柏林.Google查找引擎技能实现探究[J].现代图书情报技能，2004.
　　[3]郭少友.元查找引擎的原理和设计[J].情报科学，2005.
　　本文转载自
　　宁波seowww.leseo.net
　　补充词条：宁波seo排名宁波谷歌优化宁波seo外包宁波网站seo 宁波seo网站优化

乐华观点

上一篇：搜索引擎社会责任缺失的现状、原因及对策研讨

下一篇：传统搜索引擎与智能搜索引擎比较剖析