浅析搜索引擎的工作原理及检索技巧

发布时间：2018-12-20 23:18:17

　　[摘要]跟着网络信息时代的到来，信息检索处于一个个互联的网络体系之中，用户、信息检索技能、信息资源构成了信息检索3个基本要素。本文首要经过Internet查找引擎来介绍查找引擎的作业原理及信息检索技能。
　　[关键词]网络信息检索查找引擎
　　一、前言
　　跟着Internet的迅速发展，网上信息正以爆炸性的速度增长，其资源内容几乎涉及一切范畴，已经成为常识、信息的集合体，是人们获取信息的基本东西。在Internet网上进行阅读和检索，就比如进入了世界上最大的图书馆，而这个图书馆里的书刊、杂志、广告、新闻及各种形式的文献信息全都没有规则地排放着，没有一个中心目录将这些信息组织起来。正是由于Internet资源既丰厚又分散且处于无序状况，使得人们在网上查找自己所需的信息并非易事。这时为满足人众信息检索的需求，查找引擎便应运而生。查找引擎是指运用某些主动索引软件来发现、搜集网络上的信息，然后对搜集的网页进行标引，树立一个可供查询的大型数据库。
　　二、查找引擎的作业原理
　　查找引擎为了以最快的速度得到查找成果，它查找的一般是预先整理好的网页索引数据库。查找引擎，不能真实了解网页上的内容，它只能机械的匹配网页上的文字。真实意义上的查找引擎，一般指的是搜集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引，树立索引数据库的全文查找引擎。当用户查找某个关键词的时候，一切在页面内容中包括了该关键词的网页都将作为查找成果被搜出来。在经过杂乱的算法进行排序后，这些成果将按照与查找关键词的相关度凹凸，宁波网站优化依次排列。
　　查找引擎的作业原理能够看作三步：从互联网上抓取网页→树立索引数据库→在索引数据库中查找排序。
　　1.从互联网上抓取网页
　　使用能够从互联网上主动搜集网页的爬虫体系程序（或许称为机器人程序），主动访问互联网，沿着任何网页中的一切URL爬到其它网页，重复这一过程，并把爬过的一切网页搜集回来。
　　2.树立索引数据库
　　由剖析索引体系程序对搜集回来的网页进行剖析，提取相关网页信息(包括网页地点URL，编码类型，页面内容包括的一切关键词，关键词位置，生成时刻，大小，与其它网页的链接联系等)，依据一定的相关度算法进行大量杂乱计算，得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性)，然后用这些相关信息树立网页索引数据库。
　　3.在索引数据库中查找排序
　　当用户输入关键词查找后，由查找体系程序从网页索引数据库中找到符合该关键词的一切相关网页。由于一切相关网页针对于该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最终，由页面生成体系将查找成果的链接地址和页而内容摘要等内容组织起来返回给用户。
　　由于Web信息会频频更新，例如，新闻网页一般每天就要更新，有的网页更新周期或许是一周或几个月，这种频频更新，会导致数据库内信息的过期。因此，需求更新网页索引数据库，以反映出网页文字的更新情况，添加新的网页信息，去除死链接，并依据网页文字和链接联系的改变从头排序。这样，网页的详细文字改变情况就会反映到用户查询的成果中。
　　三、检索技巧
　　1.科学挑选关键词。由于查找引擎智能化程度的影响，它只能在现存的数据库中查找匹配的关键词，因此，这种匹配相对比较盲目，咱们在挑选关键词时，要注意两方面的问题，才有或许得到较好的查找作用。
　　2.运用双引号进行准确查询。如果查找的是一个词组或多个汉字，最好的办法就是将它们用双引号括起来，这样得到的成果最少、最准确。
　　3.运用加号(+)、减号(-)约束查找。许多查找引擎都支持在查找词前冠以加号(+)约束查找成果中必须包括的词汇，用减号(-)约束查找成果不能包括的词汇。
　　4.灵活运用运用通配符。许多查找引擎支持通配符号，如“*”代表一连串字符，“?”代表单个字符。
　　5.运用逻辑词辅助查找。比较大的查找引擎都支持运用逻辑词进行更杂乱的查找界定，常用的有：AND(和)、OR(或)、NOT(否)及NEAR(两个单词的靠近程度)，恰当运用它们能够使查找成果十分准确。别的，也能够运用括号将查找词别离组合，如(新闻OR足球)AND（米卢)NoT（“新闻”OR足球)
　　6.有针对性地挑选查找引擎。用不同的查找引擎进行查询得到的成果常常有很大的差异，这是由于它们的设计意图和发展走向存在着许多的不同，比如：Download．com是针对软件类的查找引擎，可搜寻大量的自由软件和共享软件。驱动之家首要是供给查找驱动程序及硬件厂商信息。
　　7.运用元词检索。大多数查找引擎都支持“元词”(metawords)功用，用户把元词放在关键词的前面，就能够通知查找引擎你想要检索的内容具有哪些清晰的特征。例如，你在查找引擎中输入“title：清华大学”，就能够查到网页标题中带有清华大学的网页。其他元词还包括：image，用于检索图片；link，用于检索链接到某个选定网站的页面；URL，用于检索地址中带有某个关键词的网页。
　　8.细化查询。许多查找引擎都供给了对查找成果进行细化与再查询的功用，如有的查找引擎在成果中有”查询类似网页”的按钮，还有一些则能够对得到的成果进行新一轮的查询。
　　9.尽或许将查找规模约束在特定的范畴里。比如在yahoo中文网站中，你要查找的是与电脑相关的常识，那么你没有必要让查找引擎在休闲与运动、健康与医药、艺术与人文等其他分类中查找。你能够进入“电脑与因特网”这一类，选中“检索此目录下的网站”。然后再开端查找。
　　四、结束语
　　要完成一个有用的查找，首先要确定要检索的主题，挑选适宜的检索东西、抽取适当的关键词。为避免或许出现查找成果的冗余性，要尽或许约束查询规模，正确结构检索式。同时要运用逻辑条件约束及模糊或准确查询的功用保证能真实检索到咱们所需的网络信息资源。
　　参考文献:
　　[1]符绍宏，雷菊霞．因特网信息资源检索与使用[M]．北京：清华大学出版社，2000.
　　[2]王启云．怎么使用查找引擎检索网络信息.2001(4)，214-218.
　　[3]刘毓华.网络信息资源检索初探.现代情.2003.
　　本文转载自
　　宁波网站优化www.leseo.net
　　补充词条：宁波seo哪家好宁波网络seo公司宁波网站seo 宁波网络seo 宁波网站优化推广

乐华观点

上一篇：搜索引擎Google与Bing的比较

下一篇：论搜索引擎竞价排名机制