搜索引擎的优化研究

发布时间：2018-12-21 12:36:12

　　[摘要]现在，网络查找已成为人们获取信息的重要手段。在信息海洋中，快速、有效、精确地检索到所需的信息显得越来越重要。本文经过对查找引擎的分类、作业原理以及存在问题的剖析，研究并提出了优化办法和思路，最后对新一代查找引擎作了展望。
　　[关键词]查找引擎信息检索智能查找
　　一、查找引擎的产生和分类
　　1993年之前，人们在互联网上查找信息时，通常是经过穷举式的查询，即从某一www效劳器的某个URL(一致资源管理器)动身，沿着一个超级链接去拜访其他网页。跟着www站点的日益增多，浏览者就陷入了一个无穷无尽的“迷宫”之中。这时，人们只要进行手工查找，然而既费时又费力，效率低下。为此，人们开发了比如网络蜘蛛、机器人等网络检索东西，用户只需输入关键词，它们在其数据库中查询与关键词相匹配的信息，按必定的规矩处理后经过网络供给给用户，这样的检索东西称为查找引擎。
　　现在，查找引擎主要有以下三类：
　　全文查找引擎，从互联网提取各个网站的信息（以网页文字为主），树立起数据库，并能检索与用户查询条件相匹配的记载，按必定的排列次序回来成果。目录索引，它是将网站分门别类地存放在相应的目录中，用户在查询信息时，可选择关键词查找，也可按分类目录逐层查找。元查找引擎承受用户查询请求后，一起在多个查找引擎上查找，并将成果回来给用户。
　　除以上三大类以外，还有集合式查找引擎、门户查找引擎、免费链接列表等一些非主流形式。
　　二、查找引擎的体系构成和作业原理
　　查找引擎由查找器、索引器、检索器和用户接口四部分构成。查找器在互联网中发现和搜集信息；索引器了解查找器所查找到的信息，抽取出索引项，以表示文档和生成文档库的索引表；检索器根据用户的查询在索引库中快速检索文档，进行相关度点评，对即将输出的成果排序，按用户的查询需求合理反应信息；用户接口接纳用户查询、显现查询成果、供给个性化查询项。
　　查找引擎的作业原理：首先抓取网页，查找引擎经过自己的网页抓取程序（spider）顺着超链接，接连地抓取网页，生成网页快照；然后对抓取到的网页进行处理，最最重要的是提取关键词，树立索引文件，还要去除重复网页、剖析超链接、计算网页的重要度等；最后是供给检索效劳，进行检索，从索引数据库中根据用户输入的关键词找到匹配的网页信息（网页标题、URL、网页的摘要以及其他信息）反应给用户。
　　三、现在查找引擎存在的问题与优化办法
　　传统的文本信息检索一般运用查全率和查准率来对检索作用进行量化点评，但是在海量的互联网信息检索中，高查全率带来的上万条射中网页对用户来讲实际是一个沉重的担负。形成这种成果的原因是查找引擎缺少知识处理能力和了解能力，对检索的信息仅仅采用机械的关键词进行匹配使得数据更新比较慢。现在的查找引擎一般都采纳每隔一段时刻就让信息采集机器人遍历网络，这样就不能确保信息的及时更新，一起也就不能确保数据自身的精确性。
　　针对上面的问题，能够采纳以下的优化思路：
　　1．改善查找引擎的网站结构。经过对网页相关性的剖析，了解自己网站的结构是否合理，然后对不合理的方面进行改善，使查找引擎更加契合群众的运用习气。
　　2．供给个性化的效劳。经过对用户的分类，将分类用户信息存放到用户信息库，该信息库也就成为了查找引擎知识库之一，经过用户拜访形式剖析，积累用户的查找个性化数据，掌握各类用户的拜访形式进行信息搜集、索引、过滤，并主动地将用户感兴趣的、对用户有用的信息提交给用户，然后供给个性化的效劳，运用户的查找更加精确，更契合用户的需求，而不仅仅是着重精确。
　　3．优化查找引擎知识库。经过对检索关键词的剖析，发现用户所常用的检索词，对查找引擎内部的知识库进行相应的改造，从根本上更为靠近用户的需求。
　　四、根据IP扫描的广泛式网页抓取机器人优化计划
　　根据IP扫描的广泛式网页抓取机器人是逐一地拜访梅一个存在的IP地址，经过对每个有效的IP地址进行扫描，看该IP地址上是否有Web效劳，若有，则将该网页都抓下来。
　　优点：1.这样做能够彻底解决信息孤岛问题。2.能够经过对IP的约束，约束机器人的查找规模。
　　缺陷:1.由于有许多IP上没有WWW效劳，这样扫描，会形成必定的体系资源糟蹋，速度也会慢一些。2.由于每找到一个网站，体系就会将该网站的所有网页都抓下来，这会形成在短时刻内对同一个网站的拜访量太大。
　　优化办法:1.能够树立一个排除IP地址库，将已知的或是扫描过程中发现的不存在Web效劳的IP地址存放在排除IP地址库中，下次扫描时，可不再扫描这些地址，然后节约体系资源。2.在机器人的运行程序中对机器的行为进行适当的协调，使得对同一个Web效劳器的拜访进程之间需等候必定的时刻，避免形成对网站的敲击。
　　五、查找引擎开展展望
　　1.查找引擎存放某种监控程序到各个网站上，和站点之间树立一种通讯关系，使查找引擎不用每次都要对每个站点每个网页都要进行比较、更新，经过监控程序主动将网站所做的更新提交给查找引擎。
　　2.现在的查找引擎在拜访网站时，需先拜访Robots.txt文件，各网站能够将网站的更新记载主动记载在一个数据库或文本中，记载的数据包括更新时刻和URL等，在Robots.txt里记载该文件的姓名，查找引擎可经过Robots.txt找到该文件，再对比本引擎中对该网站的更新日期，将该更新时刻今后被更新的所有网页搜集下来，这样可省去很多的时刻和运算，然后确保查找引擎的数据更新频率和速度。
　　3.体系对网页的信息量进行点评，信息量太少的页面或达不到信息搜集规范要求的，不再搜集入库，这样能够成倍地削减数据库的容量而又不影响查找引擎的质量。
　　除了上述展望外，跟着社会的日益信息化，人们还期望用自然语言同计算机沟通。
　　参考文献：
　　[1]欧朝晖.查找引擎优化与网站成功战略[M].北京：电子工业出版社，2008.
　　[2]吴泽欣.查找引擎优化入门与进阶[M].北京：人民邮电出版社，宁波seo优化2008.
　　本文转载自
　　宁波seo优化www.leseo.net
　　补充词条：宁波网站seo优化宁波网络seo 宁波网络seo公司宁波seo哪家好宁波谷歌seo

乐华观点

上一篇：搜索引擎技能与发展总述

下一篇：中国搜索引擎市场群雄逐鹿百度一家独大局势或