宁波seo优化专栏

笔直搜索引擎系统研究与完成

发布时间:2018-12-02 23:49:50
  摘 要:查找引擎是一种互联网数据信息检索东西,它能够从复杂无序的信息中检索出用户需求的有用信息,将凌乱的信息变得有序、明晰。但由于网络上有着许多信息,查找到的信息难免不行全面与精准,可能存在过多垃圾信息。为了很好地解决以上问题,一种新型的查找效劳模式——笔直查找引擎体系应运而生。该体系可为用户供给最专业、及时的信息,并加强了查找成果的精准性和全面性。
  关键词:网络资源信息;笔直查找引擎;体系规划;体系完成
  中图分类号:TP319
  文献标识码:A 文章编号:1672-7800(2015)005-0080-02
  作者简介:徐婕(1975-),女,湖北武汉人,博士,湖北大学计算机与信息工程学院副教授,研讨方向为计算机网络、嵌入式体系。
  0 引言
  跟着互联网的开展,网络上的资源信息也呈爆破式添加,调查报告显现,我国网络上已有300多万个网站,网页总数将近200亿。查找引擎是互联网上一种检索数据信息最有用的东西,在网络资源不断开展的今日,它成为网民上网不行短少的东西。用户在网页上输入想要查找的信息关键字,查找引擎便会从凌乱无序的网络资源中敏捷有用地找出用户需求的信息,简单整理之后敏捷出现给用户,十分便利、有用。
  1 笔直查找引擎界说
  网络上的查找引擎一般分为两种,一种是通用式查找引擎,像一般用到的百度、谷歌等都归于这类。这类查找引擎会检索网络上的所有网站来寻找用户需求的有用信息,查找规模极广,触及各种职业;另一种是笔直式查找引擎,这类查找引擎能够看作通用查找引擎的延伸,其针对性很强且十分专业,主要针对某种需求、某个范畴或某类人群,为其供给最牢靠、精准的需求信息。笔直式查找引擎与通用式查找引擎不同,笔直式查找引擎具有浓重的职业色彩,对于查找到的信息能够进行深入全面的发掘,不会收录无用信息。专心、深入、精确是笔直查找引擎的3大特色[1]。
  2 笔直查找引擎优点
  跟着互联网上信息的飞速添加,通用查找引擎逐步暴露出其查找不行精准的缺陷,用户渴求更有功率、更便利的查找东西。笔直查找引擎能很好地解决用户的不同检索需求,它只注重用户检索需求的特定信息,选择性地进行信息收集并对其进行整理。该查找引擎所触及专业范畴较少,信息量不是很大,能够对信息进行及时更新,并能有用地防止一词多义的状况,不会让用户对词语产生误解。笔直查找引擎具有十分强的专业性与方针性,对于需求查找的方针内容有十分明确的定位,解决了通用查找引擎对方针信息检索不全面的问题。
  3 笔直查找引擎功能规划和完成
  3.1 主题词库相关技术规划和完成
  (1)规划主题种子库。种子库的完成运用了人工挑选办法,假如要制作“娱乐”这个主题,到娱乐网站下寻找有关内容作为种子即可。URL的种子有两种存储办法,一种是运用数据库进行存储,另一种是运用文件进行存储。从种子的安全方面考虑,运用数据库对种子进行存储比运用文件存储更为安全有用。在实际规划时,主题词库中能够有多个种子,但每个种子只能对应一个主题,用来限制机器人在网络中匍匐的距离规模,以进步引擎的查找功率与精准率[2]。
  (2)规划主题词库。主题词库在进行规划时,一般会被分为许多个层次。规划时,在低层次中,会运用较小颗粒的词汇,而在高层次中,则会运用较大颗粒的词汇。低层次的词库主要担任发掘网页最底层与最细化的信息,高层次的词库会在上层掩盖大规模的网页。在网页上匍匐时,第一步是根据词库对网页上的所有中文词汇进行切词,第二步是运用专门的算法来评价主题和网页的关联性,以此判别需不需求将网页建立成一个索引。主题词库里的词汇都是该主题下最新鲜与最具热点的,运用该主题词库,查找的精确性会进步许多。
  (3)主题与网页的相关度算法。在履行笔直查找使命时,不仅能够根据超级链接来完成相关度的判别,还能够根据内容对页面进行相关度的定量判别。然后将测评成果不符合要求,即没有达到指定值的页面排除掉,只选用测评成果合格的页面,以保证查找页面的精准程度。
  (4)完成主题词库。主题词库大多运用分层结构。在主题词库中,所有主题词都储存在两张哈希表中,一张哈希表中寄存词库里的全部主题词,另一张哈希表中寄存主题词上级与下级的联络。主题词库一般用文件储存,文件的扩展性十分好,并且读取内容速度快,宁波seo具有数据结构化、便利操作等特色。
  3.2 中文分词规划与完成
  在查找内容时,引擎会把网页中的相关信息放入内存之中,对这些信息分词,并根据成果运用有关的相关度算法判别该网页是不是主题网页,需不需求建成一个索引。对于笔直查找引擎而言,引擎查找是否精确,主要看对于中文分词能否进行很好的操作。中文分词有许多种办法,如理解分词办法、匹配字符串办法、统计分词办法等。不过运用最多的是最大匹配分词办法[3]。
  在运用最大匹配分词办法时,需求运用一个字典。进行分词时,需求将字典里的词汇与文本里的词汇进行比照,若比照成功,则可对文本中的词汇进行切分处理,反之则不能进行切分。该办法的目的是运用长词汇与文本中的词汇进行比照,对完好的字符串从头到尾进行扫描。经过尽可能长地进行比对,以保证词汇精确性。
  3.3 网络机器人规划和完成
  (1)规划网络机器人的协作关系。网络机器人在履行网页匍匐使命时一般运用多线程办法。人们常把独自履行网络匍匐使命的机器人称为匍匐器,匍匐器一般靠匍匐操控器来发动运用,操控器还担任给匍匐器分配使命、初始化匍匐信息等。匍匐器的并发需求操控器的合作,操控器能够操控匍匐器在规则规模内履行匍匐使命,防止重复匍匐。匍匐器会对网页解析出来的内容进行提取,提取出有关的URL,过滤掉无用信息,并完成主题网页相关度的有关计算。
  (2)规划能够运用多线程下载的匍匐器。一个体系给处理器分配的最小单元称为线程。为了有用进步机器人在网页中的匍匐功率,能够运用多线程技术。体系为匍匐器设置了有关的操控匍匐的线程,多线程技术的运用,能够最大化地缩短下载时间,并且有用进步网页匍匐功率。工作人员还能够利用该线程监测匍匐的即时状况。因而,用于操控匍匐的线程是网络机器人在匍匐使命中不行或缺的一个部分。
  4 结语
  如今,跟着互联网技术的飞速开展与网络上信息的不断添加,用户对信息的检索次数也呈上升趋势,并且对于查找引擎的专业性要求也越来越高。传统的通用式查找引擎已逐步无法满意用户的多样化需求,因而诞生了新型的笔直式查找引擎,可弥补通用式查找引擎的缺陷。笔直查找引擎在网络中履行查找使命时运用什么样的拜访战略也已成为一个研讨热点。运用笔直式查找引擎,能够在网络上查找到用户需求的最精准的信息,用户无需再多花时间对查找到的信息进行仔细剖析,然后大大节省了用户时间,进步了查找信息的精确性,因而该引擎的运用将会越来越广泛。
  参考文献:
  [1] 文必龙,唐苏龙,张浩.主题查找引擎中特征模型技术的研讨[J].计算机技术与开展,2013,23(4):87-90.
  [2] 史宝明,贺元香,吴崇正.主题查找引擎中爬虫查找战略的研讨[J].计算机工程与运用,2014,50(2):116-119.
  [3] 郭彦秋.浅析百度与谷歌两查找引擎的比较与剖析[J].智慧,2012(6):177-180.
  [4] 张敏.基于本体的笔直查找引擎的研讨[J].软件导刊,2010,9(2):13-15.
  (责任编辑:黄 健)
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波网络seo  宁波谷歌优化  宁波seo网站优化  宁波网站优化推广  宁波seo排名