宁波网站优化:由用户指定网络爬虫程序抓取的站

发布时间：2018-12-24 17:18:47

　　摘要：本文剖析了现有的查找引擎技能，提出构建面向个人用户的专用查找引擎的规划思想。在该专用查找引擎中，由用户指定网络爬虫程序抓取的站点集，在用户设定的关键词集和要查询的文档格局的基础上，进行有针对性的查找，进步了查找引擎的功率，为用户供给个性化的查找效劳。
　　Abstract:ThispaperanalyzestheexistingsearchenginetechnologyandproposestheIndividualTopic-SpecificSearchEnginedesign.Inthespecialsearchengine，designatedbytheusernetworkreptilesprocedurescrawlthesitecollection，basedonkeywordsandtheformatofqueryingthedocumentselectedbytheuser，doestargetedsearch，improvestheefficiencyofsearchengines，fortheusertoprovidepersonalizedsearchservice.
　　关键词：个人用户专用查找引擎；网络爬虫；个性化效劳；形式匹配
　　Keywords:individualtopic-specificsearchengine；networkreptiles；individualizedservice；patternmatch
　　中图分类号：TP39文献标识码：A文章编号：1006-4311（2012）21-0193-02
　　0引言
　　随着网络信息量增加，迫切需求找到一种专业的信息查找东西来进步信息查询的功率，因而产生了查找引擎。现有的通用查找引擎一般选用根据关键字的自动检索，存在着检索办法单一，返回太多低质量的匹配，更新时间长、缺少个性化效劳等缺乏。这些缺乏的存在使得通用查找引擎已不能满足广阔用户的需求。关于每个用户的检索需求一般局限于某个范畴、某个职业或某个区域。因而，构建一个合适个人用户使用的、具有必定个性化的个人专用查找引擎就成为个人用户的迫切需求。
　　1全文查找引擎的体系结构
　　现代大规划高质量查找引擎一般选用如图1所示的三段式的作业流程，即信息的收集、信息的预处理和供给查询效劳。
　　2个人用户专用查找引擎的规划与完成
　　本文针对全文查找引擎的作业流程，结合个人用户的查找特色，对爬虫程序的作业流程进行了重新规划，完成了个人专用查找引擎。
　　2.1个人用户专用查找引擎中信息的收集在个人用户专用查找引擎中信息的收集也是根据爬虫程序的，只是抓取的策略有所不同。考虑个人用户专用查找引擎的特性，本规划对全文查找引擎的爬虫程序的作业流程进行了相应的调整：
　　2.1.1采取的是在用户提交查询后再派爬虫到网络上收集信息的办法，使本体系在初始状态时尽或许的简练；体系对用户提交查询恳求，首要到体系现有的数据库中进行查询。关于爬虫抓取到的URL，需求与用户指定的地址串进行形式匹配，若契合则抓取。本文选用普通的形式匹配算法（BF算法），为了进步形式匹配的功率，根据本文的特色，对匹配进程进行了相应的改善：①选用逆向匹配的办法：首要对扩展名进行匹配，这种匹配办法与正向匹配比较，能够最大限度的削减匹配后的信息数量，进行有针对性的查找，削减用户提交查询完之后的等待时间，进步体系功率。②将用户输入的地址串以通配符为分隔符，宁波网站优化分为几个独立的字符串，关于匹配完文档格局（扩展名）的地址依照逆向的次序进行字符串的形式匹配。只要与一切字符串的形式匹配成功后，该地址所指向的文档才会被保存下来；
　　2.1.2关于个人用户，其检索需求一般局限于某个范畴、某个职业或者某个区域；并且个人用户在上网检索信息时，某些情况下现已知道了信息的地点范围，此时所要做的作业就是把包含该信息的具体方位给找出来。因而在网页的收集进程中，不需求对整个web进行抓取，可向用户供给一种限定查找条件的形式，在爬虫程序抓取网页的进程中，仅仅抓取契合用户限定的条件的信息，进行有针对性的查找，削减用户提交查询完之后的等待时间，进步体系功率；
　　2.1.3关于非网页类文档（例如：DOC、PPT、PDF等），程序首要将其转换为网页格局的文档，然后再提交给信息的预处理进程；
　　2.1.4就文档剖析而言，目前的查找引擎，一般是完好地保存抓取的网页，然后经过遍历，提取里面“”形式中的URL串。这种办法存在一些缺陷：首要，页面剖析的时分，为了寄存获取的网页，我们需求分配网页内容巨细的内存空间，并且直到这部分内容写入硬盘才能释放，这之间要经过页面剖析、链接提取、内容写入外存等过程，内存一向被占用，于是限制了并发操控的规划。同时，需求向外存完好的写入网页的内容，包含里面的无用信息，即对外存造成了浪费。本文选用一种根据信息提取的办法，在HTML页面剖析的时分，提取有用的信息，称为“纯网页正文”。
　　信息收集算法的描述如下：
　　Spider({URLS}，{TYPES})//URLS为地址字符串，由用户设定
　　{//TYPES为用户设定的查找的文档类型列表
　　QUEUEQ; //用行列寄存将要抓取的URL
　　QUEUEcompleteQ;//现已抓取的URL行列
　　While(Qisnotempty)//一向履行到行列为空
　　{
　　currURL=pop(SEEDS); //currURL是将要抓取的URL
　　//SEEDS为起点URL
　　if(currURLisnotin(completeQandQ)) //判断该URL是否现已抓取
　　{
　　ForeveryURLiincurrURL
　　if((type(URLi)isin{TYPES})and(URLiislikeURLS))
　　push(URLi，Q);/*若URL与用户设定的条件匹配，则将该URL置于行列Q*/
　　}
　　}
　　ForeveryURLinQ
　　savePage(URL); //保存契合条件的文档
　　}
　　2.2个人专用查找引擎中信息的预处理在信息的收集进程中，现已对收集来的文档进行了基本的预处理，提取网页中的纯文本内容。预处理进程的主要作业就是对网页文档的纯文本内容进行中文分词处理，并树立正向索引，终究构成倒排索引。
　　2.2.1中文分词本文选用最大匹配法作为中文分词的办法，该算法的基本思想是：事先树立词典，其间包含一切或许呈现的词。对给定的待分词的汉字串s，依照某种确定的原则（正向或逆向）取s的子串，若该子串与词库中的某词条相匹配，则该子串是词，持续分割剩下的部分，直到剩下部分为空；不然，该子串不是词，则取s的子串进行匹配。本文选用的分词算法是正向减字最大匹配算法。
　　2.2.2正向索引关于原始网页，经过纯文本内容的提取和中文分词之后，为每个网页分配一个docID，构成正向索引文件。正向索引包含两部分：docID与URL的对应关系、docID与经过分词的网页文档的对应关系。这种形式需求较多的存储空间，因为一个docID被用屡次，但是它改善了后续操作的履行功率。
　　2.2.3倒排索引倒排文件中包含了文档傍边的每一个词条及其相关的信息，但如此大规划的倒排文件不或许悉数保存在内存傍边，因而如何安排倒排文件的结构将会直接影响到查询的功率。
　　树立倒排文件的办法如下：①界说内存倒排文件索引表的结构体，包含两部分内容：<关键字，指向某文件名的指针>。关键字部分存储的是从切词文件读到的词语的首字；指向某文件名的指针用来指向外存中以某个汉字最初的词语地点的文件名；②界说外存文件的结构体，包含四部分内容：<词项，网页号，呈现次数，呈现方位>。词项部分存储的内容是切词文件中的词语，网页号部分用于存储某词语地点网页的编号，呈现次数部分记录的是某个词语在某网页中呈现的次数，呈现方位部分用于记录某个词语在某网页中呈现的方位。增加倒排文件内容的办法：①算法处理的对象是经过中文分词和正向索引完之后的网页库文件，文件中每一行数据对应的是一个经过处理的网页文档，各关键字之间以“/”分割。②从文件中读取一行数据，将词语的相关信息写入结构体。读取完一行数据今后，去掉该行数据中的重复词语，计算词语的呈现次数。③取出该词语的首字存储在内存的索引表中，然后根据MD5算法得到与这个字相关的值，在外存查找是否存在与这个值相匹配的文件名；假如不存在就先在外存以这个文件名树立一个文件，然后将这个文件调入内存，增加词语及其相关信息（包含词语、网页号、呈现次数、呈现方位），最终再将这个文件写到外存；假如存在相匹配的文件名则先将这个文件调入内存，再将词语及其相关信息次序存储在文件中，修正完成后再写入外存。④重复上面的办法，次序读取切词文件中的数据，直到切词文件中的词语悉数读取结束，并存储在倒排文件中；汉字经过MD5算法后得到的值是仅有的，因而各文件的文件名之间不会发生冲突。查询时，能够根据词语的首字敏捷的定位到相应的外存文件。外存文件中词语因为是次序存储的，排列时或许没有必定的规则，因而在将文件存储后还能够对每个文件中的词语依照某种次序进行排列，以便进步查找的速度。
　　3结语
　　本文根据查找引擎特色，结合个人用户的需求规划并完成了个人用户专用查找引擎。个人用户专用查找引擎具有便于向个人用户的轻量级发布；功率高，能为个人用户供给更好的效劳等优点，但体系没有考虑倒排文件的紧缩保存问题，还需求进一步改善。
　　参考文献：
　　[1]顾俊.根据移动Agent的信息查找技能[C].上海交通大学博士学位论文，2001.6:2-5.
　　[2]彭波.查找引擎的混合索引技能[J].计算机工程与使用，2004，(22).
　　[3]余少云.如何使用查找引擎获取信息资源[J].网络安全技能与使用，2005，(11).
　　本文转载自
　　宁波网站优化www.leseo.net
　　补充词条：宁波seo优化公司宁波网络seo公司宁波网站seo 宁波网络seo 宁波seo哪家好

乐华观点

上一篇：宁波seo优化:分析出了优势与不足

下一篇：宁波seo优化:每日有比这个数字巨量得多的人