基于事件驱动模型的搜索引擎规划

发布时间：2018-12-18 01:24:23

　　摘要：介绍了查找引擎个性化效劳的首要技能，结合离散事情驱动模型的思想、DWR和现有查找引擎的基本架构，规划了根据事情驱动模型的查找引擎的体系结构，提出了一种新的查找引擎算法，算法中，根据用户停留时刻来剖析用户对翻开页面主题的重视程度，并结合HTML文档特点和中文写作习气等特征，对算法中的要害词权重核算公式进行了改善，然后进一步进步了查找引擎的功能。
　　要害词：事情驱动模型；查找引擎；主题剖析
　　中图分类号：TP393文献标识码：A文章编号：1009-3044(2011)28-6866-03
　　DesignofSearchEngineBasedonEventDrivenModel
　　LUOXing-jun1，BAIXiao-bo2
　　(1.ForestryDepartmentofNanping，Nanping353021China;2.SoftwareSchoolofHunanUniversity，Fuzhou350003，China)
　　Abstract:Thepaperintroducesthemaintechnologyofsearchenginepersonalizedservice.Combinewiththeconceptofeventdrivenmodel，DWRandbasicframeworkofsearchengine，designofthesystemframeworkforthesearchenginebasedoneventdrivenmodelaswellastheideaofdesignisprovided.Meanwhile，thealgorithmofanalysisofusers’interestinpagebyusers’timeonpageisproposed;thealgorithmofkeywordsweightisimprovedincomplywithHTMLfilesfeaturesandChinesewritinghabits;soastoimprovetheperformanceofthesearchengine.
　　Keywords:eventdrivenmodel;searchengine;themeanalysis
　　1个性化查找引擎概述
　　个性化查找引擎[1]，运用主动获得的领域模型（如Web常识、信息处理、与用户爱好相关的信息资源、领域组织结构）、用户模型（如用户布景、爱好、行为、风格）常识进行信息收集、索引、过滤（包含爱好过滤和不良信息过滤），并主动地将用户感爱好的、对用户有用的信息提交给用户。也就是针对同一查找要害字能根据不同用户回来不同的成果。
　　2004年3月，Google推出了个性化查找引擎测试版（GooglePersonalized），用户可以设定自己感爱好的领域，让它只回来与该领域有关的链接；中国查找供给了12个一级目录，102个二级目录，供用户添加感爱好的类别[2]。
　　1.1个性化查找效劳的首要技能
　　个性化查找引擎考虑到不同用户的差异性，为用户供给更契合自身需求的效劳。其触及的首要技能有引荐技能、用户建模技能等。
　　现在主流的引荐技能首要有根据项目引荐[3]、根据用户引荐的协同过滤[4]等。其首要内容又分为两个方面：一是用户资源联系，二是引荐算法。其间用户资源联系是基础，引荐算法是中心。
　　用户爱好建模是产生引荐成果的基础，其技能首要有用户手艺输入、用户阅读的页面剖析、Web日志剖析等。
　　1.2个性化效劳技能存在的首要问题
　　1）保护用户与资源联系矩阵的开支大。例如，对于100万个用户和1000万个资源，个性化效劳中需求保护的用户与资源的联系矩阵保护将十分巨大，其存储和核算进程的时刻开支将十分巨大，而作为查找引擎，呼应时刻是一个很重要的技能指标，巨大的开支必将严重影响查找引擎的功能和使用。
　　2）用户潜在爱好难以挖掘。用户的生活五光十色，在网上所需的信息具有随机性。而现在的个性化效劳技能难以适用对用户潜在爱好的充沛挖掘。
　　因而，本文研讨一种新的根据事情驱动模型的查找引擎规划办法，以处理个性化效劳技能中存在的首要问题。
　　2事情驱动模型及DWR技能
　　2.1事情驱动模型三要素
　　事情驱动模型思想在许多程序开发语言的GUI中都有使用，其首要内容如下：
　　事情源：可以接纳外部事情的源体，如按钮、单选框和复选框等。
　　监听器：可以接纳事情源的告诉的方针。
　　事情处理办法用于处理事情的方针，事情源接纳一个事情，并把这个事情发送到一个或多个监听程序，监听程序仅仅等待这个事情并处理它，然后回来.即程序把事情的处理“委托”给一段“代码”。这段代码就是事情处理办法，也叫事情处理程序。
　　2.2DWR异步更新技能
　　DWR（DirectWebRemoting）是一个开源的Java类库，使用该架构的Web使用程序，可以在阅读器中直接调用Java程序。其原理较为简单，就是经过配置文件（dwr.xml）完结途径映射，以断定JavaScript要调用的Java类，再运用XMLHttpReuqest请求，将请求参数转化并调用相应的Java办法处理，然后将处理成果以异步的办法回来并转化为JavaScript代码，因而该结构十分适合模仿事情驱动模型。
　　3根据事情驱动模型的查找引擎规划
　　结合事情驱动模型思想、DWR技能和查找引擎现有技能，规划根据事情驱动模型的查找引擎体系，基本思想如下：
　　1）在用户第一次输入要害词查询今后，将成果在页面显现，设为各项目为I，初始显现页面为P；
　　2）当用户对项目I“单击”今后，此处将I看作事情源；
　　3）单击今后，经过JavaScript和DWR的设置调用履行相应的Java代码，也就是调用图1的主题剖析器的办法，将该办法作为“事情处理办法”，根据公式（1）核算的成果决定是否进行异步更新。
　　3.1根据事情驱动模型的查找引擎体系结构规划
　　结合事情驱动模型和DWR结构，规划根据事情驱动模型的查找引擎体系的结构如图1所示。
　　其间，过滤器首要完结查询器回来的文档与查询条件的主题相似度的核算；主题剖析器完结用户随机重视主题的剖析。
　　3.2根据事情驱动模型的查找引擎算法规划
　　1）将查找要害字提交给“查询器”；
　　2）“查询器”根据用户输入的查询条件在索引数据库中查找；
　　3）“查询器”将查询到的成果集经过过滤器今后回来给用户接口显现。
　　4）用户“单击”翻开相应的Web页面的一起，经过DWR结构对用户的“单击”事情做出呼应；
　　5）经过DWR结构，调用“主题剖析器”的办法对翻开页面的“主题”进行剖析，然后获得用户随机的重视主题，一起核算用户在该页面的实践停留时刻（St）和理论停留时刻（Pt）。理论停留时刻可选用公式（1）核算得出。
　　（1）
　　互联网行业有一个比较盛行的“八秒钟规矩”[5]，假如Web站点在8秒钟后没有反应，宁波网站优化那么访问者一般会弃之而去。所以，这里Pt（理论停留时刻）就加上了其平均时刻α=4.5；β=2.5为平均阅读速度；TFki为词汇ki在文档D中的词频。
　　6）假如，阐明该页主题不契合用户的需求，则不进行成果集（RS）
　　的异步更新；不然，结合用户的查询要害字和剖析所得的主题传递给“查询器”进行查询，也就是履行第2步；
　　7）经过过滤器，将新的成果集回来给DWR结构。
　　8）经过DWR结构对原页面进行更新。
　　以上八个步骤中的中心是主题的剖析算法，一般选用空间向量模型VSM（VectorSpaceModel）[6-8]来表达文档主题特征，向量中的各项是文档中要害词汇的权重，词汇权重核算的一般公式为W=TFIDF，Salton给出了一个词汇权重核算公式[9]：
　　（2）
　　其间，W（t，i）：词汇t在文档i中的权重；fti：词汇t在文档i中的词频，即词汇呈现的次数；N：一切的文档数；nt：一切文档中，呈现词汇t的文档数；ti：文档i中，一切的词汇数。
　　3.3对算法中词汇权重核算公式的改善
　　为了更好地进行主题剖析，在对要害词汇权重的核算中需求考虑HTML页面的文档结构和中文的写作习气等特征，因而，对词汇权重核算公式（2）进行如下改善。
　　根据HTML页面的文档结构和中文的写作习气，把词汇呈现在HTML页面的方位分为以下7个等级：
　　1）〈title〉〈title〉标签中的词汇，一般都直观的反映了页面的主题，所以给其方位重权为P1远大于其他等级的权重；
　　2）〈strong〉〈strong〉、〈B〉〈B〉、〈I〉〈I〉、〈H1〉〈H1〉、〈meta〈meta〉等强调性的标签中的词汇，例如〈metaname=“keywords”content=“事务”，/〉或者标点符号《》和“”之间的文字更有可能是要害词汇，给其方位权重为P2；
　　3）〈a〉〈a〉锚或超链接中的词汇给其方位权重为P3；
　　4）正文的第一段中词汇给其方位权重为P4；
　　5）正文最后一段中词汇给其方位权重为P5；
　　6）其他段落中首句或尾句的词汇给其方位权重为P6；
　　7）其他方位的词汇给其方位权重为P7，其间，P1〉P2〉P3〉P4〉P5〉P6〉P7，假如没有在相应方位j处呈现，则Pj（1〈=j〈=7）为0。
　　经过对用户翻开文档D的解析和分词，得到网页中词汇集，各个词汇权重可经过公式（3）核算。
　　（3）
　　其间，W(kt：D)词汇kt在页面D中的权重；TF(kt：D)词汇kt在翻开文档D中呈现的次数；DF(kt：D)一切文档中，呈现词汇kt的文档数，例如“事务”在100篇文档中的50篇呈现过，则DF（DocumentFrequence，文档频率）就是50；N：一切文档数；Pj：方位权重(1〈=j〈=7)，表示同一个词汇在不同的方位的不同权重。
　　核算完各词汇的权重之后，按词汇排序，文档D的向量为词汇，Wn为词汇Kn的权重。下一步就是核算各页面与主题的相似度，一般都选用向量余弦来表示，T为用户重视主题向量，D为所查询到的文档，其公式如下：
　　（4）
　　考虑HTML页面的文档结构和中文的写作习气等特征，对词汇权重核算公式进行改善，可以更准确地剖析用户重视的主题，然后进一步进步了查找引擎中主题剖析器的功能，进而进步查找引擎的功能。
　　4结束语
　　本文结合已有的DWR技能和查找引擎基本结构，规划了一个根据事情驱动模型思想的查找引擎体系，提出了根据用户停留时刻来剖析用户对翻开页面主题重视程度的查找引擎算法，并对算法中要害词权重的核算公式进行了改善，以期可以处理用户查找需求的随机性问题及大量的用户爱好特征需求保护的问题。
　　然而，在异步更新后，核算页面内容与用户随机主题相似度时需求大量的核算的问题，致使呼应速度较慢。所以，如何进步呼应速度是下一步研讨的首要方针。
　　参考文献：
　　[1]李晓明，陈建国.查找引擎技能及趋势[J].IT聚焦:查找引擎，1992(2):83.
　　[2]张立彬，杨军花，杨琴茹.第三代查找引擎的研讨现状及其发展趋向探析[J].信息体系:情报理论与实践，2008，31(5):788.
　　[3]陈健，印鉴.根据影响集的协作过滤引荐算法[J].软件学报，2007，18(7):1685-1694.
　　[4]KonstanJ，MillerB，MaltzD.GroupLens：ApplyingCollaborativeFilteringtoUsenetNews[J].CommunicationsoftheACM，1997，40(3):77-87.
　　[5]常庆.风险主题查找引擎相关技能的研讨与使用[D].西安:西北大学，2008.
　　[6]王颧，黄厚宽，田盛丰.文本分类完成技能[J].广西师范大学学报:自然科学，2003(1):173-179.
　　[7]张东礼，江东升，郑纬民.根据VSM的中文文本分类体系的规划与完成二[J].清华大学学报:自然科学版，2003(9):1288-1291.
　　[8]李雪雷，张冬茉.一种根据空间向量模型的文本分类办法[J].核算机工程，2003(17):90-92.
　　[9]SaltonC，Bucklev.TermWeightingApproachesinAutomaticTextRelrieval[J].InformationProcessingandManagement，1998，24(5):13-52.
　　本文转载自
　　宁波网站优化www.leseo.net
　　补充词条：宁波seo优化公司宁波seo排名宁波网站seo 宁波网站seo优化宁波seo哪家好

乐华观点

上一篇：搜索引擎暗战

下一篇：根据含糊聚类算法及推荐技术的搜索引擎成果排