宁波seo优化专栏

信息可视化技能在搜索引擎结果常识体系化输出

发布时间:2018-12-09 13:27:41
  [摘要]跟着信息技能的高速开展以及核算机以及其他智能东西的普及,查找引擎在人们日常获取信息的途径中占有了越来越重要的地位。百度、谷歌、必应是现在在世界范围内运用最广泛的三种查找引擎东西。用户仅需在查找引擎的对话框界面输入自己所要查找方针的关键词,查找引擎便能够敏捷回来可能与用户查找方针相关联的列表查找效果,极大地节省了用户的作业时间,减少了用户需求面临的冗余信息。但是,跟着互联网信息的快速胀大,信息的多义性也日趋复杂。与此同时,用户运用查找引擎的需求和方向日益增长。用户集体的开展也对查找效果的质量提出了更高的要求。本文依据已有的依据聚类技能的查找引擎规划,提出了针对聚类效果的改进办法以及依据信息可视化技能对聚类效果进行可视化输出。以常识体系化的办法有层次的输出查找效果,提高用户的信息检索和运用功率。
  [关键词]查找引擎;可视化;文本聚类
  doi:10.3969/j.issn.1673-0194.2015.13.128
  [中图分类号]TP391[文献标识码]A[文章编号]1673-0194(2015)13-0211-03
  1当下的查找引擎技能开展现状
  查找引擎成为咱们最为常用的信息检索东西现已成为了不争的事实,到2014年底,我国的网民规划已达6.5亿。有超越82%的用户运用百度等常用查找引擎作为获取信息的首要手法。清楚明了,查找引擎技能的开展关于推进互联网的进步和开展具有重要的含义。但是,现在的查找引擎还存在着很大的局限性。
  其一是效果出现办法,其二是语义。干流查找引擎出现办法以列表为主,其首要作业原理是运用网络爬虫,经过用户输入的关键字,遍历信息集并收集相关条目,依据相关性次序列表展现。用户依据列表,顺次阅读查找效果的标题和摘要来断定他们所感兴趣的信息。由于语义多义性广泛存在,用户也时常无法精确地表达自身需求,导致歧义的查找效果混合在一起。用户在阅读查找效果时需求人为将不感兴趣的效果挑选出来并定位自己感兴趣的信息,大大降低功率。[1]
  2信息可视化技能的开展
  可视化技能的概念在20世纪80年代中被提出,而“信息可视化”的概念开始出现在1989年。总的来说,信息可视化技能是可视化技能在非空间数据范畴的运用,其中心是一个将数据和数据包含的信息转化为直观的契合人思维习惯的图形的进程。信息可视化技能运用户能够以直观的办法完成对数据和数据间的关系进行观察,进而更全面地发现数据中隐藏的特征、关系和模式。
  经过近20年的开展,信息可视化技能现已被细化到多个范畴,包含:依据几许的可视化办法;依据图标的可视化办法;依据时间序列的可视化办法;依据层次的可视化办法等。本文将侧重阐述依据层次的可视化办法。
  层次信息是一种常见的信息类型。咱们每天接触的文本信息就包含许多层次。层次信息的可视化首要包含节点衔接图和树图两种办法。
  节点链接图:节点链接图[2]是将层次信息组织成一个树状图,依据层次的类属关系别离构成父类和子类节点,以树状结构衔接,节点和衔接线别离用来表明信息项和它们之间的关系。节点链接图的长处是能明晰直观地展现层次数据内的关系。缺陷是子类分支之间的空白会浪费展现空间。
  树图:树图的概念(treemap)由Johnson等在1991年提出[3]。树图依靠一系列的图块的嵌套来展现信息和信息的层。,其长处是能够在有限的空间下展现更多的信息数据。其缺陷是难以展现节点的内容细节。
  3可视化技能在查找引擎效果常识体系化输出的方案规划
  本方案的整体功能结构如图1所示,首要由用户交互、网页检索、聚类处理、可视化处理和全文查找引擎数据库组成。矩形方框处为本方案的中心结构。查找引擎首先从用户交互界面接纳用户在界面中输入的方针字词,将方针发送到检索模块并从数据库中回来相应的效果集合。聚类处理模块将对回来效果先进行预处理,将预处理效果完结聚类并把聚类效果传递至可视化处理模块,经过可视化处理后经过用户界面回来至用户。接下来将继续阐述本文的重点,即聚类处理模块与可视化处理模块。
  3.1聚类模块规划
  聚类模块先对查找效果信息进行预处理,然后对预处理过后的统一格局的数据集运用聚类算法对查找效果进行聚类。将类似度较高的查找效果归为一类并为每一个类界说一个详细的聚类标签,依据聚类后的效果子集运用排序算法按照相关性再排序。因而查找效果聚类模块的整体规划首要由三部分组成:数据预处理子模块,聚类生成子模块和聚类子集排序模块。
  3.1.1文本预处理
  (1)文档分词。分词的进程是将文档中的语句按照语言的相应规矩划分为词语或短语的进程。分词效果的质量也影响着后续短语的提取和聚类标签的生成。依据词典或词库的分词进程包含:词典初始化、文本输入、文本结构化处理、分词/粗分、消除歧义与辨认未登录词、更新词典和效果保存。
  (2)词干解析。词干解析关于处理英文文本的含义要大于处理中文文本的含义。英文单词的衍生词和词的形态变化十分常见。例如play是一个词干,它能衍生出player,plays,played,playing等等不同时态不同人称但含义相同的词。
  (3)去除停词。经过文档分词,文档现已被划分为一系列的单词。但是这一进程并没有过滤掉文档的无效信息。一些语气词、虚词和助词的词频很高,但与用户需求匹配度低。有时这些词出现次数较多会影响接下来高频词提取和聚类标签生成的进程。能够在查找引擎运行前预先将停词表加载到内存中,在分词后运用停用词接口办法判定单词是否在停用词表中。
  (4)高频短语提取。提取文档高频短语的意图是高度概述文档并供给有限个聚类标签的候选者。因而,高频短语提取的准坚信直接关系到聚类标签生成的作用。针对这些要求,后缀数组是一种高效精确的办法。设一个文档T,长度为N。T的后缀数组s是指将T一切的后缀按照字符次序排序,而令后缀开始的方位(按排序后的次序)构成的数组。[4]
  3.1.2聚类处理
  咱们把频率超越一定阈值的词条界说为高频短语。这能够从预处理效果中获取。经过这些数据再运用向量空间模型对文档建模。经过隐含语义索引技能和矩阵降维能够发现文档之间的主题相关性以及相关主题。依据主题对文档进行聚类,完结对预处理效果的二次处理。
  (1)生成聚类标签。经过预处理咱们现已得到了文档的高频短语,创立特征词-文档矩阵T,对矩阵T进行奇异值分解(SVD),得到一个正交基向量U。依据该正交基向量与高频短语(候选聚类标签)的匹配效果,断定出终究的聚类标签。
  (2)聚类生成。依据VSM建立的文档模型,咱们现已能够直接经过k-means办法对文档进行聚类。
  (3)聚类内部排序。聚类的标签生成后。能够看见标签下包含着一个文档集。终究依据之前的特征词-文档矩阵核算得到的文档关于聚类标签词的TFIDF值的巨细降序摆放。还能够结合用户行为计算数据进行加权分析,调整终究排序效果。
  3.1.3可视化处理
  本方案中的用户交互界面规划采用辐射图和树图两种办法进行效果的展现。树状结构是输出聚类效果的最好挑选。就单次查找聚类得到的效果而言,宁波seo能够生成一棵简略的以查找关键词为父节点,效果聚类标签为子节点的树。关于效果聚类较多的状况能够星射状的树结构完结输出。这对后面映射到树图的效果不会产生很多影响。
  可视化模块的另一个关键构件是用户行为计算。对每次聚类效果输出后用户挑选的范畴方向进行记载。在一段时间后,积累了个体用户关于某一范畴的多次查找记载后,经过不同记载树节点的语义消歧和辨认,能够生成一棵用户近期关于某一范畴探索的常识树。这棵树为用户供给了一个时间维的视角来审视自己关于某个范畴的了解发现进程,真正构成查找效果的常识体系化输出。
  4结束语
  时下干流的查找引擎东西均是单纯以列表的办法为用户出现查找效果。这一显示办法降低了用户寻觅方针信息的功率,而且这个问题关于学术研讨人员的负面影响更为明显。
  本规划方案的首要立异之处在于添加了用户行为计算模块修正树状可视化结构的个性化模块,而且还供给了不同的可视化办法进行聚类效果的出现,另外,依据用户在同一范畴中多次查找聚类效果生成常识树,为用户供给了审视自己阶段性作业效果的才能。
  首要参考文献
  [1]赵宇.核算机检索东西的开展与运用[J].中小企业管理与科技,2011(4):271-272.
  [2]GRobertson,SKCard,JDMackinlay.TheCongnitiveCoprocessorArchitectureforInteractiveUserInterfaces[C].Proceedingsofthe2ndAnnualACMSIGGRAPHSymposiumonUserinterfaceSoftwareandTechnology,NewYork,1989.
  [3]张昕,袁晓如.树图可视化[J].核算机辅助规划与图形学学报,2012,24(9):1113-1124.
  [4]朱光楠.依据聚类的查找可视化出现系统的规划与完成[D].北京:北京邮电大学,2012.
  [5]周登朋.查找引擎查找效果的聚类研讨[D].上海:上海交通大学,2007.
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波seo优化公司  宁波网站seo优化  宁波网络seo公司  宁波网站排名优化  宁波seo推广公司