宁波seo优化专栏

宁波网站优化:搜索引擎搜索分组的进展分析

发布时间:2019-01-13 00:20:04

  集群研究是互联网搜索和数据挖掘领域研究的热点。绍了集群搜索引擎的基本工作流程,总结了国内外技术的现状。有的聚类搜索引擎分为三个方面:聚类对象,聚类函数和聚类算法。据集群方法和应用状态以及集群搜索引擎的发展趋势,对两个集群搜索系统进行分析和评估。键词:网络数据;寻找分组;聚类算法中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)搜索引擎regroupementCAO宇1,尹刚1,李程镕Xiang2 BIN222-5398-03Développement研究,王怀分1(IT1.École,国防科学技术大学,长沙410073,中国;学院2.Armed指挥学院在杭州,杭州30023,中国)摘要:研究小组是一个热门话题本文档定义了集群搜索引擎的基本工作流程,并概述了它们当前的搜索状态,根据对象,函数和聚类算法分析了集群搜索引擎,分析和评估了两个系统。
  工作流程,聚类方法和应用状态对重要集群的研究,最终给出了集群中搜索引擎的搜索趋势:关键词:数据Web,集群,集群算法技术应用程序的快速发展以及不同领域的Internet Internet和Internet应用程序在Web上积累了大量数据,包括产品数据,数据用户,评估数据,相关数据,状态数据等。些数据不仅非常丰富,而且对互联网用户也广泛开放,可以免费访问,下载和处理。为进一步整合和开发此Web数据的潜在价值以及创建增值应用程序提供了重要基础。群研究是近年来互联网数据和增值技术最具活力的集成。类研究是在垂直研究的基础上发展起来的一种新的研究技术。
  直搜索是一种针对特定行业的行业搜索,旨在使用户更容易找到所需的业务信息。组研究旨在进一步提高研究的准确性,以响应用户的研究习惯和兴趣。合搜索引擎的搜索结果和所寻求信息的分类将使信息资源更加清晰和清晰。前,国家文献[1]和文献[2]主要包含对集群搜索引擎的国家评论,尽管两篇文章都对集群搜索引擎进行了深入的分析和评论,以及培训和开发这些引擎的过程。消费者集群搜索系统进行了描述和分析,但对集群系统的功能分析还不够详细,对搜索引擎的未来发展没有明确的定位。群。文档首先介绍典型集群搜索引擎系统的基本工作流程,总结集群搜索引擎的开发历史和当前状态,然后整理对象的三个视角,从集群的功能和算法。搜索引擎详尽地搜索和分析几个众所周知的集群搜索引擎。文档的结构:第1节介绍了集群搜索引擎的发展状况,第2节分析了集群搜索引擎的功能,第3节总结了经典的集群搜索引擎和第4节。
  述了集群搜索引擎的开发。势:第5节总结全文。集搜索引擎研究的现状群集概念和群集工作流程群集搜索引擎是一种使用群集技术对搜索结果执行自动聚类分析的搜索工具。的特点是强调,强大的分类和集合:它可以随着时间的推移删除重复的信息,分类搜索结果和收集信誉良好的搜索引擎信息的资源。前,按组搜索引擎的基本操作如下:获取基于用户询问的关键字搜索一个或多个搜索引擎的结果, - 检索搜索结果,过滤重复和无效信息,并将短语提取为函数以生成分类标记,将文档分配给生成的分类标记,搜索结果在群集中将其排序并显示给用户。利时和国外集群搜索引擎的发展搜索引擎的发展有三个阶段[3]:第一代搜索引擎主要依赖于手工分类的一般分类,第二代主要采用自动分析机和分析,利用链接分析技术获得更准确的搜索,如谷歌,百度等,第三代搜索引擎更智能,互动性强,友好。能包括自动聚类,重复数据删除,用户习惯等,这些是未来搜索引擎的主要发展方向。年来,关于集群搜索引擎系统的国际研究越来越受欢迎,并且出现了一些众所周知的集群搜索系统。中,Scatter / Gather系统[4]是第一个在搜索引擎上使用聚类方法的系统; Vivisimo [5]是一个商业集群搜索引擎,可响应用户习惯并提供高搜索效率。于Java的开源Carrot2 [5]分组搜索引擎自动将搜索结果排列在相应的语义类别中,包括提高速度和易用性。中国研究领域,Bbmao是一个相对强大的集群搜索引擎,它处于起步阶段,它引入了重复数据删除功能来解决人们阅读和重复信息的许多问题。Bbmao的分组功能可以提高信息检索的效率,以及主要搜索引擎的结果收集,同时完成大量信息的分类。Baigoogleledu最近整合了两个主要的搜索引擎,谷歌和百度。本出发点是两大搜索引擎的搜索结果之间的巨大差异。样的系统,搜索结果的聚类分析在一定程度上减轻了广告的流动,并允许用户更容易地找到他们需要的信息。于聚类国内和国际搜索引擎的相关技术包括聚类分析,聚类算法和中文信息处理。Anton及其同事[7]致力于将分类系统引入评估系统,以评估聚类效应的质量。如Sudipto Guha [8]等研究人员已应用概念关联而不是传统计算的欧氏距离来测量数据之间的相似性,以确定聚类并获得良好的结果。些学术组织和中国组织已经开始研究从“天网”和“网络指南针”开始的自动分类和文本分组的内容。京和清华大学已开始致力于聚类技术研究。外,北京科技大学的马雪云提出了一种基于关键名词句子分组的中文搜索结果分组方法[9],使用百度,谷歌和雅虎三家搜索引擎在互联网上获取信息并巩固结果。析。防科技大学的肖坤将STC算法与Lingo算法进行了比较,并对该算法进行了改进,设计了校园网搜索引擎系统[10]。
  集搜索引擎的功能分析对象群集的聚类现有搜索引擎对象的聚类主要包括三种类型的数据:业务数据,评估数据和社交数据。品数据主要包括服装,电器,化妆品等数据的分类和分类。
  如,用户在淘宝上输入关键词“牙膏”,并立即在网页上显示分类信息,如“功能”,“品牌”和“原产地”。
  根据销售情况,价格,信用,分类,按商品分组分析清晰明确。估数据主要包括关于相关主题的论坛讨论信息,博客交换信息和来自商业产品网站的满意度评估信息。连海事大学的卢明宇和姚晓娜提出了一种基于模糊分类的模糊分类算法:分析出版物与用户之间影响的传递使得有可能确定它是一个关键人物和热门话题[11]。交数据主要包括社交数据资源,诸如记录在社交网络上的用户简档信息,用户关注信息和用户交互信息。交数据涉及可用于群集的大量关联信息,这对于实现智能和自定义群集搜索非常重要。外,根据数据的类型,可以将簇对象分成文本数据,多媒体数据等。群功能分析搜索引擎的集群功能主要包括智能集群,重复数据删除,多媒体和覆盖。能群集:大多数群集搜索引擎都具有此功能。前,作为最好的系统,如Vivisimo系统,其最大的特点是搜索结果的自动分类,使用专门开发的启发式算法来组装或分组原始文档。De-heavy:De-duty可以删除大多数广告页面并节省用户选择时间。是一个非常有用的分组功能。Bibi cat的重复数据删除功能非常好:一旦用户从多个搜索引擎获得搜索结果,Bibi就可以自动获得最大搜索结果并删除重复信息。媒体:除文本聚类外,集群搜索引擎还考虑了视频和音频等多媒体信息的聚类功能,以及营销氛围。合和多媒体更加激烈。狗音乐推出了新版的分组页面,高度可视化。户输入音乐名称并获得新结果。先根据音频功能对结果进行分组,然后根据文本信息进行分组,以确保搜索界面显示的音乐的相关性。高的。
  盖范围:集群搜索引擎通常基于一些大型通用搜索引擎的数据资源,这确保了搜索结果的完整性以及集群对象的丰富性。类算法分析搜索引擎的聚类算法主要包括分层聚类,树,网格和循环聚类。中,Carrot2,Clusty(clusty.com),iBoogie(iBoogie.com)和其他系统使用分层分类方法根据源和站点进行分组。PinkySeach [12]和Mnemomap(mnemomap.org)系统结合使用树结构的算法来呈现列表中的组的结果。
  UJIKO系统(ujiko.com)是一种使用圆形结构的分组算法。
  将搜索结果分组,并根据主题自动将它们分类到图形界面中。Quintura系统(quintura.com)是一种分组算法,它使用网格结构以标签云的形式对语义链接的单词进行分组,以形成网状链接。

宁波网站优化:搜索引擎搜索分组的进展分析_no.28

  典型系统的搜索引擎的基本步骤的集群系统Vivisimo Vivisimo系统[5]如下:第一,该系统会自动发送和并行查询到几个领先的搜索引擎,则收集由每个请求返回的结果分组查询的结果。重复数据删除,合并,分类等之后的分析通过输出的处理显示给用户。Vivisimo集群对象是由多个搜索引擎返回的搜索结果,主要是文本信息。Vivisimo的分组功能主要包括分组文本。过搜索和分类文本内容,vivisimo软件允许用户集成和分类来自未预先标记或分类的资源的内容。Vivisimo使用启发式算法,借用人工智能的思想,对搜索结果进行分组,并自动将文本信息分类为分层类别。个步骤都是自动化的,无需人工干预。
  Vivisimo目前拥有广泛的业务应用程序,其信息分类非常周到且用户友好。精心展示的研究成果使其成为一个行业商店,并已成为多年来“最好的元搜索引擎”。是,Vivisimo没有自己的数据资源库,并且与其他大型搜索引擎相关联,其独立性平庸,搜索功能需要加强。Carrot2系统Carrot2是一个基于Java的开源集群搜索系统[6],主要用于对搜索结果进行分组。Vivisimo一样,用户首先在Bing,百度,谷歌和其他已知搜索引擎中输入关键字,然后汇总返回的搜索结果并将其显示在基于树的分类图中。Carrot2聚类对象主要是主搜索引擎返回的搜索结果:它分析通过文档聚类平台的工作台寻找的数据,并将聚类的结果呈现为服务通过DCS服务器进行REST以进行文档群集。后,Carrot2在WebApp模式下向最终用户呈现集群作为Web应用程序的结果。Carrot2使用的分组算法主要是术语后缀树聚合算法(基于奇异值分解的分组索引结果)和STC(后缀树分组)。前,Carrot2支持更多的聚类算法,可以更新和改进开源代码。系统使用广泛,具有良好的便携性。而,Carrot2的中文分词效率不高,可视化效果不佳。于搜索引擎发展趋势的文献汇总[1]通过大量搜索引擎评估发现了一系列问题,如缺乏独立性,缺乏专用算法,搜索速度慢,但本文主要评估搜索结果的分组方法,集群搜索引擎的趋势分析也侧重于聚类方法。文估计集群搜索引擎将在未来量化,数据量化,链接社交化和集成集成。岸数据量化当前阶段的聚类搜索由于数据集相对简单,分类算法太旧,导致向用户呈现少量搜索结果和内容是平庸的,这将不可避免地影响集群研究的发展。此,未来的聚类搜索必须在数据海中量化。国互联网公司“Yebao”最近推出了一种更人性化的搜索引擎,不同于当前搜索引擎主要网站提出的一维搜索。不是一般搜索结果,而是搜索词。析大量网页的内容,自动对搜索结果进行分组和分类,为用户提供丰富,直观的结果。接的社交化将社交元素引入搜索引擎。于网络社交网络目前形成了一个巨大的深度网络(对于网络爬虫),这些数据对搜索引擎等搜索引擎非常重要和有用。户获取信息的主要渠道可能需要非常活跃和新鲜的数据资源。
  于社交数据包含许多数据之间的潜在链接,因此基于社交数据的群集搜索应更好地满足用户的个性化需求。域的多样化,多元化和集成集群的集成将是新集群研究的重要特征。限于单个应用程序域的群集搜索难以适应,宁波网站优化跨域群集将是未来群集研究的主要挑战。束语随着Web 2.0的快速发展,网页数量不断增加:为了使网民更方便,更快地获取所需信息,群集搜索代表了搜索引擎的发展方向重要的。着集群搜索引擎算法和数据源的逐步完善,集群搜索引擎技术将得到迅速发展和应用。
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波网站seo优化  宁波seo优化公司  宁波网络seo公司  宁波谷歌seo  宁波seo排名