随着Web的不断发展,拥有快速高效的信息检索系统变得越来越迫切。文分析了网络搜索的基本技术 - 搜索引擎,找出影响其恢复效果的技术瓶颈。全面回顾搜索引擎发展的当前趋势的基础上,指出了网络搜索引擎发展的未来方向。键词:搜索引擎;详细的网页;垂直搜索中图分类号:TP311文献标识码:A。介随着网络技术的发展,网络搜索引擎已经成为一个巨大的全球信息空间和最实用的信息检索工具近年来已经发展起来。联网上有很多搜索引擎,如AltaVista,雅虎,百度,新浪,天网等。是,大多数搜索索引索引的网页数目前是表面页面。研究,深度网页[1](深度网页),如:需要输入授权的网页和网络数据库。询和呼叫转发页面,网络图像,音频,视频和其他多媒体文档以及各种格式的文档,软件等,大约是可见网页大小的400到500倍。此,搜索这些深度网页已成为现代网络搜索引擎发展的重要课题。下是2010年使用互联网产品的CNNIC互联网用户比例[2]:从以上数据可以看出,今天的互联网用户越来越依赖搜索引擎,这与搜索引擎完全不可分割。其状态不断增加的同时,技术要求不断增加:不仅收集的信息量更加重要,而且还需要加快处理和处理请求以便大大取得进展。善用户体验。于这个原因,出现了许多基于网络的信息检索系统(它们可以为用户提供信息检索服务)。着名的是谷歌,雅虎,AltaVista,Infoseek等。联网用户使用互联网产品快速有效的网络信息检索系统的出现使数字图书馆,电子商务和远程教育成为一个光明的未来。而,在使用过程中,
宁波网站优化随着互联网的快速发展,网络技术的不断变化,新的网络业务已经成为新的,人们逐渐发现并经历了其局限和弱点。此,网络搜索引擎技术的发展方向已成为计算机技术和信息搜索技术库和智能研究的热点。索引擎的技术分析搜索引擎是随着网络信息的快速发展而发展起来的一种技术,它是一种解决“信息”问题的技术。索引擎利用某些策略收集和发现互联网上的信息,包括,提取,组织和处理信息,并为用户提供搜索服务,以达到导航信息的目的。个搜索引擎的具体实现并不相同,但通常包含五个基本元素:Robot,Analyzer [3],Indexer,Collector和User Interface。索引擎的技术分析也主要来自这些方面。究人员的职责是在互联网上移动,发现和收集信息。通常是一个日夜运行的搜索引擎端计算机程序。终尽可能快地收集网站上不同类型的新信息,并定期更新已收集的旧信息,以避免非活动链接和无效链接。前有两种收集信息的策略。(1)从一组起始URL,按照这些URL的超文本链接,以广度,深度,深度或启发式方式定期发现Internet上的信息。(2)网站空间按国家/地区名称,IP地址或国家/地区域名划分。个研究人员负责在子空间中进行全面搜索。析器使用某种策略来理解,提取,组织和处理研究人员从因特网收集和发现的信息,并向用户提供检索服务,从而起到导航信息的作用。据信息收集方法和服务提供方法,搜索引擎系统可以分为三类:目录搜索引擎,机器人搜索引擎和元搜索引擎。引器的功能是从搜索者寻求的信息中提取索引项,并建立索引表以表示文档并生成文档库。引项具有两种类型的目标索引项和内容索引项:目标索引项不链接到文档的语义内容,例如项的名称。者,URL,更新时间,编码,长度,链接的流行度等。映文档的内容,例如关键字及其权重,短语,单词等。容索引元素可以分为单个索引元素和多个索引元素(或短语索引元素)。个索引元素是英语的英语单词,由于单词之间有自然的分隔符(空格),因此更容易提取;对于连续写入的中文等语言,必须对单词进行分段。索者根据用户查询的需要快速从索引库中检索文档,评估文档与查询的相关性,根据特定规则对要显示的结果进行排序,并将信息返回给用户。
户。究人员常用的研究信息模型包括四种类型的集合理论模型,代数模型,概率模型和混合模型。户界面的作用是捕获用户请求,查看查询结果,并提供有关用户相关性的反馈机制。要目标是使用户能够使用搜索引擎高效,有效地从中获取有效的多模式信息。户界面的设计和实现使用人机交互的理论和方法来完全适应人类的思维模式。索引擎的技术瓶颈面对新技术和网络发展的新形势,搜索引擎的难点主要涉及研究和分析技术,特别是以下几点:1)负责同步数据采集,如果它们同时进行,对于所有收集者合作,不会重复采集。2)解决所收集数据的权重,只收集网站更新的数据。3)对于需要cookie数据的网页的收集,一些网站必须通过cookie数据连接到网站。4)通过识别码解决自动验证的问题,一些网站拒绝对密集访问请求进行技术处理。5)解决内容捕获技术,如flash,JS,视频。前,搜索引擎无法详细提取上述内容,并且内容的性质只能基于内容的文本描述来确定。6)存储大量数据也是一个难点。

歌的存储据说是一种自己开发的架构。不使用任何数据库。于数据库效率的损失,您可以使用数据块模式然后切换到哈希表模式。接。

7)内容管理系统(CMS)的出现满足了用户创建,发布和更新网站的需求,而无需了解该技术。幸的是,很少有人对搜索引擎非常友好。容管理系统可以使得搜索引擎优化对于站中的各个页面的标题和其他元标识优化更加困难。8)提高捕获信息的数量和速度。联网是一个动态内容网络,每天都会更新和创建无数页面。要向用户展示互联网上最新信息的搜索引擎必须不断分析互联网上的最新更新。9)确定用户的意图及其智能开发,并判断用户的意图和智能。于搜索引擎[5]的技术指标的发展与评估系统的最终评估直接相关,不合理的指标将导致对系统的不合理评估,因此标准化评估会议非常谨慎至于评估指标的选择。一个常用的评估指标包括Accuracy,Recall,F1等。义是:回调率=系统检索的链接文件数/相关文件总数=系统检索的相关文件数/系统返回的文件总数当然,召回率检查系统找到完整答案和准确率的能力,以及系统找到答案的能力,它们相互补充并从两个不同的角度反映系统性能。F1是结合精确度和召回率的指标。于不同系统的准确度和召回率在某些情况下不同,因此直接比较是不切实际的,F1值可用于更直观地对系统性能进行排序。着测试集的扩展和对评估结果的更好理解,逐渐出现了更准确地反映系统性能的新评估指标,包括:(1)平均准确度(MAP):给定主题的MAP是:恢复后每个相关文档的准确度的平均值。试者集合的MAP是每个受试者的平均MAP。MAP是一个单值指示器,可反映所有相关文档的系统性能。(2)Precision-R:给定主题的精度-R是检索R文档时的准确度。中R是测试集中与主题相关的文档数。试者组的精确度R是每个受试者的精确度R的平均值。(3)P @ 10 [4],P @ 20:P @ 10是本主题返回的前10个系统结果的准确度。于用户搜索搜索引擎结果,他们通常希望在第一页上找到他们需要的信息(通常是10个结果)。此,这种拟人指标的定义往往更有效。映系统在实际应用环境中的性能。
索引擎的发展方向已经掌握了搜索引擎规则,并打入了网站的生命线。来搜索引擎的未来发展方向是未来搜索引擎主要在以下方向发展的方式。然语言研究[7],理解自然语言是计算机科学中一个引人入胜和激发灵感的学科。计算机科学尤其是人工智能的角度来看,理解自然语言的任务是建立一个能够给予,理解和回应自然语言作为人类的计算机模型。于自然语言理解技术的新一代搜索引擎,我们称之为智能搜索引擎。于它改进了基于知识(或概念)层面的关键词从当前层面检索信息,并具有一定的理解和知识处理能力,因此可以实现一种技术。词,同义技术,概念搜索,句子识别和机器翻译。此,该搜索引擎呈现信息服务的智能和人性化特征,允许用户使用自然语言来检索信息并为他们提供更实用和准确的搜索服务。P2P搜索方向[6],P2P是点对点的缩写,这意味着点对点网络。的未来有望加强通信,文件交换和互联网分发的计算。长一段时间,习惯于互联网的人都专注于服务器,向服务器发送请求,然后浏览服务器响应的信息。P2P中包含的技术是允许联网计算机交换数据,但数据存储在每台计算机上,而不是存储在昂贵且易受攻击的服务器上。络成员可以在网络数据库中自由搜索,更新,响应和传输数据。个人都分享他们认为最有价值的东西,这将大大增加互联网上信息的价值。媒体研究方向,多媒体搜索引擎,随着宽带技术的发展,未来互联网是多媒体数据的时代。发寻找图像,声音,图像和电影的搜索引擎是一个新方向。家瑞典公司开发了一种名为“第五代搜索引擎”的动态和声音多媒体搜索引擎。像和视频很快就会将文本替换为互联网上的主要信息。Vertical Search [8]是一个垂直搜索引擎,通常通过统一平台收集和组织有关行业网站的关键信息,集中在某个行业。供研究服务。技术方面,由于搜索技术类似于谷歌和百度等传统搜索引擎所使用的搜索技术,在信息检索和个性化搜索方面更具优势,搜索引擎垂直搜索不仅提供通用搜索和最大速度的优势。还具有许多优点,例如更好地了解行业,接近用户,更专业的查询,更准确的结果等,使相当多的用户行业可以迅速聚集起来。使得垂直搜索近年来成为互联网创业的热点。论搜索引擎作为在线获取信息的重要工具,一直受到广泛关注。论搜索巨头GOOGLE互联网,YAHOO,还是全国百度,搜狐,以及新搜狗搜索,每个搜索引擎的引入都引起了很多关注。起的人,善的人,可能抓住机会的人。规则不仅对搜索引擎有效!参考文献[1] ugmbbc。Googlebot已开始检索该网站的详细内容。Http://www.cnbeta.com/articles/53408.htm。2008-04-13 [2]。CNNIC:第一个应用程序中的搜索引擎超级音乐网络。Http://msn.chinabyte.com/894128/467918543507.shtml。2011-01-19 [3]李振龙。上信息搜索发展策略的技术分析与研究。庆:信息学。2006,(4):181-184 [4]马云龙,林元,林鸿飞。于SimRank方法的加权标准化查询扩展技术研究。京:中国报纸。
2011(1):28-34 [5]罗卫华,刘群,张俊林。索引擎技术:性能改进遇到瓶颈。Http://news.ccw.com.cn/produ/htm2006/20060810_202536_4.htm。2006-08-10 [6]刘晓敏,施银龙。索基于P2P网络的信息。京:北京工业职业技术学院学报。2009(4):17-19 [7]龚玉棠。析网络信息检索技术的现状,瓶颈和趋势。京:情报杂志。2004(5):75-77 [8]陈祝民。直搜索引擎主题分析技术研究。南:山东大学。2005年"
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波seo外包
宁波网站排名优化
宁波谷歌seo
宁波seo哪家好
宁波网站优化推广