宁波seo优化专栏

宁波网站优化:搜索引擎中的多语言信息检索应用

发布时间:2019-03-11 00:19:01

  本文件简要介绍了最近国家和国际多语种信息检索在搜索引擎中应用的必要性,重要性和现状。突出了应用程序的缺点和缺陷,并提出了改进建议。
  后,正在探索搜索引擎中多语言信息检索应用的趋势。键词:在语言之间搜索信息搜索引擎的呈现CLIR语言之间的信息搜索(CLIR)指定语言的用户(通常是他们的母语)提出问题,咨询一个或多个其他人。于搜索由语言描述的信息资源的信息的技术和方法。CLIR中,用户表达自己的信息需求,构建搜索查询所使用的语言称为源语言,检索到的信息资源使用的语言称为目标语言。Web用户主要通过搜索引擎检索信息以实现其目标。于中国,CNNIC最新的“第25次中国互联网络发展状况统计报告”显示,截至2009年12月31日,中国互联网用户数达到3.84亿。

宁波网站优化:搜索引擎中的多语言信息检索应用程序_no.130

  前,搜索引擎用户数为2.8亿,年增长率为38.6%。
  索引擎利用率为73.3%,比2008年提高5.3个百分点,超过即时通讯,成为互联网用户使用的第三大应用互联网[1]。而,网络资源语言的多样性和多样性已经成为网络用户访问信息的巨大障碍。络信息语言的分布和网络用户的语言分布不均衡。Internet World Stas称,截至2009年12月31日,全球超过18亿互联网用户使用的语言为:英语27.7%,中文22.6%,西班牙语7.8%,日语5.3 %,葡萄牙语4.3%。语4.0%,宁波网站优化阿拉伯语3.3%,法语3.2%,俄语2.5%,韩语2.1%和其他语言17.2%。然作者没有找到近期网页使用的语言报告,但据Netcraft统计,2010年6月全球有超过2亿个网站[2]。据第25次中国互联网发展统计报告统计,中国网站数量仅为232万,比例略高于10%。此,CLIR是全球知识共享的关键要素,也是跨地理和语言边界访问信息的技术需求。外,互联网用户需要CLIR工具来搜索,检索和学习任何语言和任何形式的信息[3]。
  索引擎中多语言信息检索应用程序的状态搜索引擎分为单语搜索引擎,多语言搜索引擎和多语言搜索引擎。主要是信息检索和机器翻译领域的知识,但并不是这两种技术的简单融合。语言集成搜索引擎为通用搜索引擎添加了两个功能:不同语言问题的翻译以及搜索引擎中不同搜索结果的集成。语种搜索引擎,在德国和国外。多数传统的外国搜索引擎通常具有多语言搜索功能,例如Google,Yahoo! ,AltaVista和ixquick等此外,研究结果函数的翻译是CLIR技术不可或缺的一部分,是检查CLIR是否成熟和有用的重要指标。[4]此外,Google和AltaVista还可以实现网页翻译,极大地方便了用户浏览网站。如,AltaVista的Babel Fish可翻译多达10,000个个人网页当用户点击链接时,链接的网页会自动翻译。有CLIR功能的中文搜索引擎较少。作者所知,只有Yahoo!的遗产!雅虎中国搜索。外,搜狗还有在线翻译功能[4]。持的语言数量。
  Google翻译目前支持52种语言之间的任何翻译,Yahoo!也可以将网站上的文字或文章翻译成13种语言,Al​​taVista可以翻译成19种语言。而,大多数宣传CLIR的搜索引擎实际上都是多语言搜索包,只有谷歌翻译才是真正的多语种搜索引擎。将始终是CLIR发展的重要方向[5]。程。语言搜索引擎工作流程可以总结如下:用户将搜索项提交给系统以形成源语言的搜索语言。统识别搜索公式中的语言,并在语言识别后执行词法分析和基于查询的结构分析,然后将分析的搜索模式转换为不同语言的搜索样式。后,将这一系列搜索公式提交给系统进行检索。后,系统将检索到的结果返回给用户。歌翻译在其帮助文档中说:“谷歌翻译是一个自动翻译,也就是说,它不受人为干预,它被先进技术所取代。前用途机器翻译系统开发了一种基于规则的方法,需要大量的工作来定义词汇和语法。们的系统使用不同的方法,我们为计算机提供数十亿字的文本并包含文本嵌入目标语言和由不同语言之间的人工翻译实例组成的对齐文本。后我们应用统计技术来构建翻译模型。可见,与传统的基于规则的方法不同,策略谷歌翻译是基于语料库。
  法它使用统计方法来分析和推广语言现象和大规模语料库法,然后使用由此产生的统计规律或语言模型来处理自然语言。是,在实际使用中,效果并没有太大差异。线搜索引擎翻译工具无论搜索引擎是否具有多语言搜索功能,它们提供的翻译资源的多样性也是一种重要的搜索工具。了可用的不同词典外,还有几种在线翻译工具。外,由AltaVista提供的在线翻译工具Babel Fish可以翻译长达150字的文本。Sogou Treasure Box的在线翻译也可以用作字典和翻译测试。充分和改进的建议多语种搜索引擎现在处于上升状态。
  以也存在很多差距和缺点。解它们的位置并提出改进建议是推动CLIR向前发展的实用方法。语言搜索引擎不足从实用的角度来看,CLIR技术取得了很好的进展,但即使是最好的CLIR系统的性能仍然不同于成熟的单语搜索系统。

宁波网站优化:搜索引擎中的多语言信息检索应用程序_no.153

  现实世界中,多语种恢复系统及其相关工具仍然非常罕见,现有技术仍远未达到其实际应用[6]。交互性方面,大多数多语言搜索引擎不能与用户很好地交互。语言搜索引擎在搜索结果中显示相邻和相关的词汇特征,这在多语言搜索引擎中不可用。迫切需要消除歧义的情况下,搜索引擎的交互性更为重要。

宁波网站优化:搜索引擎中的多语言信息检索应用程序_no.191

  准确性方面,由于使用商用机器翻译系统,多语言搜索引擎和在线翻译工具的翻译准确性显然无法满足用户的需求,尤其是翻译具有复杂语法结构的文本。CLIR的真正含义应在文档层面进行翻译。译准确性差通常会导致用户难以理解搜索结果。灵活性方面,传统的基于规则的方法不够灵活,很容易忽略语言的小规模经验知识,很难涵盖各种复杂和语言现象。进建议使用查询扩展加强多语言搜索引擎的系统交互性。
  多搜索术语翻译成双语词典并不是唯一的,这些翻译所表达的含义有时会非常不同。询扩展包括一旦用户输入搜索问题并开发用户的搜索查询就采用某种策略。样,可以提高搜索结果的召回率。时,需要一种反馈机制来改进CLIR系统。强对企业机器翻译软件的研究,提高机器翻译质量。
  CLIR中,解决语言障碍的基本方法是两种语言之间的翻译,所有翻译方法都与机器翻译,双语词典,语料库等不可分割。为翻译的语言基础。常在商业中使用的机器翻译软件通常质量差。已成为限制CLIR在搜索引擎中广泛使用的关键因素。此同时,需要从限制性的基于规则的战略转向基于语料库的战略。强网络语料库的建设。料库是大量文本的集合,由对应的两种语言的材料组成。
  过创建语料库,收集大量单语或双语语料库和词典,可以获得语言知识和翻译知识。一方面,有必要克服由于Web资源的多样性,数量众多,涉及的语言数量众多以及通过版权保护Web资源所带来的困难。论CLIR研究非常活跃,并给出了结果:在90年代末,一些实验性CLIR技术在20世纪80年代末被引入[7]。而,经过十多年的发展,多语种搜索引擎仍然很少见,结果也不尽如人意。
  而,随着网络的发展,信息技术的进步和CLIR技术研究的深入,CLIR技术在未来可以广泛应用于搜索引擎。今,鉴于垂直跨媒体搜索引擎的发展,CLIR内容将不再局限于文档检索,而是将扩展到多语言图像检索,语音检索之间语言,跨语言视频检索和交互式多语言搜索多语言问答系统,发现和跟踪新的多语言主题。
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波网站seo  宁波网站优化推广  宁波网络seo  宁波seo优化公司  宁波谷歌seo