宁波seo优化专栏

宁波seo:基于语义技术构建搜索引擎平台的可行性

发布时间:2019-02-07 00:20:38

  第一步,分析当前主流搜索引擎遇到的问题,宁波seo然后将语义技术应用于国内和国际搜索引擎,然后将语义技术应用于存储技术,恢复技术,数据库技术和分词算法。行性[关键词]语义技术,搜索引擎,语义搜索引擎,搜索引擎技术[中国图书馆分类] G254.928 [文献标识码] A [文章编号] 1006-6041(2011)06 -0007-04随着Internet的快速发展,各种信息资源通过网络传播,用户可以在他们需要的信息的海洋中找到什么样的技术策略或手段来完成这项工作。家和专家的研究,因此基于分类关键字搜索工具已经出现,它们的外观对于使用网络信息资源的用户非常有用。而,由于技术和计算机知识的普及,网络的信息资源爆炸式增长,目前的搜索工具无法满足用户的需求。1998年,为了应对互联网漏洞,Web创始人Tim Bemers-Lee首先提出了“语义Web”的概念及其技术背景,从而揭示了语义Web的基本思想。Web上的信息具有计算机可理解的语义,满足智能软件代理的有效访问以及在WWW上恢复异构和分布式信息。义技术的心脏是为了纪念万维网上发布的语义信息,使机器能够理解这些数据的含义,并最终实现巧妙的推理和信息自动化处理。此,搜索结合语义技术和搜索引擎技术的智能搜索引擎是非常迫切的。前,随着社会经济和计算机技术的发展,社会信息量大大增加:为了促进信息的交换和获取,已经创建了一个搜索引擎。是按目录或关键字搜索。用户提供网络获取信息非常方便,使网络在人们的生活中越来越重要,网络上的信息也在不断增长。年来,专家和公司一直在研究研究技术和研究策略并取得了很大进展,但鉴于网络信息量的迅速增加,这一进展很小。
  渐出现了。当前用户使用的角度来看,搜索引擎存在以下缺点:1)随着网络技术的发展,出现了网站建设的新技术,并引入了一些新技术。站在互联网上也很受欢迎。如阅读视频资源等新技术的出现直接给传统搜索引擎带来了问题。2)网络上更新页面资源的速度大大加快:现在几乎每家公司都有自己的网站,几乎每天都会更新新信息。此同时,建立新的在线社区已经允许许多用户创建个人主页。
  息的速度越来越快,大量的信息给搜索引擎的Crawler系统带来了新的挑战。3)网络信息的异构性更为重要。于网络技术的发展,可以在网络上发布信息的用户组已经发生变化。前,该单元是主要组,并被转换为目标用户组。样传播的信息更难以从格式中控制,结构类型也经过轻微修改,增加了信息的异质性,这对搜索引擎的索引技术提出了新的要求。4)动态生成技术,数据库技术的广泛应用,使网络的很大一部分网络从静态到动态。据库中的代码会自动在网站上生成大量信息。此,没有很好地确认网络资源的实际URL和资源的数据,这极大地使搜索程序复杂化。5)由于网络上存在大量信息和不准确的部分信息,因此恢复中存在不小的错误。旦用户输入关键字,搜索引擎检索的数据量非常重要,而某些用户实际需要的数据可能无法将其放在前面。幕和用户没有耐心看待它,因为最终搜索的噪音对其使用有重大影响。义技术搜索引擎平台研究现状主要涉及国外研究的理论。1998年和1999年以来,NEC美国研究所的Steve Gile和C,Lee Giles撰写了关于自然与科学搜索引擎的文章。技术研究进行了评述。所周知的信息检索会议TREC自1998年以来还添加了Web Track主题,以检查Web文档和其他类型文档的性质差异,并在大型Web库(如GB)。索信息的算法的性能。美国信息公司主办的搜索引擎问题国际会议自1996年以来,总结,讨论并欢迎的搜索引擎技术,每年举行一次,在促进技术起到了很好的作用搜索引擎。EIEE还组织有关人机交互的国际​​网络会议和会议。后,伯纳斯 - 李,语义网的想法已经提出:专家和专家开始应用语义Web搜索引擎的想法,以改善和优化搜索性能。要文件是Boulos,Maged N,Kamel,2004,“D-Lib Maga的ALVIS-Superpeer语义搜索引擎”的“健康第一眼网络图:语义子对象搜索引擎” Zine,Schenkel,2005年。尔夫; Theobald,Anja; Wei-kum,Gerhard“使用XXL搜索引擎对半知情数据进行语义相似性搜索”,李玉飞;袁旺; “基于语义Web中的关系的搜索引擎”等。义研究文章。些技术包括:在1990年,彼得AlanEmtage和Deutseh BillWheelan,学生在蒙特利尔的麦吉尔大学开发了一个程序,可以自动索引文件在互联网上匿名FTP站点:阿奇(ArchieFAQ),第一个这样的引擎研究。后转到Yahoo目录搜索引擎,Google关键字搜索引擎。今,RDF技术已广泛应用于Ng-lyauot版本的Mozilla浏览器以及Netscpae浏览器版本407或45+,它允许智能浏览并帮助用户浏览网页与导航内容相关的其他信息。FourthoughtInc,Inc。专门为企业知识管理应用程序提供XML解决方案的软件开发和咨询公司,它开发了4Suite,一个用于XML,RDF和知识管理应用程序的开源平台,以及知识管理解决方案。现从XML数据中提取RDF数据,并提出一种基于RDF的简单语义搜索功能。斯坦福大学,微软和W3C联合开发的TAP也是一个基于语义Web的语义搜索引擎。国家相关的研究在技术领域,清华大学,北京大学和国家情报研究中心等大学和研究机构对搜索引擎技术和开发了几个改进系统。如,由北京大学网络研究实验室开发的中英文搜索引擎“天网”。规模和系统性能方面,IT已达到中型国外搜索引擎系统的技术水平。为第二代智能全文搜索工具,Google可以检索网页的全文。度目前是中国最大的搜索引擎。用超文本链接分析技术,它不仅可以分析索引页面的内容,还可以分析该页面的所有链接的URL,AnchorText,甚至是它周围的文本。2002年以来,中国在“十五”期间将语义网技术和本体列为计算机技术的主题。

宁波seo:基于语义技术构建搜索引擎平台的可行性研究_no.74

  家自然科学基金,Ontology Guided Semantic Web-based Product Information Infrastructure,使用XML形式化基于知识的产品信息模型数据并创建语义Web上的产品信息基础架构。俊峰的基于本体的信息检索模型使用描述逻辑构建本体,使用本体来语义标记文档,生成逻辑文档视图,以及用户信息需求的逻辑视图。在恢复过程中实现真正的语义对应。义恢复。少友教授提出并设计的“以文档为中心的上下文恢复研究”也属于语义检索的范畴。义技术应用于搜索引擎可行性分析结合语义技术和信息存储技术目前,RDF数据存储基本上有两个选择:以XML / RDF格式存储文件是一种可行的方式考虑到可伸缩性,查询模式,效率和许多其他因素的事实数据是存储RDF事实数据库的一个很好的选择。RDF数据库或关系数据库。
  义技术和恢复技术的结合使得能够通过对应进行语义检索并扩展用户查询关键字的语义相关性,然后形成符合查询语言的查询语句。
  现语义检索的特定知识本体,例如:SELECT?一个SELECT(HTTP :. //127.0 0.2 /米兰#动物,松鼠),但由于这种形式比较复杂,你可以设计一个语义搜索代理分析用户输入的关键字,查询代理接收用户输入的关键字并将其发送给相应的代理。据知识本体和语义字典,对这些关键字进行比较和分析,然后构造适合于搜索的新搜索查询或新查询短语,并返回搜索公式。过程实现语义匹配过程。而,为了获得更多信息,有必要根据本体或语义字典以相关方式对入口请求进行推理。理过程非常聪明。如,在搜索过程中,没有找到松鼠。个关键字,但松鼠喜欢吃松子。此,当检索山墙时,该页面也可以与关键字“squirrel”相关联,并且推理机制还将根据情况创建新的搜索:SELECT?一个WHERE(?,Http://127.0.0.2/Milan#螺母,防松)语义技术在数据库建设中的应用我们知道,数据库建设过程包括很多表或集合,传统的描述只是描述其属性的关键字段或值,使用相似度算法执行机械匹配查询,并满足读取和删除记录的一些相似之处。珊教授和他的同事研究了基于本体的语义恢复关系数据库,分析和研究基础上的一个关系数据库的本体语义检索的问题,并指出,关系型数据库主要由两部分组成,有时称为元数据。于模式(sche-ma),如数据类型名称,表属性名称,表名,主键和外键,另一部分是实际数据,数据库的元数据是由于这种关系,密钥描述了其存储数据之间的简单语义关系。型描述功能的局限性并未完全描述数据库之间丰富的语义关系。系数据库的查询语句由SQL结构化查询语句执行。是一个特定的查询语句。询条件是精确的,并且查询的结果也是准确的,因为关系数据库只能表达数据库的有限语义。
  系,因此它们的查询的语义也是有限的,并且本体可以更详细地描述关系数据库的语义。
  着本体和语义Web技术的不断发展和应用,基于本体的关系数据库逐渐成为研究的热点。系数据库的语义可以分为两个层面:一种是语义级元数据,另一种是数据电平的语义,不同级别可用于获得不同的语义提取。文献表明,本体可以基于技术提取语义数据库的两个水平和可检索元数据或数据,识别的概念,并映射到现有概念在本体或建立一个新的学习本体论。体还可以使用来自现有本体的概念直接描述元数据数据,这两者都被称为本体注释。体注释也是关系数据库语义检索的基本技术。
  体注释是本体和数据之间的联系,以建立基于本体的语义索引。数据索引技术利用元数据技术对网络信息资源进行索引,有助于描述信息资源,减少网络信息资源的异构特征,统一索引网络信息资源符合元数据标准。这种方式,信息的描述更加详细,并且还可以反映相关数据之间的语义特征。前,DC更为常见:它使用DC的书目格式来记录和表示网络信息资源,因为它不仅允许详细描述信息资源的特征,而且还描述各种元素之间的语义关系。此,在网络信息资源索引技术中引入元数据有利于改进网络搜索引擎。义方法广泛应用于分词算法:正最大匹配方法,最大逆匹配方法,专家系统分析方法,高频优先级方法,自动字典分词方法,方法网络传输分割,神经网络等单词的分割方法。
  而,上述所有分词方法都会有一定的错误率,因此我们需要将语义技术引入分词算法中,以提高分词的准确性。种思维方式基于中国人的特点及其自身的规律。们可以考虑从中文单词构成规则中解决这些问题,如特征,这是自动分词研究的一个新方向。外,在处理和索引数据或信息资源时,可以使用其他人工构建语言,如编程语言,逻辑语言和数学公式。
  用受控语言和自然语言。些人工语言与自然语言相同:它们都有自己的语法规则和相当多的符号。们可以根据它们的特征总结它们的构成规则,并将它们整合到语义词典中。体论用于描述他们的关系。了便于中文分词的自动计算机处理,有必要对当前分词方法的转换进行以下三个方面的处理:首先,在中文文本的单词和单词之间加入适当的分隔符。
  段,即定义分词标记。样,通过建立分词标记,便于处理分词,大大提高了效率;二是明确界定了中国的话,那就是“道”,主要允许解决两个问题,词与词之间的元素和短语或成语之间的差别单词(句子),第三是用中文制定完整的写作规则。些必须在生成中文文本之前执行,这可以从实现的技术条件实现,这节省了大量精力来分割预处理文本。论基于语义技术的搜索引擎平台的建立是一个新兴的研究课题,旨在使信息用户能够在大量信息中准确地找到他们所需的信息。义技术可以在构建过程中使用。用于信息描述,信息存储,信息检索和信息输出。
  内外已有一些研究成果,语义技术的搜索引擎平台已经建成,但大多数仍处于实验阶段,存在许多重要的技术问题。没有解决。者认为,数字资源的语义描述,汉语词的分词技术,语义检索的方法和出口的顺序是当前进一步研究的需要。
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波网站排名优化  宁波网站优化推广  宁波谷歌优化  宁波seo排名  宁波seo优化公司