搜索引擎如谷歌,雅虎和百度,它现在占据世界市场的份额显著仍有一些实用的工具,因为它们总是受到传统的Web,需要精确的关键词研究和处理自然语言。量非常低。义Web(SW)的呈现,研究和开发为搜索引擎带来了新的希望。于语义Web的智能搜索引擎是下一代搜索引擎的必然选择。键词:汉语词汇分词;蜘蛛网; XML; Web本体语言(OWL);资源描述框架(RDF)中图分类号:TP393文献标识码:AA文章编号:1009-3044(2008)14-20840-02当前状态引擎是搜索关键词的准确性至关重要,管理自然语言的能力很弱,整合来自不同来源的信息的能力很弱,不利于弱势群体。
如在研究领域工作的科学家经常说的那样,只有5%的研究问题得到解决,而我们还没有使用10%的研究潜力。索引擎的工作原理搜索引擎系统架构从Internet分析Web。Web机器人是机器人程序,可以自动从Internet扫描HTML页面并浏览其他网页以及网页的所有URL。复此过程并收集您在服务器上爬网的所有页面。络蜘蛛在搜索引擎中占据重要位置,影响搜索引擎的搜索和验证,并确定搜索引擎的数据容量大小。蛛的质量直接影响搜索结果页面(链接)的非活动链接。线页面的数量不再存在。何进一步提高蜘蛛爬行速度以及识别和处理死链,孤儿等的能力是Web蜘蛛需要改进的所有问题。引数据库分析该程序的索引系统收集的网页,并提取网页中的相关信息(包括网页的URL,编码,内容关键字的类型在页面的内容,关键字的位置,生成时间,大小和与其他网页的链接)。
大量的复杂的计算是根据一个相关算法和每个网页的页面的每个关键字的内容和超链接的相关性(或重要性)进行获得,则使用相关的信息建立网页索引数据库。
当用户输入的关键字的搜索索引数据库中搜索,搜索请求被打破,搜索系统程序找到对应的关键字数据库中的所有相关网页网页索引。搜索结果进行排序所有关联的网页关键字的相关信息保存在索引库中。将相关信息和网页级别组合以形成相关值,然后进行排序。关性越高,等级越高。后,页面生成系统组织搜索结果的链接地址和页面内容的摘要,并将内容返回给用户。语中文分词以词语为基础。词和单词用空格分隔,而中文用单词表示,句子中的所有单词可以组合起来描述意思。如,英文短语“河南师范大学”是中文:“河南师范大学”。算机可以很容易地知道,“正常”是位于附近的空间词,但它是不容易理解,可以将“老师”和“粉丝”组合来表示一个字。字的顺序分为有意义的单词,即汉语单词的片段,有些人也称为单词抑制单词。“河南师范大学”,分词的结果是:“河南|老师|大学”。以看出,语义划分的相关性与搜索引擎的搜索结果直接相关。
义Web语义Web(SW)由互联网创始人Tim Berners-Lee提出,他是W3C的创始人。标是使计算机在语义上可以理解Web上的信息,并使计算机能够制定基于语义的判断。SW中,信息具有明确的含义,机器可以自动处理和集成Web上可用的信息。义Web使用XML来定义自定义标签格式,并使用RDF的灵活性来表达数据。义Web的基本结构在图1中示出的语义Web工作流程示于图2.两个用于开发语义Web重要技术是准备就绪:XML(可扩展标记语言)和RDF(资源描述框架)。XML允许每个人创建自己的标签来注释网页或页面的一部分。允许用户向文档添加任意结构,但没有必要解释这些结构的含义。义由RDF表达。RDF中的代码包含一组三元组,每个三元组与主语,动词和句子的对象非常相似。RDF中,文档中的声明通常是一个值的某些属性(另一个人,另一页)(如“是一姐”的东西(人,网页或其他),“是作者” )。
种结构是描述机器处理的大量数据的一种非常自然的方式。于web的ISE原型语义ISE原型原型在图3中示出的XML(可扩展标记语言)XML包括XML元数据文件,模式文件,XSLT显示文件,XLink的,XPath的和其他相关项目,但对于计算机以外的用户,您只能查看其元数据文件。XML的主要特点是开发的灵活性。于其数据和格式是分开的,因此不再局限于HTML文件中的标准TAG。还支持Unicode格式,因此您可以使用中文标签。


RDF(资源描述框架)RDF是一个处理元数据的XML应用程序。家都知道,资源描述关系到一个域和一个应用实例,一本书的描述是从一个网站的描述不同,也就是说,这些描述不同的资源需要不同的词汇。此,RDF规范没有定义用于描述资源的词汇表,而是定义了当每个域和应用程序定义用于描述资源的词汇表时要遵循的规则。RDF还提供资源描述的基本词汇表。
着RDF,您可以使用自己的词汇来描述所有ressources.En由于采用结构化的XML数据,搜索引擎可以理解元数据的确切含义,
宁波seo优化这使得搜索更加智能化,准确,经常避免使用当前的搜索引擎。
回无关数据的情况。于XML和RDF来说,本体是不够的,因为对XML中的标记和RDF中的属性集没有限制。如,XML可以使用“Tom”来表示Tom是教师,RDF片段“Ora Lassila”描述了网页的创建者。面的作者和创作者可以被Writer取代。于XML和RDF中缺少“单词多义词”和“单词多个单词”,因此产生了本体。体通过定义概念和概念之间的关系来确定概念的精确含义,并且可以表示公认的和可能共享的知识以解决上述问题。是在语义层面解决Web信息共享和交换的基础。此,OWL具有比XML,RDF和RDF Schema更多的表达语义的机制。点是本体必须涉及建模期间的现场专家,这相对更严格和困难。在语义Web中的应用才刚刚开始,但未来是有希望的。
论任何搜索引擎的最终目标是为用户提供最准确,完整且快速的对他们besoins.En这个意义上说,基于ISE-语义Web的研究和发展应该是必要和迫切。旦他的研究进展,其应用前景是不可估量的:想象一下,如果在互联网上的信息资源具有以下含义:应用程序可以理解,如果信息资源的处理将实现自动化和智能化。这样能够有效地管理大量在特定领域积累的信息资源,让用户知道它到底是一个搜索引擎:如果有一个搜索引擎的基础上,信息资源领域知识的意义,分散在各种异构系统中的相关信息将被轻松快速地合并,并呈现给用户他们将会是什么样子!人类知识基于两个基础:语义学和数学。数字计算方面,计算机远远超出人类,下一步将是帮助他们理解和掌握语言逻辑。文本传输协议(HTTP)和超文本链接技术的基础上使用网页连接在互联网上,形成二维超文本应用技术开发。义Web,从语义学,不仅网页和互联网的所有内容导出的沟通,但也带来了互联网维到三维。布。此,为语义Web构建智能搜索引擎是下一代搜索引擎的必然选择。
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波seo外包
宁波seo优化公司
宁波网站排名优化
宁波网络seo公司
宁波网络seo