宁波seo优化专栏

宁波seo:谷歌搜索引擎架构搜索

发布时间:2019-02-28 00:18:14

  作为全球最成功的在线销售公司之一,谷歌以其庞大而快速的搜索引擎而闻名。很少有人知道如何将数以万计的PC组织成一个功能强大,可靠且可扩展的分布式系统。文简要介绍了Google,GFS,MapReduce和BigTable的主要背景架构。
  [关键词] Google GFS MapReduce BigTable谷歌解决网络的问题非常巨大,并且呈指数级增长。Web上有不同形式的资源:需要非常快速地搜索Word,HTML,PDF,ASCII和图像以供用户等待。同的民族有不同的语言,需要不同的分词方法。
  系统每天能够支持数亿次搜索。过显示用户最需要的信息来优化排序结果的规则。歌的分布式设计结构谷歌的分布式设计是建立在成千上万台计算机上的精湛设计。
  歌在设计系统的早期假设了成千上万的复杂系统结构:“机器会有问题。 “让机器出错,但机器应该自动忽略或自动解决这些问题。
  图1说明了Google分布式设计的基本结构。取一些URL服务器:存储作为要探索的对象的URL列表。Crawler:一组用于并行恢复的机器人。个机器人都有自己的DNS缓冲池,可以同时打开多达300个网络连接。储服务器:压缩并存储机器人扫描的网易。储库:包含每个页面的所有信息,每个文档都标记为docID,长度,URL。引器:解压缩文档,扫描每个文档,并将连接存储在锚点中。点:专门存储分析的新连接。URL解析程序:将相对路径URL转换为绝对路径的URL。中,存储库是压缩存储,压缩比一般大于60%。Resover索引部分URL:将绝对路径URL映射到docID并将其存储在文档索引中,以及桶中的锚文本。引器:分析文档并将反转的数组分发到条形图。:存放倒置的桌子并对倒置的桌子进行分类。典:内存中的哈希表,最左边的元素是wordID,最右边的元素是指向需要反转的表的指针。拣机:创建倒排索引。复一些桶:包含两个不同的桶。桶仅包含标题和连接的反转列表,而倒置列存储所有内容的反转列表。Seacher:首先,将用户的搜索词发送到Lexicon,找到相应的桶,然后搜索桶。果它被检索,它将返回docID,然后将这些docID返回到Doc Index以获得最终结果。Google文件系统每个操作系统都有自己的文件系统,例如FAT32,NTFS,这在Windows上很常见。

宁波seo:谷歌搜索引擎架构搜索_no.75

  EXT2,EXT3 Linux的然而,GFS(谷歌文件系统)是一个分布式文件非常特殊的,可扩展的系统访问大量数据的大型分布式应用程序。
  特的功能提供连续监控,宁波seo错误检查,容错技术和自动响应。户可以从更好的服务中受益。
  GFS包含了大量的数据:在一般情况下,一个文件包含几个GB和数据集通常可以有多个对文件操作不能按照正常的块大小来进行..否则,将触发I / O锁定。此必须重置块的大小。GFS每个块具有大小为64 MB的MapReduce的搜索引擎进程索引期间必须处理大量的数据,并产生更多的新的数据。

宁波seo:谷歌搜索引擎架构搜索_no.66

  分布式环境中,数千台计算机都可以工作。就是MapReduce需要在如此广阔的环境中工作的原因。
  体问题解决了。BigTable的包含在谷歌架构许多半结构化数据,例如URL,内容,元数据,链接,锚,PageRank的设计,可以在被执行的数据库存储结构分布式环境。BigTable的。外,还有用户数据,用户偏好数据,查询结果/恢复以及近期的地理位置信息,如商店,餐馆,道路,卫星图像,用户评论等。据的大小是巨大的,有几十亿的网址,每超过100 TB的第二和卫星图像数据的请求十万。比商业数据库,数据仍然过于笨重和成本太贵了。己设计底层函数以提高性能始终非常有用。了BigTable的,程序员操纵建立在服务器数以万计的数据库,就像如果你使用一个本地数据库,完全无视它封装背后的潜在交易。布式计算。GFS提供的数据和灾难恢复的操纵质量的可靠和廉价的手段,MapReduce的提供GFS和Bigtable的数据操作的便捷方式,和Bigtable的数据库提供了相对于交易特征的商业数据商业数据库。有更高容量和吞吐量的半结构化数据存储和访问功能。三者的有机结合构成了Google后端架构的核心。
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波谷歌优化  宁波谷歌seo  宁波seo排名  宁波seo外包  宁波seo推广公司