。”
曲风说道“可以这样理解。”
这个东西解释起来很麻烦,曲风没有时间给他科普。
谷歌的老三驾马车
gfs是一个可扩展的大型数据密集型应用的分布式文件系统,该文件系统可在廉价的硬件上运行,并具有可靠的容错能力,该文件系统可为用户提供极高的计算性能,而同时具备最小的硬件投资和运营成本。
其实这就是云计算的雏形了,所以说谷歌才是云计算的引领者。
apreduce是一种处理大型及超大型数据集并生成相关执行的编程模型。
其主要思想是从函数式编程语言里借来的,同时也包含了从矢量编程语言里借来的特性。基于apreduce编写的程序是在成千上万的普通pc机上被并行分布式自动执行的。
table是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到pb级数据和上千台服务器。
谷歌很多项目使用bigtable存储数据,这些应用对bigtable提出了不同的挑战,比如数据规模的要求、延迟的要求。bigtable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。
bigtable看起来像一个数据库,采用了很多数据库的实现策略。
但是bigtable并不支持完整的关系型数据模型,而是为客户端提供了一种简单的数据模型,客户端可以动态地控制数据的布局和格式,并且利用底层数据存储的局部性特征。
bigtable将数据统统看成无意义的字节串,客户端需要将结构化和非结构化数据串行化再存入bigtable。
谷歌的新三驾马车
在一零年的时候,谷歌的搜索引擎发生了重大变革。
谷歌将其搜索迁移到新的软件平台,他们称之为“caffee”。
caffee是谷歌出自自身的设计,caffee使谷歌能够更迅速的添加新的链接,包括新闻报道以及博客文章等,到自身大规模的网站索引系统中,相比于以往的系统,新系统可提供“50新生”的搜索结果。
在本质上caffee丢弃apreduce转而将索引放置在由谷歌开发的分布式数据库bigtable上。
作为继gfs和apreduce两项创新后的又一项创新,其在设计用来针对海量数据处理情形下的管理结构型数据方面具有巨大的优势。
这种海量数据可以定义为在云计算平台中数千台普通服务器上pb级的数据。
pregel在概念模型上遵循bsp模型。
整个计算过程由若干顺序运行的超级步组成,系统从一个“超级步”迈向下一个“超级步”,直到达到算法的终止条件。
drel是一种分析信息的方式,它可以跨越数千台服务器运行,允许“查询”大量的数据,如web文档集合或数字图书馆,甚至是数以百万计的垃圾信息的数据描述。
这类似于使用结构化查询语言分析传统关系数据库,这种方式在过去几十年被广泛使用在世界各地。
使用drel就好比你拥有类似sql的语言,并可以无需任何编程的情况下只需将请求输入命令行中就可以很容易的制定即席查询和重复查询”。
区别在于drel可以在极快的速度处理网络规模的海量数据。据谷歌提交的文件显示你可以在几秒的时间处理pb级的数据查询。
从谷歌三家马车看得出来,他们对云计算和大数据的应用主要在搜索上面。
早在2006年,谷歌在推出了“google101计划”的同时,也正式提出