阿里巴巴飞天大数据架构体系与Hadoop生态系统( 三 )

随着时间的推移,互联网发展迅速,数据量暴增,搜索引擎需要检索的对象的数据量也在不断增大。尤其是Google,需要不断优化自己的搜索算法,提升搜索效率。在这个过程中Google提出了不少的新方法与思路。

2003年,Google发表了一篇技术学术论文,公开了自己的谷歌文件系统GFS(Google?File?System)。这是Google公司为了存储海量搜索数据而设计的专用文件系统。

第二年,2004年,Doug?Cutting基于Google的GFS论文,实现了分布式文件存储系统,并将它命名为NDFS(Nutch Distributed File?System)。

2004年,Google又发表了一篇技术学术论文,公开了自己的MapReduce编程模型。MapReduce用于大规模数据集的并行分析运算。

第二年,2005年,Doug?Cutting又基于MapReduce,在Nutch搜索引擎实现了大规模数据集的并行分析运算。

2006年,Doug?Cutting将NDFS和MapReduce进行了升级改造,并重新命名为Hadoop。NDFS也改名为HDFS(Hadoop Distributed File?System)。

推荐阅读