阿里巴巴飞天大数据架构体系与Hadoop生态系统( 三 )_：阿里巴巴飞天大数据架构体系与Hadoop

随着时间的推移，互联网发展迅速，数据量暴增，搜索引擎需要检索的对象的数据量也在不断增大。尤其是Google，需要不断优化自己的搜索算法，提升搜索效率。在这个过程中Google提出了不少的新方法与思路。

2003年，Google发表了一篇技术学术论文，公开了自己的谷歌文件系统GFS（Google?File?System）。这是Google公司为了存储海量搜索数据而设计的专用文件系统。

第二年，2004年，Doug?Cutting基于Google的GFS论文，实现了分布式文件存储系统，并将它命名为NDFS（Nutch Distributed File?System）。

2004年，Google又发表了一篇技术学术论文，公开了自己的MapReduce编程模型。MapReduce用于大规模数据集的并行分析运算。

第二年，2005年，Doug?Cutting又基于MapReduce，在Nutch搜索引擎实现了大规模数据集的并行分析运算。

2006年，Doug?Cutting将NDFS和MapReduce进行了升级改造，并重新命名为Hadoop。NDFS也改名为HDFS（Hadoop Distributed File?System）。

阿里巴巴飞天大数据架构体系与Hadoop生态系统( 三 )