数据的计算(大数据)

数据的计算(大数据)


一、什么是大数据 , 本质?

(1)数据的存储:分布式文件系统(分布式存储)-----> HDFS: Hadoop Distributed File System

(2)数据的计算:分布式计算

二、如何解决大数据的计算?分布式计算

(1)什么是PageRank(MapReduce的问题的来源)

(*) 搜索排名

(2)MapReduce(Java语言实现)基础编程模型: 把一个大任务拆分成小任务 , 再进行汇总

(*) 更简单一点例子

    推荐阅读