大数据时代,传统统计学依然是数据分析的灵魂( 六 )

在我看来 , 这种观点非常错误 。 首先 , 大数据告知信息但不解释信息 。 打个比方说 , 大数据是“原油”而不是“汽油” , 不能被直接拿来使用 。 就像股票市场 , 即使把所有的数据都公布出来 , 不懂的人依然不知道数据代表的信息 。 大数据时代 , 统计学依然是数据分析的灵魂 。 正如加州大学伯克利分校迈克尔·乔丹教授指出的:没有系统的数据科学作为指导的大数据研究 , 就如同不利用工程科学的知识来建造桥梁 , 很多桥梁可能会坍塌 , 并带来严重的后果 。

其次 , 全数据的概念本身很难经得起推敲 。 全数据 , 顾名思义就是全部数据 。 这在某些特定的场合对于某些特定的问题确实可能实现 。 比如 , 要比较清华、北大两校同学数学能力整体上哪个更强 , 可以收集到两校同学高考时的数学成绩作为研究的数据对象 。 从某种意义上说 , 这是全数据 。 但是 , 并不是说我们有了这个全数据就能很好地回答问题 。

一方面 , 这个数据虽然是全数据 , 但仍然具有不确定性 。 入校时的数学成绩并不一定完全代表学生的数学能力 。 假如让所有同学重新参加一次高考 , 几乎每个同学都会有一个新的成绩 。 分别用这两组全数据去做分析 , 结论就可能发生变化 。 另一方面 , 事物在不断地发展和变化 , 同学入校时的成绩并不能够代表现在的能力 。 全体同学的高考成绩数据 , 仅对于那次考试而言是全数据 。 “全”是有边界的 , 超出了边界就不再是全知全能了 。 事物的发展充满了不确定性 , 而统计学 , 既研究如何从数据中把信息和规律提取出来 , 找出最优化的方案;也研究如何把数据当中的不确定性量化出来 。

推荐阅读