大数据时代,传统统计学依然是数据分析的灵魂( 五 )

大数据时代 , 审核数据的真实性也有了更有效的手段 。 大数据的特征之一是多样性 , 不同来源、不同维度的数据之间存在一定的关联度 , 可以交叉验证 。 例如 , 某地的工业产值虚报了一倍 , 但用电量和能耗却没有达到相应的规模 。 这就是数据异常 , 很容易被系统识别出来 。 发现异常后 , 相关部门再进行复核 , 就能更有针对性地防止、打击数据造假 。

数据是一种资源 , 但数据又跟煤、石油等物质性资源不一样 。 物质性资源不可再生 , 你用多了 , 别人就用少了 , 因而很难共享 。 数据可以重复使用、不断产生新的价值 。 大数据资源的使用是非恶性竞争的 , 共享的前提下 , 更能够制造双赢 。 从另一个角度来说 , 数据如果不被融合、联系在一起 , 也不能称之为大数据 。

大数据不能被直接拿来使用 , 统计学依然是数据分析的灵魂

现在社会上有一种流行的说法 , 认为在大数据时代 , “样本 = 全体” , 人们得到的不是抽样数据而是全数据 , 因而只需要简单地数一数就可以下结论了 , 复杂的统计学方法可以不再需要了 。

推荐阅读