文章图片
统计学对大数据的意义
在谈大数据之前 , 我们首先来看看什么是数据 。 很长一段时间里 , 大家对数据的理解 , 可能只是停留在阿拉伯数字这个层面 。 近些年来 , 大家开始讲大数据 。 结果有人就开始好奇了:这个大数据和我们之前说的数据有什么关系呢?
阿拉伯数字是不是数据呢?当然是数据 。 大数据是不是数据呢?当然也还是数据 。 不过 , 现在我们对数据的理解要广泛得多了 。凡是可以被数据化的信息载体 , 我们都可以认为是数据 。 比如说 , 我们接触的文本 , 包括平时看到的一些文字 , 现在我们都可以把它量化 。 我们看到的图片、视频和音频 , 现在也都可以量化 。 包括阿拉伯数字、文本、图片、视频和音频 , 我们都称之为数据 。 现在我们理解的数据 , 从来源上来说更加广泛了 , 从类型上说变得很复杂了 。这些不同来源、类型复杂的数据组合在一起 , 达到一定的体量之后 , 就可以认为是一个大数据了 。
现在我们来说一下统计学 , 统计学是什么呢?首先 , 从学科定位上说 , 统计学已经被列为一级学科了 。 这一点和数学、法学等都一样了 。大不列颠百科全书对统计学有个定义 , 说这是一门收集数据、分析数据的科学和艺术 。 定义中提到统计学是一门科学 , 这个容易理解 。 那为什么说统计学是一门艺术呢?这个问题 , 就和我今天主要回答的一个问题很有关系 。 顺便说一句 , 现在美国很多高校的统计系 , 它并不设在理学院下面 , 而是设在艺术学院下面 。
今天我主要回答一个问题:
在大数据时代 , 我们究竟是否需要基于抽样的统计学?
有些人认为 , 现在计算机科学非常发达 , 可以收集海量的数据 。 为了特定的研究目的 , 我们现在甚至有能力通过计算机技术收集与特定的研究目的相关的全部数据 。 今天 , 基于抽样的统计学就没有那么重要了 , 甚至都不在被需要了 。 事实真的是这样吗?
统计学是一门收集数据的艺术
既然统计学被认为是一门收集数据、分析数据的科学和艺术 。 我们暂时不谈科学 , 先来看看统计学为什么被认为是一门收集数据的艺术 。
我们来看第一个案例 。 这个案例是希望调查15个国家的国民的诚实情况 。 调查人员想要知道 , 哪些国家的国民最倾向于撒谎 , 哪些国家的国民很诚实 。 如果直接去问被调查的人员:“您是否撒过谎?”十之八九 , 是问不到真实答案的 。 如果被调查人员以前撒过谎 , 也不在乎多撒这个谎了 。 被调查人员可能出于不同的动机 , 不愿意给出真实答案 。 那么 , 调查数据怎么得来呢?这显然不是简单地通过计算机技术、通过某些爬虫软件就容易收集到适合研究目的相关数据的 。
文章图片
如何利用统计学方法来收集数据呢?这就需要统计学的智慧了 。
调查人员设计了两组实验 。
调查人员先从每一个国家找1000人参与测试 , 15个国家一共找了15000人 , 找这么多不同国家的人来面对面调查 , 这是非常困难的 , 所以调查人员通过互联网找到了这15个国家共计15000人 。 两组实验都是在互联网上进行的 。
在第一组中 , 他们先做了一个测试 , 请受调查者在家里抛硬币 , 硬币有正反两面 , 调查者事先规定 , 受调查者抛硬币之后要告诉我结果 , 如果硬币正面朝上 , 我就奖励你十块钱 , 如果反面朝上 , 我就不给你奖励 。 这个调查不需要提供你抛硬币的证据 , 只是由你告诉调查者 , 抛硬币的结果 。 这也就是说 , 受调查者有没有撒谎 , 只有他自己知道 。
这个最后的结果 , 实际上调查者是有参照的 。 因为 , 每个国家有1000人参与测试 。 正常情况下 , 1000次抛硬币的结果 , 应该是500次左右正面朝上 。 某个国家参与实验的1000个人之中 , 如果有900个人声称自己抛出来的硬币正面朝上 , 甚至1000人声称抛出来硬币正面朝上 。 那么 , 很大概率就是其中有人撒谎了 。 这是第一组实验 。
第一组的实验有价值 , 但是它也不一定能够全面反映真实的情况 , 所以调查人员还有第二组实验 。
第二组实验 , 是要求受调查者回答五个问题 。 这五个问题在回答之前 , 需要受调查者承诺 , 他不能为了答题去查阅任何资料 , 不能去寻求任何帮助 , 也就是说 , 看了这五个问题之后 , 受调查者需要立即给出答案 。 调查者承诺 , 如果五个问题中 , 回答对了四个以上 , 就奖励给受访者十块钱 , 如果答对三个或者三个以下 , 就没有奖励 。
而这五个问题中 , 其中有三个问题特别简单 , 类似于像1+1等于几这种问题 。 另外两个问题则非常生僻 。 如果受调查者不去查阅资料或咨询他人的话 , 基本是不太可能回答出来的 。 因此 , 如果有受调查者答对了这两道难题 , 十有八九就说明他违反了自己事先承诺的“不去查阅资料寻求帮助” , 由此可以推论他在这件事情上不诚实 。
然后统计人员通过这两组实验结果 , 互相验证 。 这两组数据收集的过程都非常恰当地体现了统计学在收集数据方面的智慧 。
所以说 , 即使在大数据时代 , 不是说有了计算机 , 有了爬虫技术 , 我们就能收集到适合研究目的的所有数据 。 统计学是一个收集数据的艺术 , 针对特定的研究目的 , 设计非常漂亮的数据收集方案 , 就是一个非常艺术的收集数据的过程了 。
文章图片
我们再举一个例子 。 这是最近美国麻省理工刚刚完成的一个实验 , 大致在2018年左右完成的 , 实验结果也公布出来了 。目的是想了解大家目前的婚姻观念 , 100人受到邀请来到一个封闭的场所参与这个实验 。 参加实验时 , 每人都会被贴上一个编号 。 男的编号是单数一三五七九 , 女的编号是双数二四六八十 , 以此类推 。 参与实验的这100人不知道自己的编号 , 也不知道究竟有多少人参加了这次实验 。 换句话说 , 他们不知道参加这次实验的正好是50个男人和50个女人 , 受访者仅仅知道 , 这次实验有很多人参加 。
在这里统计人员采取了一点小花招 , 就是当受访者进门的时候 , 把编号贴在受访者后背上 , 受访者知道自己有编号 , 但是不知道自己的编号是多少 , 不过他能够看到别人后背上的编号 。 实验规则说 , 允许100人中的任何两个人进行交谈 , 除了不能告诉对方他的后背编号是多少 , 其他话题都可以谈 。
然后实验者把这100人带到一个很小的一个房间里 , 宣布给大家5分钟时间 , 在这5分钟内 , 大家自行配对 , 每人只能配一名异性 。 5分钟结束之后 , 如果配对成功了 , 两个人背后的数字加起来乘以十 , 就是两人能够拿到的奖金 。 也就是说 , 如果编号是100的那个女性找到了那个编号为99的男性 , 那么两人就可以拿到(100+99)×10的奖金 , 也就是1990美元 , 这笔钱已经很可观了 。 但是如果你是一个编号为2的女性 , 而你找到的是那个编号为1的男性 , 那么你俩只能得到(1+2)×10也就是30美元 , 你俩用这奖金一起吃顿饭都不一定够 。 但是5分钟之后 , 如果还没有配对成功的话 , 你就连一美分都拿不到 。 因此 , 参加者必须在5分钟之内 , 在一个很小的拥挤空间内 , 尽快找到愿意跟自己配对的那个人 。 而且在这个过程中 , 要尽可能让自己的奖金数额变得很大 。
实验人员之所以把100人故意安排在非常拥挤的小房间内 , 就是考虑到 , 一方面要让大家能够很快速地看到一些人的编号 , 另一方面又能保证一个人不可能看到所有人的编号 。 在人挤人的情况下 , 有些编号是肯定看不到的 。
实验开始了 。
一些人很快就发现 , 自己连续跟别人配对三四次 , 大家都拒绝他 。 这很可能说明 , 自己后背的编号数字不够大 , 别人不感兴趣 。 于是这其中就有人采取了应对策略 , 他跟别人讲 , 如果你愿意跟我配对的话 , 那我愿意把奖金全部给你 , 反正我数字也不大 , 所以我的钱不要了 。 还有人说 , 只要你这次跟我配对成功了 , 我们出去以后 , 我再单独请你吃顿饭 。
另外还有一些人 , 虽然他不知道自己后背的编号 , 但是他发现有很多人过来找他 , 所以他很快就意识到 , 自己后背的编号很可能很大 , 但具体多大 , 他并不知道 。 而且要尽可能让两个人组合出来的数字变得很大 。 于是他很快就把眼前这批他能看到数字的人拒绝掉了 , 因为他理所当然地认为接下来肯定还有更大的编号 , 但是他并不知道最大的编号是多少 , 同时他还必须要在5分钟内快速决定跟谁配对 。
这个实验的结果是 , 编号99的男性并没有与编号100的女性配对成功 。 那位编号100的女性 , 找到的是编号八十几的一位男性 。 那些数字在中间的人 , 大体都配对了跟自己差不多的另一个人 。 这个结果 , 很符合中国的一种传统思想 , 也就是门当户对 。
我们现在来看这个实验的结果 , 它基本上跟中国男女婚姻观念的现实比较类似 。 比如说 , 实验者因为自己编号小 , 就让渡自己的奖金给对方甚至于承诺事后请对方吃饭 , 以求得成功配对 , 这个跟现实中“我的个人条件差一些 , 但是我父母同意我们两个结婚之后送给我们一套房子”的承诺是类似的 。 而且我们在生活中也发现 , 一些最优秀的男性女性 , 他们身边不乏追求者 , 但是他们并没有找到自己的“最佳匹配对象” 。
这个数据的收集过程是非常漂亮的 。
未完待续
作者:朱利平 , 中国人民大学统计与大数据研究院副院长、博士生导师 , 中国人民大学“杰出学者”特聘教授 。
本文转载于:光明日报
【问题|统计无用论?来看看统计学在大数据中的价值(上)】图片来源于Pexels
推荐阅读
- Google|谷歌暂缓2021年12月更新推送 调查Pixel 6遇到的掉线断连问题
- 人物|造车三兄弟的“喜与忧”:销量暴增但问题加剧,一人舒服两人困难?
- Intel|Intel谈DDR5内存价格贵、缺货问题:新技术升级在所难免
- 最新消息|宝马LG和其他公司正考虑使用量子计算机解决具体问题
- Linux|glibc在默认情况下并未妥善解决Y2038问题
- 视点·观察|2021年清洁能源行业开始认真应对采矿问题
- Lenovo|因联想科创板上市问题 证监会问责中金公司并处罚旗下5名员工
- 数据|聚焦解决 “卡脖子”问题 三六零旗下国家工程研究中心纳入新序列
- IT|迈凯伦Artura因芯片短缺问题推迟上市时间
- 电子商务|同花顺子公司因荐股软件管理等问题 被浙江证监局要求整改