因果关系|当数据如潮水般涌来,如何不被数据误导而迷失方向?探寻深藏于数据海洋中的“因果关联”


因果关系|当数据如潮水般涌来,如何不被数据误导而迷失方向?探寻深藏于数据海洋中的“因果关联”
本文图片

鲨鱼袭击事件和冰淇淋销量能联系到一起吗?它们之间只是简单的相关关系 , 还是有前因后果的因果关系?有时候 , 简单的数据统计和分析会得出令人瞠目结舌的结论 。
为什么会这样?那是因为隐藏和纠缠在一大堆数据和事实中的因果关系是那么扑朔迷离 , 让人难辨真相 。 不过 , 数学工具也许可以为我们理清这些关系 , 从而让真相浮出水面 。
不了解因果关系 , 很容易为数据偏离所左右
上世纪90年代中期 , 以病人住院资料作为数据基础的人工智能(AI)算法得出了一个令人惊讶的预测结果:患有哮喘症的肺炎患者生存率更高 。
这是一个与所有医学知识相悖的结论 。 医学常识告诉我们 , 肺炎病人如果同时患有哮喘 , 死于肺炎的风险会增加 。 然而 , 多家医院收集到的数据为何会推导出截然相反的结论?这到底是怎么回事呢?
进一步调查发现 , 在AI预测中 , 算法疏漏了一个关键问题 , 那就是对于同时患有哮喘的肺炎患者 , 医生会更加重视 , 甚至会直接把他们送到重症监护室 , 那里的积极治疗和精心护理 , 大大降低了病人死于肺炎的风险 。
这个案例说明 , 如果不了解因果关系 , 很容易为数据偏离所左右 。 而且仅靠数据分析 , 也很难可靠区分哪些属于因果关系 , 哪些只是偶然和巧合 。 所以 , 解开因果之间的真正联系 , 对于现代科学至关重要 。 从药物开发到基础设施设计 , 都离不开对因果关系的了解 。
然而 , 一个多世纪以来 , 科学家们一直缺乏正确理清因果关系的工具 。 当人类社会进入大数据时代 , 面对海量涌来的数据 , 必须要找到可靠的工具来理清因果关系 , 才能在数据海洋中保持清晰的航向 。
区分相关性与因果关系 , 亟需全新科学工具
“相关性并不一定就是因果关系” , 这是大多数科学家哪怕在睡梦中也会奉为圭臬的一句至理箴言 。 给科学研究提供迫切需要的“因果关系语言” , 数学可以成为解决这个难题的工具 。
剖解因果关系的数学工具 , 在我们这个拥有丰富大数据的时代有着相当广泛的应用前景——了解事物的因果关系 , 将成为解决算法致命缺陷的必要工具 。
道理人人都懂 , 但问题是 , 要理清数据中的因果关系 , 我们还需要数据以外的一些额外信息 。 鲨鱼伤人和冰淇淋销量之间的关系并不难理清 , 但如果涉及到一些更复杂或对其背景了解不多的数据 , 要区分两者之间是相关关系还是因果关系 , 就没那么容易 。
事实上 , 了解因果关系对人类生活意义重大 。 例如 , 数据相关性研究可以告诉我们 , 哪种治疗方案可以让病人更快恢复 , 但却不能告诉我们这是为什么 。 而且 , 数据相关性也不能告诉我们如何更加有效地治愈病人 , 甚至不能成为给病人开处方的依据 。
“若想治疗某种疾病 , 或者知道如何降低某种疾病的风险 , 就需要理解其中的因果关系 。 ”丹麦哥本哈根大学的乔纳斯·彼得斯说 。 美国哥伦比亚大学的伊莱亚斯·巴伦布瓦姆则认为 , 科学研究和科学系统的运行都绕不开对因果关系的理解 。
遗憾的是 , 可以用来理清因果关系的科学工具太少了 。 从伽利略时代开始 , 现代科学的研究工具之一是代数和等式 。 物理学家用等式来表达大气压和气压计读数之间的关系 , 但这样的等式说明不了它们之间的因果关系——是气压导致了气压计读数的变化 , 还是正好反过来呢?显然 , 代数语言不可能解决哪个是因哪个是果的问题 。
创新数据“游戏规则” , 为因果推理理论奠定基石
上世纪90年代初 , 美国加利福尼亚大学洛杉矶分校的朱迪亚·珀尔开始创建科学迫切需要的“因果关系语言” 。
珀尔的解决方法是引进一种被称为“doing” (表示做、作为、动作、行动的意思)的数学语言 。 比如 , 如果通过“do”这个新引入的运算符采取某种干预“行动” , 让气压计周围的大气压产生变化 , 那么气压计上的读数也会随之变动;但如果干预“行动”是移动气压计上的读数 , 显然大气压不会因此发生任何变化 。 所以 , 通过这样的数据变动 , 就能找出数据之间的因果关系——“因” 变“果” 也随之变 , 但无论“果”如何变 , “因”却不会变 。
如何用数学语言来表达这个概念呢?珀尔创建了一套包括加减和其他运算法则在内的运算方法 。 就像其他运算符一样 , 他的“do”运算符可以作为一种特殊变量加入到运算中 。
再让我们回到海边场景 。 通过数学模型模拟 , 珀尔的“do”运算符改变了冰淇淋的消耗量 , 而不考虑其他任何对吃冰淇淋或被鲨鱼攻击产生影响的混杂因素 。 在实验中 , 如果只改变冰淇淋的消耗量 , 那么鲨鱼袭击频率如果有任何相应变化就应该是由吃冰淇淋引起的 。
珀尔的实验表明 , 使用可观察到的数据 , “do”运算符的变化可有效模拟随机控制实验 , 从而提取其中的因果关系 。 珀尔因这项研究获得了2011年图灵奖 , 他也由此奠定了因果推理理论的基石 。
因果推理“工具包” , 破解“结论不可重复”窘境
除了赋予科学以更坚实的因果推理基础之外 , 珀尔的数学框架还有助于解决许多学科问题 , 包括困扰医学和社会科学领域的“研究结论不可重复危机” 。
【因果关系|当数据如潮水般涌来,如何不被数据误导而迷失方向?探寻深藏于数据海洋中的“因果关联”】过去十年 , 因为相关的实验结果无法复制 , 人们对一些领域中的研究产生了怀疑 。 比如 , 有研究认为 , 学生用模糊字体更容易解答出数学问题;还有研究提出 , 意志力是一种有限的、可耗尽的资源 。 事实上 , 心理学领域于2015年进行的一项关于实验结果复现性的大规模研究发现 , 该领域60%的研究成果无法复制 , 这给整个学科蒙上了巨大阴影 。
巴伦布瓦姆认为 , 因果推理可以帮助解决这些问题 。 他说 , 在许多情况下 , 最初的测试结果容易受到多种混杂因素的影响 , 而这些因素可能是实验者没有意识到或被忽略的 , 而随后的复现性尝试可能会在混杂因素中发现新的因果关系 。
一个典型例子是关于幸福感对经济决策的影响 。 最初 , 实验通过向参与者展示美国喜剧演员罗宾·威廉姆斯的镜头来衡量幸福感 。 可到了进行复现性实验时 , 威廉姆斯已经去世 , 同样的实验可能会对参与者的反应产生不同影响 。 另一个因素是 , 原始研究实验中的受试者为美国人 , 而复现研究中的受试者是英国人 。 由于这些混杂效应的影响 , 后来的复现实验显然无法对最初的研究发现作出合理评价 。
因果推理理论的应用远远超越了科学的范畴 。 “如果你想要做出更好的决策 , 就要了解因果关系 。 也就是说 , 在做决策前要考虑一下 , 如果我这么做 , 会有什么后果 , 世界会发生什么变化 。 ”美国约翰·霍普金斯大学的苏奇·萨里亚说 。

因果关系|当数据如潮水般涌来,如何不被数据误导而迷失方向?探寻深藏于数据海洋中的“因果关联”
本文图片

相关性与因果关系有何不同
一些海边城市的数据告诉我们 , 哪天冰淇淋销售量多 , 海滨游泳者遭遇鲨鱼袭击的概率就高 。 那么 , 这是否意味着 , 出于公众安全考虑 , 应该取缔海边卖冰淇淋的小摊呢?人们大概率不会这么做 。
因为常识和理智告诉我们 , 酷热天气会使海滨的人流量激增 , 这是一个明显的事实 。 人多 , 意外事件发生的概率也会更高 。 所以 , 冰淇淋销售量的增加与鲨鱼袭击频率增高的原因 , 很可能都是海滨游客增多 , 而冰淇淋销售量和鲨鱼袭击之间只存在相关性 , 并不存在因果关系 。

作者:方陵生编译
编辑:顾军
责任编辑:许琦敏
图片来源:视觉中国

    推荐阅读