监测|基于两个经典案例的分析两类“大数据”的区分

美国科学哲学家汉弗莱斯将大数据分为两类 , 一类 是大写的大 数 据(BIG DATA) ,另 一 类 是 小 写 的 大 数 据(big data) 。 小写的大 数 据指与数 据科学 相关的活动和方法 , 是拥有海量数据的组织机构所面临的技术问题 ;而当这些活动、方法尤其关于处理海量数据的技术向社会各领域渗透并迅速发展时 , 便产生了大写的大数据 。 这意味着我们平常所用的“大数据”所指的对象并不同一 。 大数据激进派的代表人物安德森、舍恩伯格等认为 :数据可以客 观 地 表征世界 ;只 要 数 据量 足够大 , 就不需要模型、问题及相关的理论 , 只要在数据的驱动下 , 数据可以自己发声 ;相关性是世界的本质 ;由于大数据可以完全避免人类的主观因素进入科学研究 , 大数据知识发现的模式更客观、更自由 。 大数据保守派的代表人物有弗洛里迪、克劳德、皮耶奇等 , 他们一方面承认大数据的独特性 , 另一方面对大数据是否能客观反映实在、大数据是否是理论自由的、大数据能否完全取代小数据、相关性能否代替因果性等都保持理性的怀疑态度 , 并且通 过案例 , 对 激 进派的各种论 调一一进行反驳 。
案例一人类数感研究
人类对物体或事件的数量存在一种非言语的表征方式 , 区别于通过言语或数字符号对数量的精确表征 , 具有近似性和不精确性 , 心理学家称之为近似数 量系统(ANS) 。 ANS是一种与生俱来的结构 , 无论人还是动物都有 , 它不仅体现在视觉任务中 , 也能体现在听觉任务中 , 是人类数感和形成数学能力的基础 , 在理论上服从韦伯定律 。 脑科学研究表明 , 脑区双侧的顶内沟处大致为ANS系统所处的位置 。 目前 , 脑科学和心理科学的相关研究成果被广泛应用到教育教学实践中 。 但长期以来 , 对ANS的研究缺乏对人的整个生命周期的研究 , 因为实践中很难对每一个样本进行终生的追踪研究 。 大数据技术出现之后 , 约翰霍布斯大学的心理学 家 哈 尔伯 达(J. Halberda)通过已有的ANS理论 , 构造出测试模型 , 然后向全球征求志愿者 , 在线完成测试任务 。 在短短的几个月时间里 , 便收集到了分布在全球不同地区的13000名年龄在11-85岁的测试者 。 通过对这些数据的分析 , 哈尔伯达不但完成了对人类数量感知力发展的整体描述、验证了前期对于不同年龄阶段ANS与数学水平之间的理论假设 , 填补了这一领域的研究空白 , 而且 还发现了之前没有发现的一些“意外”规律 。
案例二谷歌流感预测
季节性流感是人类社会长期面临的一个世界性的威胁和问题 , 据统计 , 全球每年约有25万-50万人死于季节性流感 。 因此 , 对季节性流感进行预测并提前防控具有重要意义 。 美国疾 病控制和预防中心(CDC)、欧洲流 感监测计划(EISS)所使用的流感预测系统 , 都是依据病毒学理论 , 使用临床监测数据 , 对流感进行预测 , 并向公众发布预测报告 , 但预测报告通常会滞后1-2周 。 随着互联网与大数据技术的发展 , 研究人员发现在某一地区 , 某些词的互联网搜索频率与流感样疾病(influenza-like illness , ILI)病例的就诊比率高度相关 。 2008年 , 谷歌建立了一种通过分析谷歌搜索查询来跟踪、预测流感的系统 。 在谷歌的预测模型中 , 自变量为同一地区与流感样疾病相关的检索词的检索频率 。 将模型的预测结果与CDC的结果相比较 , 发现对2008年各季度预测的结果与美国CDC的监测结果的相关系数达到0.97 。 而最为关键的是 , 由于可以快速处理搜索查询 , 谷歌的预测报告比CDC的提前1-2周 。
分析SSD与SDS
以上两个大数据案例恰好代表了两个大数据流派对大数据的看法 。 当研究者基于案例一来分析时 , 必然会得出大数据研究离不开模型、以问题驱动、相关性不能代替因果性等 , 而对于影响人类“数感”的机制是什么仍旧悬而未决 ;如果以案例二为依据则可以得出 , 大数据不需要具体问题 ,
【监测|基于两个经典案例的分析两类“大数据”的区分】虽然两类大数据有区别 , 但随着不断融合 , 它们之间的界限越来越模糊 。 SDS的数据虽然依 赖于网络技术的发展 , 但其所使用的方法、模型很多都是来自于SSD的研究成果 。 正如汉弗莱斯所指出的 , 当小写的大数据向社会各领域渗透并迅速发展时 , 便产生了大写的大数据 。 综上所述 , 由于大数据所指陈的对象并不同一 , 即客观上存在着两类既有区别又有联系的大数据 , 因此 , 在开展相关研究时 , 研究者首先要明确自己所研究的对象属于哪一类 , 如此才不至于陷入激进派与保守派无休止的论争漩涡 。 (数据杂志/文薛永红)转载请注明来源

    推荐阅读