技术|惠志斌 :隐私计算是开启数据安全流通的“钥匙”( 二 )


从“黑科技”走向“白科技”
如何让数据安全地流通创造价值 , 成为行业内近年的实践重点 。
以金融行业-银行的授信分析场景为例 , 由于授信分析一般需要基于企业的各种行为数据 , 为了提高分析的准确性、降低授信风险 , 不仅要企业/客户在本银行的数据 , 还要融合其他银行的数据 , 甚至与其他场景的行为进行联合建模 , 最终获取更精准的模型效果 。
医疗行业作为隐私计算的重要应用行业 , 同样有着类似的“联合处理数据”的需求 。 医院系统基于历史的病例数据进行训练 , 从而得到一个辅助诊断模型 , 当再出现一个新病例时 , 即可根据这个模型来推断疾病 。 由于模型训练往往需要大量的数据样本 , 而一家医院可能因为历史病例数量少而导致模型准确度存疑 。 这时 , 同样要结合多家医院的病例数 。
上述两个场景中 , 如何保障在联合处理数据时 , 各家数据的不透明和不泄露?
世界互联网大会期间 , 蚂蚁隐私计算互联网医疗应用方案作为中国网络空间安全协会2021年数据安全典型实践案例代表 , 被授予获奖证书 。 这个案例是应用了蚂蚁的隐私计算技术 , 使用联邦学习进行联合建模 , 实现提升模型样本量的目的 , 同时使用差分隐私技术来保护各银行/医院和中心节点进行梯度数据交换计算时的隐私信息 。 当然 , 也可以用SCQL技术来进行多家数据联合分析 , 如医疗机构希望知道自己的平均住院日和其他医院的对比情况 , 但不愿意分享自己的数据 , 可以使用SCQL技术对同一类别医院同一病种的平均住院日进行统计 , 来实现不直接分享数据还可以进行联合分析 。
此外 , 蚂蚁集团与浦发银行针对零售贷款业务共同开发了一整套风险评估解决方案 , 采用多方安全计算的风险模型利用浦发银行及其合作方的数据来共同提高模型的有效性 。 由于在训练和运行两个阶段内均采取了分布式部署 , 且双方都应用了加密算法 。 这意味着任何一方的原始数据都不会泄露给另一方 , 并且也无法通过对训练结果的反向工程来推导原始数据 。 最终 , 基于丰富数据源训练出的模型识别出了超过14.5万名高风险客户 , 阻止了数十亿人民币的高风险贷款的发放 。
从金融到医疗行业 , 数据的流通和多方协作所面临的安全困境 , 反向推动隐私计算从黑科技变成白科技 。 而数据流通起来才成创造价值 , 这一论调也在隐私计算的实践中被反复验证 。
隐私计算:未来数据处理的“安全媒介”
有了隐私计算技术的应用 , 不断发布的安全法规对大数据行业不仅不是禁锢 , 反而是一种正向的激励:明确了个人信息的界限、指明了数据流通与处理的规范 。

推荐阅读