技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网


在 2021 WAIC · 隐私计算学术交流会上 , IEEE Fellow、翼方健数首席科学家张霖涛发表了主题演讲《隐私安全计算在IoDC上的应用》 。 在演讲中 , 他主要介绍了翼方健数在隐私安全计算领域的技术进展以及产品落地 。


技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

以下为张霖涛在 2021 WAIC · 隐私计算学术交流会的演讲内容 , 机器之心进行了不改变原意的编辑、整理:
今天在这里介绍一下我们在隐私安全计算方面所做的一些工作 。 翼方健数(BaseBit.ai)是一家专注于数据价值抽取的公司 , 我们有一个概念叫IoDC(Internet of Data and Computing) , 很多工作都围绕着IoDC这个事情来做 。 我在这个报告当中会跟大家解释一下什么叫IoDC , 以及在这个方向上做的一些应用 。
数据的重要性及流通的障碍催生隐私安全计算 在十九届四中全会中 , 数据被提到一个非常高的高度 , 被定义为一种新的生产要素 , 这是一种非常有前瞻性的看法 。 在未来的智能时代 , 数据将会是一种推动社会发展的重要生产资源和要素 。 数据有很多特性 , 要很好地使用这一生产要素面临以下诸多挑战 。
  • 第一 , 在信息时代 , 数据很多是作为数字排放出来的一种产物 。 数据搜集的目的往往不相同 , 质量也参差不齐 , 有很多非标准、非结构化和相互隔离的特点 。 因此 , 想要把它好好用起来面临很多挑战;
  • 第二 , 数据本身有很多独特的经济学和非经济学特征 , 比如经济学方面 , 大家知道它是虚拟的 , 并且有非竞争性的特点 。 数据本身可以被多次使用 , 不像土地等其它生产要素 , 我用了别人就不能再用了 。 数据不具有这样的特性;
  • 第三 , 数据有高昂的固定成本 。 数据搜集和整理起来不容易 , 但拷贝却很容易 , 因而具备低廉的可变成本 。 这种情况下很容易造成数据资产流失;
  • 第四 , 数据具有诸多非经济学维度的特征 , 比如隐私、合规、机密、安全等 。 这些都使得「如何高效安全地利用数据」成为一个非常有挑战的问题 。
数据本质上不能够安全地流通 , 因为它涉及很多责权问题 , 包括隐私安全机密需求 , 所以不应该分享原始数据本身 。 但是我们希望分享数据价值 。 数据的价值包括从中获得的一些洞见、知识、模型等 。 我们如何解决这个矛盾呢?我们希望采用技术的手段 , 用联合计算和分析的方法 , 在保护数据的情况下 , 从数据中抽取价值并分享数据的价值 。
目前 , 隐私计算技术是我们从数据当中抽取价值的一项非常关键的技术 。 过去二三十年里 , 这些技术已经得到了长足的发展 , 比如多方安全技术MPC/ 同态加密、联邦学习、安全沙箱计算、可信执行环境 , 以及差分隐私、区块链、相关技术 。 过去二三十年 , 这些技术在学术界已经获得了非常多的研究 , 并且过去十年中的进步使得很多技术已经在很多情况下得到实际应用 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

但应看到 , 这些技术很多往往仅考虑计算进行时的安全 , 没有考虑数据全周期的安全和隐私保护 。 在实际的应用中 , 如果单独拎出一项相关技术 , 很多情况下不一定能满足用户需求 。 这些技术非常重要 , 但我们需要做更多工作 , 才能够让隐私计算技术在实际应用中发挥作用 。
所以我们希望不要深究技术流派 , 而是定义一些更广泛的、广义的隐私安全计算 。 我们认为在特定的信任假设下 , 在保护数据所隐含的隐私和机密 , 避免数据资产的流失、转移和失控的前提下 , 实现和分享数据价值的技术、产品和方法的都是隐私安全计算 。 隐私安全计算的最终目的不是单纯地保证隐私和安全 , 而是实现和分享数据的价值 。 只要能完成这样一件事情 , 我们都可以称之为隐私安全计算 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

隐私安全计算的场景、挑战和开放数据生态平台
那么 , 我们如何解决隐私安全计算问题呢?又面临哪些挑战呢?我们希望通过隐私安全计算 , 来解决数据开放共享与隐私安全保护的矛盾 。
下图左为传统的计算方式 。 传统的数据利用方法一般如何实现呢?数据存在一个数据平台里 , 当另外一个应用需要使用数据时 , 一般会将数据拷贝出平台 , 或者通过API调用数据传出平台 , 然后该应用对原始数据进行计算 , 最后输出结果 。
我们希望通过隐私安全计算平台(下面中间图中红框)来实现隐私安全计算技术 。 这个平台是个很抽象和广义的概念 , 它可以是单机 , 甚至是机构里的封闭cluster 。 目前来看 , 这种小黑屋式的计算平台被广泛地使用 。 隐私安全计算平台应该包括参与数据价值抽取的整个系统 , 比如可以是一个区块链上的很多机器 , 或者是一个云计算当中的平台 。 无论如何 , 我们需要有这样一个平台 。 隐私安全计算平台能满足什么事情呢?它能够使得用户把数据和应用放在这个平台里面 , 通过平台控制里面的计算 , 最后保证平台只输出数据的价值 , 比如一些模型或者其他的统计数据 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

总的来说 , 隐私安全计算的方式是:原始数据从不离开平台 , 平台只输出数据的价值 。 但是说起来容易 , 实际上要想完成这件事情面临以下诸多挑战:
  • 对于数据隐私安全计算 , 我们经常需要的是数据可用不可见 。 既然不可见 , 应用方如何发现这些数据呢?
  • 应用方如何获得这些数据的使用权?
  • 很多情况下数据是有价值的 , 获得使用权需要付费 。 应用方看不见原始数据 , 又如何愿意付费呢?
  • 数据搜集的时候 , 各个数据机构采用的格式或者字段等都是不一样的 。 应用方如何有效地使用这些数据呢?
  • 大家为什么信任你的平台呢?应用方如何保证自己的模型和IP不会被平台泄露?数据方为何要把数据放在这个平台上?又如何保证存储和计算的安全?
  • 最后是价值抽取的平台 , 希望抽取出真正的价值 。 这个价值如何分配呢?如何衡量各个数据源对模型的贡献呢?如何保证模型产生的价值分配公平合理呢?
  • ……
整个行业 , 大家都在通过隐私安全计算的技术手段 , 同时配套相应的法规、政策及流程的构建 , 让数据在保证安全和隐私保护的基础上实现流通 。
国家有关部门提出要构建“五位一体”数据要素主体系 , 包括构建市场规则、培育市场主题、规范市场交易、激发市场活力 , 这套体系是我国推进数据要素市场建设的一个重要参考 。
而在数据应用开放的落地推进方面 , 可以通过公共数据作为抓手 。 公共数据资源作为城市数字化转型的基座 , 价值大 , 能够有效发挥市场主体专业、技术和管理优势 , 释放数据价值 。 同时基于各方在数据应用过程中的共享流动 , 能够促进多方开始利用自己的数据与同一领域机构合作 , 实现更广泛、更充分的数据价值挖掘和有效理由 。
从技术角度来说 , 隐私安全计算实际上是个系统性和复杂的工程 , 提供的是数据从产生到价值体现的全流程解决方案 。 隐私安全计算必须要快速地支持应用 。 常见的误区是数据拿来就可以使用 , 实际上数据要经过漫长的加工链路才能达到可使用的状态 。 加工链路中要实现互联互通 , 这就需要多方数据和算法贡献 。 并且 , 为了最大化数据价值的抽取 , 每个计算环节都要有自己的信任假设和计算环境需求 。 平台必须要支持不同的安全计算环境 , 因为在不同的安全计算的假设下 , 性能是有非常大的区别的 。 因此 , 我们一定要在合适的安全假设下选择所用的算法 。 最后需要数据资产化 , 数据的资产化必须要依靠平台提供全套的确权、定价、交易、价值分配等能力 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

所以 , 我们希望能够建立一个隐私安全计算的开放数据生态平台 。 为了把数据使用起来 , 需要的参与方很多 , 包括数据提供方、数据服务方和数据需求方等 。 我们希望他们都聚集到平台上来 , 抽取数据的价值 。 为此 , 这个数据平台需要遵循隐私安全计算的一些基本原则 , 比如最小可用原则、数据授权使用原则等 。
此外 , 数据的平台需要建立一个开放的数据生态 , 能够对第三方用户开放 。 用户在平台内经过授权即可以使用数据 。 平台也应该对第三方应用开放 , 即新的应用可以不断地加入到平台里 , 进而能够对数据进行处理 , 获得更多的价值 。 所以为了要保证隐私安全 , 这个平台还需要追溯数据结果、建立数据的分配机制等 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

单体-联盟-生态网络 , 翼方的隐私安全计算发展之路 翼方健数(BaseBit.ai)是一家成立于 2015年的公司 , 一直在隐私安全计算方面深耕 。 我们公司建立了一个隐私计算平台 XDP 翼数坊 , 该平台利用隐私安全计算技术 , 实现在合理授权下的数据价值共享 , 创造数据流通 , 推动人工智能的发展 。 我们理念的就是成为数据和计算互联网的运营商 。
XDP翼数坊平台具有一些重要的特征 。 首先该平台能处理大量数据 , 是一个有能力处理城市级别大数据的隐私安全计算平台;其次 , 该平台提供一个比较完整的解决方案 , 提供各种隐私安全计算的数据保护和计算体系;该平台灵活并能适配多样的应用 , 能够对城市级别大数据面临的各种数据业务提供成熟的技术框架 , 实现数据和算法的接入;最后该平台支持数据跨城市的流通 , 有能力突破传统的数据融合方式 , 安全高效地利用跨城市节点的数据协作 。
接着介绍一下我们的理念 , 也即 IoDC 的愿景 。 XDP 翼数坊实际上是个单体平台 , 它是云的部署 , 比如部署在公有云或者私有云上 。 这就是所谓「机构性的平台」 , 当机构互相之间产生一定的信任时 , 一个或者多个机构可以把数据放在这个单体平台上 , 统一管理 。 各个机构信任这个平台 , 通过授权和加密的方法保证数据的安全 , 在授权下进行使用 。
但是单体平台是不够的 , 所以我们有「平台联盟」这个概念 。 当有很多这样的机构 , 比如很多医院 , 每个医院单独建立一个平台 。 当每个医院部署这样的平台以后 , 他们就可以通过专属的高效私有协议实现一个联盟 。 实现联盟之后 , 平台之间的信任相对来说就会降低 , 但是这取决于各个平台之间的互相信任 , 并且由平台管理员决定 。 在这种情况下 , 用户可以采用更低廉的方法来做安全计算 。 平台联盟通过隐私计算的方法 , 在保证数据安全的前提下获取价值 。
当然数据不可能都放在这个XDP平台里面 , 我们的愿景就是「数据和计算的互联网」 。 这个愿景就是很多数据平台达成一种共同协议、说同样语言的时候 , 那么在数据平台之间 , 即使没有信任 , 他们也能在获取授权的情况下参与共同计算 。 这时候 , 不同的平台之间就可以实现计算和数据的互联互通 。 这就像是互联网 , 虽然不是一个厂商制造的 , 但是只要使用相同的 TCP/IP 协议 , 就可以互相通讯 。 同样的道理 , 不同的平台之间可以在计算和数据方面形成一个互联网 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

案例:基于隐私安全计算的传染病多点触发监测和智能预警平台 接下来跟大家分享一个具体的案例:一个城市级别的传染病多点触发和智能预警系统 。 这个系统很复杂 , 除了本身云端的一些工作之外 , 还有一些端方面的应用 , 比如哨点插件等会显示在医生终端 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

这个系统跟人工智能有什么关系呢?我们是用人工智能模型来做传染病传播的预测 。 过去有很多预测传染病的方式 , 最常见的是疾病动力学的模型 , 把人归为几种类型 , 比如传染人群、健康人群和恢复人群 。 这类模型涉及一些参数 , 比如传染病的发病率和恢复率等 。 有了这些参数之后 , 我们就可以建立一个基于偏微分方程模型 , 也就可以利用这个模型预测传染病将来的发生 。 大家可能听说过一些名词 , 比如传染病的R0值 , 它就是疾病动力学模型中的一个重要参数 。
现在深度学习能够处理更多的模型 。 因此 , 我们思考能不能利用人工智能和深度学习来做疾病的预测呢?我们和合作伙伴使用时空图卷积网络模型来做传染病预测 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

大家知道神经网络需要使用很多数据 , 那么哪些数据会对疾病预测有意义呢?医疗健康数据是很重要的一点 , 比如医院里检测到多少人发烧和多少人生病 , 这些都很重要 。 除此之外 , 很多其他的数据对传染病的预测也非常重要 , 比如说药品销售 。 一个人生了病 , 他会跑到药店 , 先买退烧药 , 并没有去医院 , 这些数据就不会反映在医院的病人里 。 药店的数据存在什么地方呢?在政府医保局里面 , 因为买了药之后很多情况下需要报销 。 家庭信息也很重要 , 比如一对夫妻以及他们的子女都得了病 , 那么就可能是传染病 。 为了得到这些信息 , 需要他们的家庭关系以及居住地址 , 这些需要从民政局获取 。 同样地 , 如果同学聚集在一起并且好几个人都得了病 , 这也可能是传染病 , 这些信息需要从教育局获取 。 另外还有其他一些数据 , 比如天气、温度等公共数据 , 这些对于感冒有很大的影响 。 还有河流水量水文数据 , 这些对血吸虫等疾病有很大影响 。 还有搜索公司的一些数据 , 比如很多人生了病之后会到网站上搜自己发烧的原因等 。 最后还有人口迁移 , 病人迁移到其它地方 , 会将传染病带过去 。 总之 , 非常多的数据会影响疾控的预测 , 这些数据都分布在不同的地方 。
因此 , 为了实现传染病的预测 , 我们建立了一个数据网络 , 最难的是如何得到这些数据 。 医疗和卫健委的数据是在一个XDP平台里 , 被称作「城市全民健康平台」 , 这是一个单独的平台 。 另外一个平台是「数据政务平台」 , 包括医保局、教育局和民政局的数据等 。 这两个系统都是用的翼方健数XDP平台 , 他们可以实现联邦 。 并且由于它们是政府机构 , 互相之间有信任 , 因而可以利用安全沙箱(成本相对较低)的机制来做计算 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

但是还有很多数据 , 包括搜索和移动的数据 , 它们是在商业公司里 。 商业公司不愿意把自己数据拿出来 。 为了解决这个问题 , 我们采用了联邦学习 , 最后打通数据源 , 训练出了刚才所说的神经网络模型 。 通过更多深度学习模型能够利用的疾病相关的信息 , 传染病的预测准确度高了很多 。 目前 , 这个智能平台已经在一些城市实现了落地 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

我们可以看到隐私安全计算在城市级别的数字化方面具有很大优势 , 能做很多事情 。 过去我们有很多智慧城市的建设 , 以前智慧城市建设往往从需求出发 , 比如智能交通和智慧医疗 , 这种情况下需要找到一个总包商 , 建立智慧城市的应用 。 过去这些需求可能比较简单 , 这类解决方案或许就足够了 。
但是 , 随着未来城市数字化场景越来越复杂 , 新的场景和应用不断地出现 , 我们需要重新思考城市数据的治理和管控 , 因此也就需要建立一个数据的平台和底座 , 这个底座一定要通过隐私计算的平台来实现 。 在这个平台上 , 大家可以利用第三方 , 并随着新场景的出现 , 建设新的应用 。 这样也就变成一个可以扩容的城市大脑 。

技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网
文章图片

【技术|WAIC 2021 | 翼方健数张霖涛:隐私安全计算如何助力形成数据和计算互联网】目前 , 翼方健数的隐私安全计算技术已经在很多场景实现了应用 。 除了前面提到的城市政务、城市健康以外 , 隐私安全计算技术还在生物信息、医院科研平台、园区数据管理平台 , 以及营销、金融等诸多方面获得不少的应用 。 随着XDP平台的不断部署 , IoDC数据和计算的互联网将会慢慢地形成 , 隐私安全计算也能够对经济的发展做出更多的贡献 。

    推荐阅读