技术|从“百万富翁问题”说起 看华控清交如何打造数据生态闭环

【环球网科技报道采访人员郑湘琪】“两个百万富翁在街上偶遇 , 想比较谁更富有 , 但出于隐私考虑 , 如何在不透露财产数额的情况下实现比较?”这其实是中国科学院姚期智院士、国内唯一图灵奖获得者在1982年提出并解决的“百万富翁问题” , 当时他给出了“多方计算”这一答案 。
30多年后的今天 , 基于多方计算理论 , 华控清交自主开发并推出了一系列技术和解决方案 , 使多个非互信数据库在数据相互保密的前提下进行高效数据融合计算 , 并以此推动数据开放共享和交易流通 。
【技术|从“百万富翁问题”说起 看华控清交如何打造数据生态闭环】随着数字经济的发展 , 数据作为数字经济的关键生产要素 , 其经济属性和价值属性不断受到关注和重视 , 逐渐成为数字经济时代的一种新型资产 。 近日 , 采访人员专访了华控清交董事长、CEO张旭东 , 和他聊了聊华控清交的新数据观 。

技术|从“百万富翁问题”说起 看华控清交如何打造数据生态闭环
文章图片

明文数据体系下的数据孤岛:数据难以有效“跑起来”
在张旭东看来 , 数字经济时代下 , 数据对于经济行为的优化、效率的提高 , 起到重要作用 。 而数据价值的实现是靠流通来驱动的 , 因此 , 数据在越来越多的行业场景下需要共享和流通 。
但在明文数据体系下 , 数据流通的安全性却难以得到保证 。 “明文数据 , 顾名思义就是‘看得见的数据’ 。 数据一旦被人或者机器‘看见’ , 就可以被无限复制 , 而且这种复制的边际成本几乎为0 , 能实现大规模快速的传播 。 在这一过程中 , 数据所有方对于数据的用途和用量是很难进行控制的 。 明文数据的流通容易导致数据的滥用”
另一方面 , 从信息学角度来看 , 数据的价值恰恰在于其所承载信息的不对称性 , 其价值和它承载信息的稀缺性成正比 。 “如果大家均能获取到某些数据 , 那么它的价值也就丧失了 。 所以明文数据的传递和流通过程恰恰是它价值灭失的过程 。 ”张旭东告诉采访人员 。
出于对这些问题的担忧 , 很大部分行业场景的数据便“不能流通、不敢流通” , 从而造成了“数据孤岛” , 使得数据难以有效“跑起来” 。
数据可用不可见 , 用途可控可计量
“数据被‘看见’就有安全隐患 , 那能不能做到看不见 , 但又可以用呢?”张旭东提出这一问题 。 事实上 , 问题的答案是肯定的 , 而一个重要解决途径便是本文开头谈到的 , 可以“帮助两位富翁比较财富”的多方计算 。
采访人员了解到 , 根据姚期智的这一理论 , 凡是可以在数据明文上进行的计算 , 理论上都可以在数据密文上直接进行计算并得出与明文计算完全一致的密文结果 。 而其突出特征就是数据在整个计算过程中无须解密 , 所以无法被“看见” 。
把数据所有者和使用者代入到两位富翁的情景 , 凭借多方计算技术 , 数据流通的安全性也就得到了保障 。 张旭东表示 , “以多方计算理论为基础 , 华控清交首席科学家徐葳教授带着清华‘姚班’的学生们从2014年开始进行研究 , 从‘0’到‘1’ , 实现了‘数据可用不可见 , 用途可控可计量’ 。 ”
在张旭东看来 , 数据流通的主体不是数据本身 , 而是数据的特定使用价值 。 他进而说道:“数据的流通并不是其特定使用价值的直接传递和转手 , 而是一个通过对数据资源进行配置和整合 , 通过算力和带宽加工 , 把计算结果交给结果获得方的过程 。 ”
基于此 , 运用多方计算技术可以把数据可见的具体信息和不用看见就可进行计算的使用价值区分开来 , 从而把数据的使用权从数据的所有权中独立出来 。
具体而言 , 华控清交研发团队通过多方计算技术使多个非互信数据库在数据相互保密的前提下进行高效数据融合计算 , 做到既分享数据 , 又保证被分享的数据不流失(数据可用不可见) , 且可以利用计算合约精确控制数据的具体用途和用量(用途可控可计量) 。
“控制到什么颗粒度?细到一个具体的算法当中一个具体的基础运算符号 。 因此 , 规定了具体的用途和用量 , 也就从根本上解决了数据的滥用问题 。 ”张旭东说道 。
以生活中常见的场景为例 , “数据流通并不是像在菜市场卖菜一样 , 直接把西红柿、鸡蛋摆出来出售;而是更像在餐厅里 , 售卖已经做好的‘西红柿炒鸡蛋’ 。 这就避免了买家把西红柿和鸡蛋带回家孵出小鸡 , 种出西红柿;这就相当于通过密文计算避免了信息的暴露、复制和滥用 。 ”
促进应用:降低计算成本 , 降低技术门槛
值得一提的是 , 张旭东指出 , 华控清交的多方计算技术不仅有利于解决数据的滥用问题 , 同时可以帮助使用方控制计算成本 。 “密文数据的计算成本(主要是包括电力成本和时间成本)往往远高于明文数据 , 华控清交研发团队便通过对密码学、安全协议、分布式计算、系统、数据库、算法、编译、芯片等的全方位优化 , 极大幅度地提高“可用不可见”的计算效率 , 有效地控制数据融合与流通的计算成本 。 ”
同时 , 为降低技术应用的门槛 , 华控清交的研发团队研发了一套整合了多方计算技术、其他密码学技术和自创的明密文混合计算技术的应用开发平台体系 , 把底层的芯片、指令集 , 和上层的密文计算容器、密码协议、安全协议 , 和再上层的算法、函数库、编程语言解释器和接口等一层层地解耦 。 “这样的话 , 即使用户不懂密码学、安全协议、编译、算法 , 也不了解分布式计算 , 但只要会 Python , SQL和Java等基础编程语言 , 就可以像在明文环境中一样开发应用 , 去开发‘可用不可见和可控可计量’的数据融合与流通应用 。 ”
据张旭东介绍 , 现阶段华控清交的多方计算技术已在不同场景得到应用 。 在金融领域 , 比如进行个人合格投资者认证时 , 华控清交技术可实现在保护申请者数据隐私的前提下 , 融合各机构客户金融资产、收入流水等数据 , 自动计算投资者的金融资产或收入状况信息 , 实现高效合规的个人合格投资者认证;在政务领域 , 华控清交解决方案通过促进公共数据的开放共享 , 使数据资源更好地为实体经济服务 。
张旭东认为 , 医疗健康领域也是一个极有潜力 , 又富有挑战的行业 , 华控清交也正在进入该领域 。
推进基础设施建设 , 形成数据生态闭环
为进一步打破数据壁垒 , 连接数据孤岛 , 并形成有效的数据生态闭环 , 华控清交还在积极推进国家数据流通网的建设 。 据张旭东介绍 , 北京国际大数据交易所(北数所)就是未来国家流通网上的一个重要节点 。
采访人员了解到 , 今年3月31日 , 北数所正式成立 。 作为中国首家基于“数据可用不可见 , 用途可控可计量”新型交易范式的数据交易所 , 北数所定位于打造国内领先的数据交易基础设施和国际重要的数据跨境流通枢纽 。 而华控清交正是北数所的发起股东之一和主要技术提供方 。
纵观多方计算技术的发展历程 , 张旭东坦言 , “1982年该理论提出时 , 一没数据 , 二没应用 , 三没算力 , 姚期智院士解决了一个密码学问题题 。 随着摩尔定律和其他计算机科技的发展 , 再加上科学家们和‘姚班’孩子们们对多种学科和技术进行交叉与综合 , 在过去几年间 , 多方计算终于步入了实用阶段 。 ”
对于华控清交来说 , 从将多方计算理论产业化开始 , 再到现在推进数据流通基础设施的建设 , 每一步都是基于上一步取得的成果 , 不断产生新的想法 , 进行新的尝试 。 正如张旭东所说 , “创新都是跟随着意识的突破、认知的突破 , 在老的数据框架里是很难做出这些新东西 , 所以我们提出了对于数据流通的‘新数据观’ 。 ”
中国国家信息中心主任刘宇南曾指出 , 到2025年 , 中国数据总量预计将跃居世界第一 , 全球占比有望达到27%以上 。
“在未来的数据智能时代 , 华控清交将不断优化和发展新数据观 , 推进数据流通基础设施的建设 。 我们不仅提供技术 , 还要把理念、设想、和组织与执行能力有效地结合起来 。 ”张旭东这样说道 。

    推荐阅读