原创<br> 数据共享的核心在定价,数据开放与隐私保护探讨 | AI Time( 四 )

清华大学交叉信息研究院徐葳副教授

的确,数据必须要流动起来它才能产生价值,否则的话它就是一个孤岛,没有什么太大的价值。数据共享,也需要一个前后背景,以学术研究还是产业应用为前提进行共享,这两者的管理治理完全不一样。

以金融行业为例,因为金融行业非常容易出现不合规行为,所以数据的应用和管控会更加严格。比如,如果用来投资,被标为非公开信息的数据会被禁止使用。而关于个人用户隐私层面的管控可能更严,在金融领域里面,有一种“另类数据”。它不是类似传统银行财报这样公开的信息,而是一种新型的数据,比如手机上的GPS数据、网站APP下载的数据。这些也可以用来分析一个公司或者一个国家经济层面的运转程度。

现在越来越多的研究层面开始关注,包含用户信息的数据如何在技术场景里使用。为了解决一个工业界的问题,需要训练模型,那如何在不共享数据的情况下进行机器学习呢?

微众银行人工智能部副总经理吴海山举例解释,“比如用数据去分析用户贷款违约的概率,可能需要A公司电商的数据、B公司社交的数据,但两家公司不可能放心地把数据放到我的平台上……在这种情况下,为了在数据不共享的情况下,依然能够训练机器学习模型,我们首席人工智能专家杨强教授提出了联邦学习,它是一种新型的,能够在保护用户隐私和数据共享的前提下,以一个合法合规的方式去使用数据、训练模型、解决问题,我们觉得这个可能是更加本质的一个问题。”

推荐阅读