原创<br> 数据共享的核心在定价，数据开放与隐私保护探讨 | AI Time( 四 )_：数据共享的核心在定价

清华大学交叉信息研究院徐葳副教授

的确，数据必须要流动起来它才能产生价值，否则的话它就是一个孤岛，没有什么太大的价值。数据共享，也需要一个前后背景，以学术研究还是产业应用为前提进行共享，这两者的管理治理完全不一样。

以金融行业为例，因为金融行业非常容易出现不合规行为，所以数据的应用和管控会更加严格。比如，如果用来投资，被标为非公开信息的数据会被禁止使用。而关于个人用户隐私层面的管控可能更严，在金融领域里面，有一种“另类数据”。它不是类似传统银行财报这样公开的信息，而是一种新型的数据，比如手机上的GPS数据、网站APP下载的数据。这些也可以用来分析一个公司或者一个国家经济层面的运转程度。

现在越来越多的研究层面开始关注，包含用户信息的数据如何在技术场景里使用。为了解决一个工业界的问题，需要训练模型，那如何在不共享数据的情况下进行机器学习呢？

微众银行人工智能部副总经理吴海山举例解释，“比如用数据去分析用户贷款违约的概率，可能需要A公司电商的数据、B公司社交的数据，但两家公司不可能放心地把数据放到我的平台上……在这种情况下，为了在数据不共享的情况下，依然能够训练机器学习模型，我们首席人工智能专家杨强教授提出了联邦学习，它是一种新型的，能够在保护用户隐私和数据共享的前提下，以一个合法合规的方式去使用数据、训练模型、解决问题，我们觉得这个可能是更加本质的一个问题。”