原创<br> 数据共享的核心在定价,数据开放与隐私保护探讨 | AI Time( 四 )
清华大学交叉信息研究院徐葳副教授
的确,数据必须要流动起来它才能产生价值,否则的话它就是一个孤岛,没有什么太大的价值。数据共享,也需要一个前后背景,以学术研究还是产业应用为前提进行共享,这两者的管理治理完全不一样。
以金融行业为例,因为金融行业非常容易出现不合规行为,所以数据的应用和管控会更加严格。比如,如果用来投资,被标为非公开信息的数据会被禁止使用。而关于个人用户隐私层面的管控可能更严,在金融领域里面,有一种“另类数据”。它不是类似传统银行财报这样公开的信息,而是一种新型的数据,比如手机上的GPS数据、网站APP下载的数据。这些也可以用来分析一个公司或者一个国家经济层面的运转程度。
现在越来越多的研究层面开始关注,包含用户信息的数据如何在技术场景里使用。为了解决一个工业界的问题,需要训练模型,那如何在不共享数据的情况下进行机器学习呢?
微众银行人工智能部副总经理吴海山举例解释,“比如用数据去分析用户贷款违约的概率,可能需要A公司电商的数据、B公司社交的数据,但两家公司不可能放心地把数据放到我的平台上……在这种情况下,为了在数据不共享的情况下,依然能够训练机器学习模型,我们首席人工智能专家杨强教授提出了联邦学习,它是一种新型的,能够在保护用户隐私和数据共享的前提下,以一个合法合规的方式去使用数据、训练模型、解决问题,我们觉得这个可能是更加本质的一个问题。”
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 腾讯游戏|霸王条款!腾讯游戏共享玩家信息给第三方,你同意吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做
- 卡牌|S11淘汰赛数据出炉,卡牌24场全被ban,压刀最多竟是辅助
- edg战队|堡垒之夜国服将清除数据,EDG创造队史晋级S11世界赛决赛