打破数据孤岛:联邦学习近期重要研究进展( 二 )

下图为联邦学习在手机中输入的下一个词预测任务中的应用实例 [1]。为了保护文本数据的隐私性并减少对通信网络产生的压力,联邦学习以分布式的方式训练预测器,而不是将原始数据发送到中央服务器集中训练。在此设置中,远程设备定期与中央服务器通信以构建全局模型。在每个通信回合中,所选手机终端的一个子集对其非独立同分布的用户数据执行本地训练,并将这些本地更新发送到中央服务器。汇聚更新后,中央服务器将新的全局模型发送回其它设备子集。这个迭代训练过程在整个网络中持续,直到达到收敛或满足某种终止标准。

打破数据孤岛:联邦学习近期重要研究进展

图1/49

经典的联邦学习问题基于存储在数千万至数百万远程客户端设备上的数据学习全局模型。在训练过程中,客户端设备需要周期性地与中央服务器进行通信。目前,联邦学习面临的难点主要包括四个方面:

高昂的通信代价。在联邦学习问题中,原始数据保存在远程客户端设备本地,必须与中央服务器不断交互才能完成全局模型的构建。通常整个联邦学习网络可能包含了大量的设备,网络通信速度可能比本地计算慢许多个数量级,这就造成高昂的通信代价成为了联邦学习的关键瓶颈。

推荐阅读