打破数据孤岛:联邦学习近期重要研究进展( 三 )

系统异质性。由于客户端设备硬件条件(CPU、内存)、网络连接(3G、4G、5G、WiFi)和电源(电池电量)的变化,联邦学习网络中每个设备的存储、计算和通信能力都有可能不同。网络和设备本身的限制可能导致某一时间仅有一部分设备处于活动状态。此外,设备还会出现没电、网络无法接入等突发状况,导致瞬时无法连通。这种异质性的系统架构影响了联邦学习整体策略的制定。

统计异质性。设备通常以不同分布方式在网络上生成和收集数据,跨设备的数据数量、特征等可能有很大的变化,因此联邦学习网络中的数据为非独立同分布(Non-indepent and identically distributed, Non-IID)的。目前,主流机器学习算法主要是基于 IID 数据的假设前提推导建立的。因此,异质性的 Non-IID 数据特征给建模、分析和评估都带来了很大挑战。

隐私问题。联邦学习共享客户端设备中的模型参数更新(例如梯度信息)而不是原始数据,因此在数据隐私保护方面优于其他的分布式学习方法。然而,在训练过程中传递模型的更新信息仍然存在向第三方或中央服务器暴露敏感信息的风险。隐私保护成为联邦学习需要重点考虑的问题。

推荐阅读