打破数据孤岛:联邦学习近期重要研究进展

机器之心原创

作者:仵冀颖

编辑:H4O

随着移动电话、可穿戴设备和自主车辆等的推广和普及,分布式网络中的设备每天都会产生大量数据。设备计算能力不断提升,使得在设备本地存储数据并完成计算成为可能。与传统的基于数据汇聚共享、集中存储和集中处理的机器学习技术不同,利用联邦学习技术直接在设备本地端探索训练统计模型的分布式机器学习处理框架受到越来越多的关注。

在联邦学习框架中,中央服务器保存初始化可共享的全局数据。各个客户端(参与者、边缘设备)保存本地数据,并根据本地数据训练本地机器学习模型。客户端根据一定的通信机制向中央服务器传输模型参数等数据(不会传输完整的客户端原始数据),中央服务器汇聚各客户端上载数据后训练构建全局模型,各个客户端在整个联邦学习机制中身份和地位相同。联邦学习有效解决了两方或多方数据使用实体(客户端)在不贡献出数据的情况下的数据共同使用问题,解决了数据孤岛问题。此外,在各个客户端数据特征对齐的前提下,联邦学习的全局模型能够获得与数据集中式存储相同的建模效果。联邦学习对于隐私保护、大规模机器学习方法和分布式优化等有着特别要求,由此衍生出了交叉学科的新研究方向,包括机器学习和系统架构设计等。

推荐阅读