针对这个问题,来自于香港科技大学、星云Clustar以及鹏城实验室的研究人员联合发表了《量化评估联邦迁移学习(Quantifying the Performance of Federated Transfer Learning)》。该论文通过对联邦迁移学习框架进行研究,提出了联邦学习在实际应用中所面临的性能方面的挑战,并给出了相应优化方案。
联邦学习理论基于查分隐私对数据进行保护,若干数据持有者可以在原始数据不离开本地的前提下实现联合模型训练。但是最初的联邦学习体系中,参与者之间必须保证数据的特征空间完全相同。举例说明,如果A公司持有的数据包含用户性别、年龄、年收入等信息,则B公司的数据也必须包含这些信息,才能和A公司进行联邦学习。除此之外,该体系还存在噪声对模型精确度造成影响、仍存在部分敏感信息传递等问题,这就限制了联邦学习在实际生产中的应用前景。为了摆脱这一系列限制,联邦迁移学习(Federated Transfer Learning)于2018年被提出。在该理论中,训练所使用的多个数据集,无需保证特征空间的一致。另外,该理论使用同态加密替代差分隐私对隐私数据进行保护。这些改进为联邦学习对金融、医疗等场景中的应用带来了极大的便利。但是联邦迁移学习在实际使用中遭遇了严重的性能不足问题。联邦迁移学习的典型工作流程如图一所示,其中需要三个不同的参与者:Guest、Host和Arbiter。其中Guest和Host是数据持有者,同时也负责主要的数值计算和加密工作;Arbiter在计算开始前生成密钥,并发送至Host和Guest,此外,Arbiter负责训练过程中的梯度聚合以及收敛检查。如果Host和Guest所持有的数据中样本不同而特征相同,这种联邦迁移学习被称为同构的或横向的(homogeneous);如果双方数据集样本相同而特征不同,则称联邦迁移学习为异构的或纵向的(heterogeneous)。在训练过程中,Host和Guest首先使用本地数据进行初步计算,并对计算结果进行加密,这些中间结果可以被用于梯度和损失的计算。接下来,双方将加密结果发送至Arbiter进行聚合,Arbiter对密文进行解密后,返回给Host和Guest,双方使用接收的数值更新本地模型。联邦迁移学习需要重复此训练过程,直至模型收敛。
作为机器学习在隐私计算中的拓展延伸,联邦迁移学习对打破数据孤岛,实现数据的更高价值有极其重要的作用。但是和所有的安全计算系统类似,性能和安全之间的平衡难以把控。现有的联邦迁移学习系统框架还远无法满足实际生产中的性能需求。通过深入的性能分析,计算、内存拷贝以及数据传输等环节中的开销问题,都是联邦迁移学习的端到端性能恶化的重要原因。为了实现联邦迁移学习在更多场景中的落地,结合多样的解决方案对各个环节进行针对性优化不可或缺。参考文献Jing Qinghe, Weiyan Wang, Junxue Zhang, Han Tian, and Kai Chen. “Quantifying the performance of federated transfer learning.” arXiv preprint arXiv:1912.12795 (2019).