AI未来如何应对数据饥荒?联邦学习的崛起
- 2019 年 11 月 6 日
- 筆記
大数据文摘出品
来源:medium
编译:Olivia、楚阳、钱天培
人工智能于1956年被设立为一门学科,然而尽管它已有60年的历史,但其发展仍道阻且长。
在诸多阻力中,由数据隐私所带来的道德压力或许最为致命。
诚然,保护消费者隐私是无可厚非的,这是建立信任的基础,但它同时也带来了AI界的数据饥荒,拖了AI发展的后腿。
面对数据饥荒,AI发展的下一步该怎么走呢?联邦学习或许是答案。
作为新兴的人工智能技术,联邦学习有望解决这次AI热潮的数据隐私问题和信任危机,并引领AI的第四次崛起。
AI的动荡命运
AI历经了两次低谷和三次崛起,第三次崛起的标志事件发生在2016年。当AlphaGo打败李世石后,AI的热潮达到了顶点。
纵观AI发展史,每一次的AI热潮都会受到人们的热切关注:它会如何改变工业和人们的生活,与之相关的安全和道德问题也接踵而至。于是,每一个新的AI观点可能会因为饱受争议而被搁置。
AI为何能得如此热议,或许是因为它给出的承诺要比实际能实现的多。
目前,真正智能的机器还是十分少见的,已实现的AI大都只适用于特定场合,要想让AI像营销人员那样识别潜在客户,我们还有很长的一段路要走。但在这一领域,我们并不缺乏远见,越来越多的人想知道AI可以帮助他们实现什么。
眼下正值AI的第三次热潮,未来充满很多的不确定性,历史会将其导向何处,仍未可知。
数据饥荒即将到来
第三次AI崛起很大程度上都是由大数据驱动的。
大数据推动了深度学习在人脸识别等领域的发展,堪称AI浪潮中的一大突破。然而,在更复杂的领域,比如疾病诊断,AI仍然需要弥合商业愿景和技术方法之间的差距。
在这些领域,AI面临的主要问题是数据的可访问性。数据是可得的,但会由于一些原因而无法对其评估。一个企业会因其各部门之间的相互独立而产生数据孤岛,即各部门数据是各自存储和定义的,数据之间缺乏关联性和兼容性,从而增加了数据的沟通成本。
因此,很难获得到大量系统性的数据喂给深度学习模型。基于云架构的数据中心一度被认为是解决数据孤岛的潜在可行方案,但事实证明,大量的数据会使得云计算费时而耗财。
同时,越来越严密的数据隐私法规(比如《通用数据保护条例》)也使得数据变得难以访问。
AI要在数据隐私和高效率的机器学习的夹缝中求生存。
联邦学习——AI的第四次崛起
保护消费者隐私是无可厚非的,这是建立信任的基础。但它同时也带来了AI界的数据饥荒,拖了AI发展的后腿。
联邦学习作为新兴的人工智能技术,有望解决这次AI热潮的数据隐私问题和信任危机并引领AI的第四次崛起。
它是一种机器学习架构,在保护用户数据不泄露并遵循数据保护法规的前提下允许多方企业参与,并利用各方数据集来训练模型。根据不同的数据分布特征,联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习。
横向联邦学习根据用户特征来划分数据集,即当不同数据集之间的用户特征重叠多于用户重叠时,采用横向划分数据集,取出各数据集中用户特征相同而用户不完全相同的数据进行训练。
举个栗子,有三家物流公司分布在不同的地域,它们的业务是相似的,因此三家数据集拥有相同的用户特征,但其用户并不完全相同,拥有相同用户特征的用户数据可被提取出来以训练模型。
纵向联邦学习适用于数据集之间的用户重叠多于用户特征重叠的情况。比如位于同一地域的两家性质不同的机构:医院和外卖公司,它们的用户群体可能因为地域相近而交集很大,但医院记录的是用户的健康特征,外卖公司记录的是用户的消费特征。纵向联邦学习便利用用户来划分数据集,它可以汇集所有的用户特征以增强双方的模型。
当数据集之间的用户重叠和用户特征重叠都交较少时,可使用迁移联邦学习来克服单边数据规模小和标签样本少的问题。好比中国制造厂和美国物流公司的数据集,无论是在用户特征还是在用户上数据集的交集都很小,此时,引入迁移学习来定义数据集之间的通用表述便可提升联邦学习的性能。
尽管联邦学习的能力是十分出色的,但并不意味着一劳永逸。联邦学习须被开发成商业应用程序,针对特定的用户制定灵活、双赢的商业模式。在保证各方数据隔离的前提下,联邦学习可以联合各机构之间的数据孤岛来建立更完美的模型以实现共享经济。各机构凭借其分享的数据获益,而应用程序开发者则凭借其对模型的贡献而获益。
相关报道:
https://towardsdatascience.com/the-future-of-ai-in-the-face-of-data-famine-42d1fe36355c