李宏宇:知识联邦,用知识共创实现数据的可用不可见

作者 | 蒋宝尚、周蕾

8月7日-8月9日,2020年全球人工智能和机器人峰会(简称“CCF-GAIR 2020”)在深圳如期举办!CCF-GAIR由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办,以“AI新基建 产业新机遇”为大会主题,致力打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

8月9日上午,在「联邦学习与大数据隐私专场」上,同盾科技人工智能研究院首席专家李宏宇博士做了题为「同盾智邦-知识联邦平台:打造数据安全的人工智能生态系统」的演讲。

李宏宇:同盾科技人工智能研究院首席专家,师从国际模式识别学会会士、芬兰模式识别协会主席Jussi Parkkinen教授,相继获得复旦大学以及东芬兰大学计算机科学博士学位。曾任同济大学软件学院副教授、博导。李宏宇博士在图像处理和分类、生物特征识别、OCR、机器学习和深度学习等人工智能的多个领域有着深厚造诣和应用成果,在国际权威学术期刊和一流的国际会议上发表了近80篇学术论文,发明专利20余项,出版专著1部。

以下是李宏宇在大会的演讲实录,AI科技评论作了不修改原意的整理和编辑:

 

今天演讲主题是《同盾智邦-知识联邦平台:打造数据安全的人工智能生态系统》。那么什么是知识联邦?作为一个新的概念,它背后代表着知识共创可共享。具体而言,通过知识的共创和共享,从而实现数据的可用不可见。

 

从知识的形成的过程来看:从数据到信息,再到知识,最后到利用知识形成决策,知识联邦的目的是希望能够利用各种知识,包括训练出来的模型知识以及逻辑规则等已有的先验知识。

 

我下面将从背景、相关概念和应用的场景分别探讨知识联邦。

 

背景:各种技术融合统一

 

人工智能的发展离不开数据的支撑,但是现在数据孤岛是普遍存在的现象。例如,机构间存在数据孤岛,企业内部也存在数据孤岛。更有研究表明,现在有92%的企业内部存在非常严重的数据孤岛的现象。

其实,解决数据孤岛不仅是简单地把数据汇集起来,还需要考虑数据安全问题。从最近两年的数据泄露事件就能看出问题的严重性。所以,每一次产生重大社会影响的数据泄露事件都意味着数据安全和隐私保护的确是需要更严格的监管。

在此大背景下,我们也看到在国内一系列法规的进展,例如在今年3月份,最新版本的《个人信息安全规范》,以及央行的个人金融信息的保护技术规范,都能看出数据安全法规的进化明显。

尤其是7月初的时候,《数据安全法》草案已经开始在征求意见,标志着一系列宏观的政策在不断地演变,国内对于数据的管控将会更加严格、更加全面。

相关概念:层次化的框架体系

 

“数据安全”的大环境下,数据隐私的各种问题催生了联邦学习,其实,在过去的这些年来,无论是大数据还是人工智能,每个领域都有一些关于隐私计算的研究,这些研究虽然路线不同、技术方法不同,但是已经逐渐呈现融合统一的趋势,也就是打造数据安全的人工智能。在这里我们叫它知识联邦。

 

如上图所示,知识联邦包含了两层意思,一层是知识,一层是联邦。其中,知识不仅包括模型、也包括逻辑规则或者模式。同时,知识也不是单纯通过训练学习出来的,它还包括经验知识、先验知识,这些可能是常识和行业领域知识,不需要再训练学习。

如何把分散在不同的行业或领域里的知识,充分地利用起来?这就是知识联邦所要做的事情,简单而言是通过数据安全交换协议,利用多个参与方的数据,进行知识的共创、共享和推理。最终的目标是要实现数据可用不可见。

注:不同于密码协议,数据安全交换协议定义了如何在多个参与方之间进行数据交换的过程。

知识联邦不是一个单纯的技术方法,它是一套框架体系。这个框架体系可以根据联邦发生的阶段,划分为四个层次。第一是信息层的联邦,在数据转换为信息的时候,把这些信息进行计算或者处理,涉及的技术是安全多方计算。然后通过某些先验的知识,通过某些规则直接提取出有价值的信息,最后形成联邦。

第二个是模型层的联邦。也就是通常提到的联邦学习,涉及到模型参数的更新。

第三个是认知层上的联邦。对已有的模型训练、学习,形成了一些浅层的知识,我们再将这些浅层知识联合在一起,进行集成学习,从而得到更优、更好、符合特定应用场景的知识。

第四个是知识层上的联邦。在不同的行业、不同的领域之间有很多知识库,在不同领域、行业的知识库上进行知识推理,就是知识层联邦。所以知识联邦不是单纯的某一种应用方法,它统一支持了所有的安全多方应用,包括安全多方计算,安全多方学习,安全多方数据共享,以及联邦推理、联邦预测等一系列的综合体。

应用介绍:隐私保护相关行业

知识联邦在很多行业里有广泛应用的价值。例如金融领域,做为一个数据监管非常强的行业,知识联邦在此领域的应用更为全面。知识联邦的信息层可以用来解决多头共债的问题,在模型层解决智能风控的问题,反欺诈和企业征信可以分别在认知层和知识层解决。

先看多头共债的问题。通常一个用户可能会与多个平台发生一些借贷关系,这时候就陷入了共债。一旦这个用户发生资金的问题,就有可能导致系统性的风险,甚至导致金融行业的大波动。解决多头问题,通常的方式是能够多头评估个人真实的收入。换句话说,就是得到此人的累计的授信和实际已经发生的借贷。但是这样有可能会泄露很多查询隐私。

利用知识联邦的查询方式是:提出需求之后第三方向各方查询,查询的时候每家参与机构分别计算他已经得到的授信或风险,把风险通过密文的方式传送给第三方,第三方再把所有的密文结构汇总,汇总之后返还给主动查询方,如此便能保证数据隐私的安全。当然,在这个过程中需要进行一些加密或者同态加密的算法,但是现有很多同态加密的算法耗时非常大,如果能融合知识联,就能够使它的效能大大提高。

再看智能风控的问题。在解决这个问题的时候,知识联邦方案中采用的是一种不经意传输的方案,让没有标签一方的数据通过多种标签组合的方式,然后形成多种结果,再把中间结果返还给有标签的一方,让它进行筛选,从而挑选有用的信息使用。

如上图真实场景当中的数据示例。假定在数据对齐之后有20万条70维的特征和标签,以及180维的B方的数据,这时如果只使用单方的数据,其KS值相对比较低,如果使用联邦学习,哪怕是性能一般的方法,也会有明显提升的。

 

下面介绍一个工业级的应用产品:智邦平台。随着人工智能的演进,在过去每隔30年,人工智能都有一个非常大的变化,我们是处于AI2.0的时代,如果说这时的AI已经“稍微”有点感知,那么未来知识联邦会是AI3.0的必由之路,帮助AI获得、使用更多的知识。

 

为了迎合未来的“趋势”,我们打造出了智邦平台,做为知识联邦的参考实现,目的是解决真实应用当中遇到的几个问题:

 

首先是提供数据安全交换的协议,这是非常重要的一环,因为想知道联邦到底安不安全,一种验证方式是开源,另外一种方式就是需要非常清楚数据交换过程中发生了什么事情。

 

第二个是解决了多方参与的数据问题,因为每家机构的数据都是有异构存在的,多元异构的问题是打通所有参与方,形成数据联盟的痛点。

 

第三个是一站式产品闭环的问题。从特征选择、特征预处理、数据预处理,到算法管理、安全保护,以及最后的模型发布,这一系列产品流程的闭环。

总体上来讲,智邦除了通用的功能和场景化的应用算法之外,底层包含了FLEX协议和数据沙箱,做为支撑平台的两条腿,非常重要。 

简单看一下FLEX协议。第一个内容是特征选择,在特征选择的过程当中,都希望不要进行单方的特征选择,否则对方的特征无法发挥它的价值。平台提供了两种特征选择的方式,性能明显是要比只使用单方的数据进行特征选择的效果好很多。

 

另一个内容是样本的安全对齐。样本对齐要求保护交集外的数据,平台提供的方式能够做到这一点。而在真正的应用当中,还有更严格的要求:参与方都希望保护交集内的数据,所以平台提出一种方案叫做双盲对齐。

除了FLEX协议,平台的另外一条“腿”是数据沙箱。它解决的问题是如何把多元异构的数据标准化,然后将统一的数据进行接入。面对“不同的参与方有不同的结构数据,甚至字段定义、命名规则”的问题,可以通过沙箱可以快速实现标准化的处理。另外,沙箱里面也实现了数据分类分集,即根据不同的类型、不同的应用场景的数据,赋予其不同的脱敏加密方式,然后统一加密脱敏的方式,最后保证输出的所有参与方数据都保持一致。

 

同时,沙箱是一个独立的组件,它能够对多个参与方之间的数据进行虚拟的融合,从而实现安全的多方数据共享。

 

回过头来看联邦生态中涉及到的角色,有两大类。首先是数据提供者,其次是数据的使用者,包括模型的设计者和模型的使用者。一个真正的联邦生态会兼顾数据的提供者和数据的使用者两方,即不会让数据的提供者担心数据的真正使用方是谁,模型的设计者是谁。

 

联邦如何激励参与方加入生态呢?其实所有不同的参与方都有自己的需求,例如数据提供者的原始动力是通过数据进行价值变现、价值最大化。模型的使用者的原动力来自于提升核心竞争力的渴望,同时希望扩大行业影响力。

OMT:同盾科技

 

同盾科技成立于2013年,总部位于杭州。是一家专注于做智能分析与决策的公司,目前已经为金融、保险、互联网、政务等行业服务了上万家企业客户。

同盾科技一直作为独立第三方的角色,持续在人工智能、云计算、大数据分析等方面做了很多的创新。

在历年的发展过程当中,同盾科技也持续得到了政府、市场以及投资机构的认可,在今年的时候,成功入选了国家科技创新2030“新一代人工智能重大项目”。

同盾一直以来把人工智能技术的创新与应用作为战略重点,我们在2018年专门成立了AI实验室,在2019年进一步升格成为人工智能研究院,以人工智能研究院为核心载体,稳步推动人工智能战略的布局和实施。在今年初又在美国硅谷成立了美国的AI实验室。

团队的成员非常专注于人工智能底层技术的研究和应用的探索,有着非常丰富的工作经验。例如,团队的领军人物李晓林教授是美国公立常春藤名校佛罗里达大学的终身教授,创立了美国首个国家级深度学习中心,现在专职在同盾工作。

此外,同盾科技背后还有一个非常强大的专家顾问团队,有浙大的潘云鹤院士,还有复旦的杨珉教授,他是国家973首席科学家,也是同盾移动安全领域的首席科学家。

 

同盾科技在产学研合作方面已经做了非常广的部署,已经跟浙江大学、复旦大学、西北工业大学建立了长期的合作,也跟很多大学的金融机构,例如招联、建行,成立了联合的实验室,主要聚焦在一些创新性的研究和联邦学习的落地应用。

 

演讲结束后,李宏宇也接受了雷锋网的采访,以下为雷锋网与李宏宇的对话实录。

 

问:目前学术界会有哪些标准去衡量联邦学习的效果?

李宏宇:联邦学习衡量好坏,其实要分两个方面。

一方面是说,它的性能在联邦之后和之前相比,是否有本质上的大幅提升?就像我们在演讲中提到的,如果单纯用一家参与方的自有数据去训练学习,可能它只能达到ks值0.35;但借用了其他参与方的一些数据优势之后,可能会达到0.37甚至更高。

此时从指标上来讲是没有变化,但从性能对比上来讲,它一定会是远远大于那种使用单方数据的情况。当然这里面取决于其他参与方的数据质量如何,就是所谓的数据贡献,它能达到什么级别。同时,它一定不会超过双方数据合在一起后达到的性能效果。

另一方面是安全问题,这时候需要对数据流通过程审计:到底流通了什么数据?在整个数据流通过程当中是否安全合规?是否符合个人信息保护规范和数据安全法的要求? 

具体来讲,不同机构可能各自在数据流通过程中采用了不同的加密安全策略,所以没有一个固定的标准。这也是未来两年我们急需完成的事情,推动行业标准、国家标准,确定联邦过程、安全认证等级等。

问:有研究指出,联邦学习方法中梯度信息的泄露可以反推出部分数据,请问是有这样的情况存在吗?有没有相应的对策?

李宏宇:如果是纯粹的联邦过程,利用梯度之间的迭代,那是容易被攻击泄露一些隐私信息,这是可以反推的——但真正的应用当中不会这么简单,除非对方是一个非常好的黑客,同时懂得网络安全和底层模型加密所有安全策略,否则很难做到。

在数据流通全过程中,有做了几段数据加密过程,在数据预处理时就已加密脱敏。训练过程中又对模型的梯度参数进一步同态加密。之后传给联邦域,又要做非对称加密的网络通道传输——这是一层套一层的保护壳,到最后才保证真正的产品应用。

如果抛开这些东西,只是在理想的实验环境下,比如拿一张图片做所谓的联邦训练,这过程中会有梯度产生的隐私泄露,等于是明文数据直接用。但在真实的场景当中,尤其是在金融行业里面,是不可能直接拿着这些明文数据直接用。也就是说理论层面上会有这个情况,但实际应用的层面上不会这样简单直接被攻破。

问:现在联邦学习发展很快,可以说它是个成熟的技术了吗?

李宏宇:联邦学习不仅仅是说联合建模这一件事情,其实早期已经有联合建模的方式了,现在联邦学习是用一种更安全的方式、走线上平台来实施联合建模。

技术是否成熟到可以应用的级别?我们同盾的智邦平台就是非常成熟的工业级应用产品,得到了合作伙伴们,尤其是大型金融机构的一致认可,产品不需要他们再做任何二次改造。

问:智邦平台推出以来,合作对象主要是哪一些类型的公司?或者侧重哪些业务的应用?

李宏宇:金融里最多的一种是消金、小额贷这种公司做风控,客户群体特征非常鲜明,他们只有少量的自有数据,维度特征有偏差,属性维度也不可能很多种,更需要借助第三方的数据提供方补充,提升模型整体效果。尤其是在同盾的业务体系当中,原来很多客户都是通过联合建模的形式来对外提供服务,现在他们都已经转向了智邦平台。

第二种更多的是银行这种大型金融机构,他们要么不参与,要么就搭建自己的平台,完成整个生态的搭建。

现在很多大型银行,内部数据孤岛问题很严重,子公司之间往往都因为数据安全而无法充分集成和共享数据。这个时候他们更想要采购一个大的平台,完成自有生态里的补充,打通所有数据孤岛,解决数据安全问题。

问:联邦学习在同盾科技的战略布局中是怎样的地位?

李宏宇:联邦学习的确是同盾的生态体系中一个战略重点项目,也是我们未来提供智能决策和分析服务的基础设施,我们也会逐步把原有生态里相关业务通过智邦平台对外提供数据安全的智能服务。

我们的目标是打通所有的生态体系,在数据提供者和数据模型使用者之间的建立隔离屏障,让数据提供者不需要关心谁来使用,数据模型使用者不用关心数据到底分布在哪里。

问:今年开始,金融科技开启新十年,您预测接下来这几年会有什么新趋势?或者您会用哪些关键词来描述?

李宏宇:近年来,我国的金融科技发展在国际上算是领先,但也面临着“野蛮生长”的问题,现在已经到了要收紧、趋严监管的状态了。这个状态下,一些金融公司的自有数据明显不能够支撑智能化升级,它们就面临着生存的压力。

比如贷前审核,如果风控模型做得不够好,就会产生一系列隐患,它们一定希望开放,但同时安全隐患要消除。最后结果一定是通过技术来实现安全和开放的融合。

在研究层面上,模型算法可能并不是最关键的,应用落地、解决问题才是。人工智能也好,创新性的安全算法研究也好,其实都会不断更新,但我认为这都不会是行业里的主题,主题应该还是安全、开放和融合。