浙江大学求是讲席教授任奎:隐私计算的前沿进展

  • 2022 年 1 月 17 日
  • AI


作者 | 维克多

编辑 | 青暮

2021年12月17日,浙江大学求是讲席教授、ACM Fellow、IEEE Fellow、浙江大学网络空间安全学院院长、计算机科学与技术学院副院长任奎在CNCC 2021 “迎接数字化转型的安全挑战”论坛中做了《隐私计算:向实用化迈进》的报告。

在报告中,任奎围绕数据脱敏、差分隐私、安全多方计算三个方向,讨论了隐私计算的前沿进展,提出不同技术可以在数据全生命周期的不同阶段发挥作用。

以下是演讲全文,AI科技评论做了不改变原意的删改和整理:

今天分享浙江大学网络安全学院在隐私计算方面的思考和研究,题目是《隐私计算:向实用化迈进》。

目前,随着大数据时代的到来,隐私数据泄露问题日益突出,例如国内互联网大企业由于严重违法违规收集使用个人信息被勒令下架整改,国外的拥有亿级用户的互联网大企业的个人隐私数据被泄露。因此,无论在哪个国家、科技公司还是传统行业,都在面临数据和隐私泄露问题。

在这种背景下,世界上各个国家对监管与合规的要求都变得越来越严格。从中国角度,2012年第十一届全国人民代表大会常务委员会就通过了《关于加强网络信息保护的决定》;2016年通过《中华人民共和国网络安全法》,这部代表性的法律也体现了中国对数据安全隐私的重视;尤其近两年,国家部门也从各个角度颁布相关法律,形成了比较完善的法律体系。例如《数据安全法》《个人隐私保护法》等等,其具体抓手也越来越明确。

从世界范围内来看,欧盟在《通用数据保护条例》(GDPR)落地之后,开了很多大额罚单,这既体现了日益严重的数据隐私泄露问题,也体现了越来越严格的监管合规要求,同时也给研究领域和产业领域带来了很多机会。

Gartner 在2021年对数据隐私保护战略做了预测:到2023年底,全球75%的人口的个人数据将受到现代隐私法规的保护;到2023年底之前,全球超过80%的公司将面临至少一项以隐私为重点的数据保护法规;到2024年,全球隐私驱动的数据保护和合规技术支出将突破150亿美元。因此,挑战和机遇并存,困难与希望并存。

日益严格的法律法规,也提醒我们回顾一下广义上隐私计算的涵盖范围与发展。广义上的隐私计算指 “两个或者多个参与方在不泄露各自数据的前提下,通过协作对数据进行联合计算处理。”

其实,这里隐含“安全性”和“高效性”两个关键词。从1982年安全多方计算、1983年可信计算、1985年零知识证明、2006年差分隐私到2016年联邦学习,相关技术在不断发展,都在围绕安全与效率而做努力。

隐私计算渗透影响到数据全生命周期的各个阶段。围绕数据收集、处理、存储、共享、传输、销毁的六个过程,有各种隐私计算的相关技术可以嵌入。下面主要讨论安全多方计算、差分隐私、数据脱敏三个方面。


1

安全多方计算前沿进展

安全多方计算是密码学研究的一个重要分支,通俗定义是:为解决一组互不信任的参与方之间在保护隐私信息以及没有可信第三方的前提下协同计算问题而提出的密码协议与理论框架。

狭义的安全多方计算主要包括以下两种实现方式:

1. 针对布尔电路以姚氏混淆电路方式实现的两方协议;

2. 针对布尔电路或者代数电路以秘密分享方式实现的两方或者多方协议。

在广义上,全同态加密、可信硬件以及联邦学习都可以看做安全多方计算的技术框架。

在应用程度上,安全多方计算可以分为通用安全多方计算,可以支持大多数计算任务,实现常用基本计算算子协议,例如加、乘、比较、矩阵运算,将具体计算任务分解到基本算子;专用安全多方计算,以“高效实现专用实用计算任务”为目标,可以针对专用计算任务和应用场景定制多方安全计算协议,常见的专用协议包括隐私保护求交集、隐匿查询、零知识证明、联合建模等等。

目前,业界针对安全多方计算开发出了各种产品,但如何进行比较?我认为可以通过安全假设、性能以及安全保障三个维度进行评测。例如在安全假设中,采用的是同步、异步、半同步中的哪种网络假设?敌手模型采用的是半诚实、恶意还是隐匿作恶?

而在安全保障中,应该考虑隐私性、正确性、公开可验证性、健壮性以及公平性等六个角度。此外,在“前提”和“保障”之间,技术产品实现的性能如何?例如参与方数据是否平衡、参与节点算力是否对称等等。

国家也开始积极的探索,例如信通院提出《隐私计算多方安全计算产品性能要求和测试方法》,通过基础运算、联合统计、盈利查询、安全求交等等维度考虑产品性能。

目前在学术界,安全多方计算也在稳步发展。在基于混淆电路的安全多方计算前沿协议层面,如上图所示,针对参与方数量、门限、敌手模型以及入侵假设,都研究了对应的“方法”。

基于秘密分享的安全多方计算前沿协议层面,已经有大量的开源安全多方计算框架,如CrypTFlow、 PySyft、 Rosetta等支持机器学习的框架;MP-SPDZ、 SCALE- MAMBA等通用框架。前者对性能要求更高,后者认为安全是“第一要务”。

零知识证明领域前沿协议层面的进展如上图所示,在加速、计算量、证明大小等方面各有千秋。

隐匿查询前沿协议层面,目前最好的技术属于微软和谷歌。它们完成百万级的查询,大概只需要2秒~4秒。在安全求交前沿协议层面,考虑150Mbps带宽的情况下,也能达到10秒~30秒的百万级查询。

联合建模层面,Sp’17和PETS’20虽然在性能的表现不是最好,但是在安全层面却是最严谨的,都能保证只泄露最终模型,不泄露中间结果。

目前,浙江大学也在安全多方计算领域开展了一些工作。例如研究统一MPC隐私性度量标准;研究统一安全假设的评分标准与各维度的权重;研究统一安全保障的评分标准与各维度的权重;研发安全多方计算靶场;完善安全多方计算性能测评标准与平台等等。



2

差分隐私前沿进展

差分隐私和密码学不太相关,是较新的概念。其思想和工作原理大致可以理解为:在数据中加入噪音,使得统计学相关的查询既能得到有效的数据,又能保证安全。学术上的定义是:通过建模单个参与者对数据造成影响,实现对隐私保护(泄露)程度的量化。

目前,该方法可以分为两种:全局差分隐私,可信的数据管理者收集数据并在数据集的统计结果上添加扰动;本地差分隐私,用户在本地对数据添加扰动后,发送给非可信的数据管理者。

从计算角度看,差分隐私能在一定的程度上解决“密码学手段开销过大”的缺点。对比加密方法解决数据计算过程中的隐私泄露,而差分隐私方法解决计算结果的隐私泄露。目前,差分隐私的部署和使用大多为政府机构与互联网巨头。

例如,2016年苹果在WWDC大会上宣布使用基于CM- Sketch和阿达马变换的本地化差分隐私技术来保护IOS、MAC用户隐私。相比于布隆过滤器, Count- Min Sketch更适用于频率统计任务;阿达马变换也能有效降低通信开销。但有研究人员认为苹果在实际应用中设置的隐私预算参数超出了可接受的范围,隐私保护能力不够强。

微软也有相应的动作,并在2017年将差分隐私方案部署到了win 10系统中。此外微软和哈佛大学合作推出了 OpenDP开源差分隐私平台,希望降低中小开发者应用差分隐私的门槛。

阿里巴巴也在 Datatrust隐私增强计算平台中部署落地差分隐私保护的联邦学习决策树训练。

差分隐私之所以受到关注,主要是它有严谨的理论模型,提供了可验证的量化隐私保护机制;提供了传统密码学无法提供的隐私保护手段,具有更轻量级的计算负载,提高了隐私保护效率。

但也存在理论和应用上的挑战。例如在理论层面,数据可用性较差:差分隐私在查询结果中加入随机化,导致数据可用性下降;数据类型有限:缺乏针对复杂数据类型的有效差分隐私保护方法。

在应用层面,差分隐私不适用于单一样本的确切信息查询;复杂应用场景下差分隐私得到的结果误差较大;并且,目前还缺乏测试算法(乃至自动测试算法)是否符合差分隐私的方法。

如今,学术界针对差分隐私的机制优化有了一些进展。例如上图所示的最优机制设计、机制后处理、最优机制搜寻等工作。

相应地,Shuffle机制、Subsample机制的提出增添了差分隐私放大机制的研究。

针对应用难题,学界也提出了差分隐私正确性测试方法,包括多轮采样与概率论技巧相结合的方法、程序分析的方法等等。



3

数据脱敏前沿进展

数据脱敏( Data Masking)是根据制定的脱敏规则,针对敏感信息进行数据变形或形成遮蔽,降低数据的敏感级别,扩大数据可共享和被使用的范围,达到保护隐私数据安全的目的。

根据是否脱离生产环境,数据脱敏可以分为动态数据脱敏和静态数据脱敏。前者对敏感数据的查询和调用结果进行实时脱敏。在访问敏感数据的同时实时进行脱敏处理,可以为不同角色、不同权限、不同数据类型执行不同的脱敏方案,从而确保可用而安全。

后者(静态数据脱敏)是指数据脱敏后分发至测试、开发、数据分析等场景。是数据的“搬移并仿真替换”。将数据脱敏处理后,下发给下游环节取用和读写。脱敏后数据与生产环境相隔离,满足业务需求的同时保障生产数据库的安全。

如上图所示,数据脱敏有很多方式。例如数据一致性脱敏、遮蔽脱敏、保持数据格式脱敏、泛化脱敏、保持数据特征脱敏等等。

作为数据安全防护工作的重要一环,数据脱敏技术和产品已作为常规手段,而敏感信息依赖于实际业务场景和安全维度,识别和梳理具体业务场景的敏感字段迫在眉睫。同时,目前市场上的数据脱敏供给商可分为信息安全服务服务商、自研自用企业以及通用数据脱敏工具开发商三类。但在全球范围内尚未形成脱敏的具体标准。

目前,浙江大学与阿里巴巴合作开发了DMS数据管理系统,包含了40万个实例、400万数据库、10亿张表,能够实现根据敏感数据自动分级分类、异常访问风险识别等等功能。

数据脱敏的应用非常广泛,但也存在一些难点。例如如何确定数据脱敏的目标字段?当前选择脱敏数据目标字段主要依赖于人工标记,在准确性、安全性和高效性上仍有较大缺陷 。

如何保证数据脱敏过程的安全性? 当前主流算法的脱敏过程仍不完善,有泄露和被取击的风险。

如何评判数据脱敏结果的脱敏程度?目前市场上有许多种类的脱敏工具和算法技术,但是没有一种统一的标准来量化和衡量脱敏结果的好坏。

总结一下,数据市场依托隐私计算打破数据孤岛非常重要。从数据脱敏、数据溯源到数据融合,再到数据确权、数据定价,隐私计算已经发展出了非常有潜力的技术,它在未来数据要素化资产市场配置过程中也会起到底座作用。

综上所述,随着数据安全监管与合规要求的日益严格,隐私计算技术所面临的机遇与挑战、困难与希望并存,是未来迎接数字化转型的重要安全问题之一。


推荐阅读

群雄并起,隐私计算创业人的前路在哪里?——七位大咖论道 |GAIR 2021

2021-12-18

工程院院士孙凝晖:计算机系统的演进规律,从求极致到求通用|CNCC 2021

2021-12-23

CNCC 2021重磅启幕:与John Hopcroft、孙凝晖等数十位顶级学者,共飨计算机年度盛会

2021-12-17

雷峰网雷峰网