APSI – 2
上一篇 APSI-1 其实就是对开源库README文件的一个翻译加上自己的一点点理解,因为篇幅过大,导致继续编辑有些卡顿,所以新开一篇继续。
前面介绍了APSI的大致技术、优化方法、以及举例说明了主要流程(unbalanced-PSI)。
下面主要介绍labeled-PSI!
Labeled Mode
Basic Idea
label模式和前面讲的没有太大区别,但需要一些额外的解释。receiver除了想要知道其查询项是否在sender的集合中之外,还想知道发送方与这些项关联的数据,即交集数据对应的label。(sender中存储的数据视为key-value)。
换成人话,就是sender中存储的都是key-value型的数据,而receiver中只有key,receiver想通过输入key,得到sender中匹配到的value值。即【带关键词的PIR】。论文和APSI中使用的是{item – lable}表示!
为了理解labled-APSI的工作原理,回顾前面讲到的Basic Idea,在对receiver发过来的加密查询项\(Q\)进行计算时,匹配多项式\(M(x)\)的输出要么是0的加密(匹配上),要么是非0的加密(没有匹配)。在labled-PSI中,sender会创建另外一个多项式\(L(x)\),即插值多项式,具有以下性质:如果\({(Y_i, V_i)}\)表示sender得数据集,则\(L(Y_i) = V_i\),收到receiver发送过来的Q
,sender计算多项式对\(((M(Q), L(Q))\),并将结果返回给receiver;receiver解密该结果对,观察第一个值是否为0,如果是,则第二个值即是所需的label!
Large Labels
一个较大的问题,就是所有的密文计算都需要模plain_modulus
,但是sender的lable比这个要长的多。对于比较长的item,在Large Items中,首先先讲item通过hash,生成一个大小为(80-128 bit)的hash值【控制item的长度】,然后经过一系列的batch,对其编码。这种方法也适用于解决lable过长的问题。也就是说,lable可以被分解成类似于item的小部分,对于每个部分,我们可以形成一个lable插值多项式,当对所对应的item进行评估时,输出lable的该部分。
这还不是一个令人满意的解决方案,因为我们的item没有固定的大小,而且非常长(最大128位)。lable比item长,lable可以分成多个部分,每一部分的长度为item的长度。对于每个部分,我们可以构造一个单独的标签插值多项式,在加密查询中对它们进行求值,并将每个加密结果返回给receiver。receiver解密结果并连接它们,以恢复匹配项的lable。
Label Encryption
上述方法存在一个必须解决的严重问题。回想一下我们是如何使用OPRF来防止sender的item部分(或全部)泄漏给receiver的:给出一个item\(Y\),匹配多项式不能直接计算\(Y\),而是计算\(ItemHash(s, Y)\),这表示item Y
所对应的OPRF值\(OPRF(s, Y)\)的前128 bit,这就意味着标签插值多项式L
应该满足\(L(ItemHash(s, Y_i)) = V_i\)对于sender的每一个item \(Y_i\),然而receiver能够猜出一些\(ItemHash(s, Y_i)\),就可以查询出其所对应的lable,这是不能接受的,因为receiver是不能知道item \(Y_i\)。
上面的意思在论文中,其实就是将OPRF的值分为两部分,一部分用于计算求交多项式,这里label没有加密,所以不安全。下面讲的是另外一部分用于加密label。
要明白:\(ItemHash(s, Y)\)表示\(OPRF(S,Y)\)的前128bit;插值多项式\(L(ItemHash(s, Y_i)) = V_i\);
为了解决这个问题,sender使用了一个对称加密函数\(Enc(<input>, <key>, <nonce>)\)使用来自\(OPRF(s, Y_i)\)的输出的另外一部分加密\(label V_i\)。具体来说,加密密钥为\(LabelKey(s, Y_i),label :V_i,item:Y_i\),是256 bit的输出\(OPRF(s, Y_i)\)的剩余128bit。因此发送给receiver的label就变成了\(Enc(V_i, LabelKey(s, Y_i), nonce)\)。
\(LabelKey(s, Y_i)\)表示\(OPRF(s, Y_i)\)的剩余12bit;
还有一些问题,因为receiver一定是想知道些什么nonce【半诚实的receiver】。第一种选择是选择使用常量或空的nonce(没有随机数)。这种情况下,必须注意,对手可能辨别出两个不同的加密label,其中两个label对应的是同一个item,使用的是相同的OPRF的key:s,这样就有可能得到关于label的相关信息。这种情况会发生,因为APSI支持更新item的label。
另一种选择是使用随机生成的长nonce(每次加密都不同)。APSI的实现是随机采样一个nonce,和加密的\(V_i\)拼接在一起。具体来说,sender为每一个\(item Y_i\)随机采样一个nonce,然后计算出插值多项式\(L(ItemHash(s, Y_i)) = nonce\),然后与加密的\(V_i\)拼接:$$L(ItemHash(s, Y_i)) = nonce | Enc(V_i, LabelKey(s, Y_i), nonce)$$
nonce 理解为随机数吧
receiver从sender那里得到一些加密的label,没有任何作用,除非他知道对应的item \(Y_i\)。此外即使receiver通过猜测\(ItemHash(s, Y_i)\)获得了\(nonce | Enc(V_i, LabelKey(s, Y_i), nonce)\),在离线攻击中,枚举出所有的item:\(Y_i\),他仍然无法获得label,因为\(LabelKey(s, Y_i)\)是从\(OPRF(s, Y_i)\)中获得的,而不是\(Y_i\)。
APSI允许sender指定nonce的字节大小,默认的nonce单位16 字节,但是值越小,性能越好!
Partial Item Collisions
还有一个必须要解决的问题:回顾Pracice,sender构造一个大的hash表,并将其分解成多个锯齿状的bin bundles。在label-PSI中,每一个bin bundles不仅包含item的part,也包含对应的label的part,以及标签插值多项式。标签插值多项式不是为整个label创建的,而是对label的part分别创建,即使将整个item分解为part前会加密。
现在看一下发生了什么:item416-part1 和 item12-part1是相同的,如果其所对应的标签label416-part1 和 label12-part1是不同的,则创建一个插值多项式L是不可能的,因为不能针对一个item而输出两个label416-part1 和 label12-part1。【疑惑,插值多项式是插值的item的位置?】
在将item插入bin bundle之前,先检查一下label是否已经出现在相同的位置,就能解决这个问题。如果已经存在,那么该item就不能插入到该bin bundle,而是新建一个bin bundle,再插入。该问题只在label-PSI下存在,会导致比unlabeled-PSI有更差的打包率(items_inserted / theoretical_max
)。