node2vec和deepwalk中的采样

  • 2021 年 7 月 15 日
  • AI

关于权重的问题,先理解一下deepwalk,deepwalk原论文里采样使用的是均匀采样,例如

假设start node是node3,则从3开始,节点3随机采样,因为节点3的一阶邻节点只有2,所以无论怎么采样都只能得到节点2,然后游走到节点2,节点2可以游走到节点1,6,3,4,即节点2到1,6,3,4的概率分别为[1/4,1/4,1/4,1/4],cumsum之后为[0.25,0.5,0.75,1],然后np.random.uniform()生成一个0~1之间的随机数,这个随机数落在0~0.25的区间则选择节点1,落到0.25~0.5的区间则选择节点2.。。以此类推。

当边存在权重的时候,以节点2为例,假设节点2到1,6,3,4的权重分别为 1,1,2,2,则首先要标准化,1+1+2+2=6,然后权重normalize为[1/6,1/6,2/6,2/6],然后cumsum,剩下的计算和选择方法和上面是一样的。

通过np.searchsorted可以比较快速方便的实现。

方法1:简单的方法

当边存在权重的时候,我们上面使用的方法已经涉及到第一种最简单的 非均匀分布的离散型随机变量的概率分布的采样了

简单的采样方法中,涉及到线性查找,时间复杂度为O(n),而np.searchsorted内部使用的是二分查找,因此时间复杂度下降为O(logn).值得注意的是,当graph是无权图的时候,我们不需要线性查找,以节点2为例,我们只需要生成[0,1,2,3]的一个数组,然后均匀分布生成一个0~3之间的随机整数,然后用数据的index,可以直接访问到对应的事件,事件复杂度为O(1)。不过一般来说,为了统一无权和有权图,都是倾向于使用线性查找的方式来做的,毕竟有权图就不能直接使用这种O(1)的方法,而有权图在我遇到的业务问题中比无权图多的多的多。

方法2: alias sampling

alias sampling能够达到O(1)的时间复杂度,alias sampling的做法很漂亮,用空间换时间,为了方便理解,这里假设节点2和节点1,6,4,3的edge的权重,normalize之后为[1/2,1/3,1/12,1/12],因为后续涉及到采样,权重要转化为概率值的形式。

则 alisa samping的做法是:

图片和例子来源于:

Alias采样算法 – 吱吱了了 – 博客园www.cnblogs.com图标

代码来源于:

//www.programmersought.com/article/47703588096/www.programmersought.com

1、我们设Prob_val=[1/2,1/3,1/12,1/12],L=len(Prob_val),初始化四个数组:

    L = len(Prob_val)
    # Initialize two arrays
    accept_prob = np.zeros(L)   # Saved probability
    alias_index = np.zeros(L, dtype=np.int)  # Save the subscript / serial number

    # Large queues are used to store node labels with an area larger than 1, and small queues are used to store node labels with an area smaller than 1.
    small_queue = []
    large_queue = []

2、节点2的邻节点有4个,意味着存在4个随机事件,用4乘normalize之后的edge的权重向量得到:[2,4/3,1/3,1/3]

对应代码

    for index, prob in enumerate(Prob_val):
        accept_prob[index] = L*prob

        if accept_prob[index] < 1.0:
            small_queue.append(index)
        else:
            large_queue.append(index)

这里,small_queue用来存放计算结果小于1的事件的index,large_queue用来存放计算结果大于等于1的事件的index,我们可以得到small_queue=[0,1],large_queue=[2,3]。

0,1,2,3事件分别对应 游走到节点1,游走到节点6,游走到节点3,游走到节点4 一共四个事件。

3、核心步骤

    # 1. Take one from each of the two queues at a time, and let the big one supplement the small one, and then the small one out of the small queue
    # 2. After looking at the big value and subtracting the small supply, the remaining value, if it is greater than 1, continue to be placed in the large queue; if it is exactly equal to 1, it will be out of the queue; if it is less than 1, join the small queue
    while small_queue and large_queue:
        small_index = small_queue.pop()
        large_index = large_queue.pop()
        # Because there is stored in alias_index: the label of another event, then now with a large probability to supplement the small probability, the label will become the label of the large event
        alias_index[small_index] = large_index
        # The principle of supplementation is: the large probability is to fill up the small probability (to the probability of 1), then the rest
        accept_prob[large_index] = accept_prob[large_index] + accept_prob[small_index] - 1.0
        # After judging the completion, the size of the remaining value
        if accept_prob[large_index] < 1.0:
            small_queue.append(large_index)
        else:
            large_queue.append(large_index)

这里做的事情,是将上述矩阵转化为:

这样的形式,(看这个代码的逻辑头太疼了,偷懒不解释过程了)

leetcode上居然有alias sample的题,牛逼牛逼

Python3-alias-sample-by-la-bi-xiao-xin-sqw/” data-draft-node=”block” data-draft-type=”link-card” class=”LinkCard old LinkCard–noImage”>力扣leetcode-cn.com

4、 最终得到:

return accept_prob, alias_index

accept_prob=[2/3,1,1/3,1/3],alias_index=[2,0,1,1]

alias_index的设计比较nice,我们设index=0,表示事件0,则alias_index[index]=2,表示如果不是事件0,则为事件2,通过这种做法,用一个数组的每一位存储了两种可能的事件。

对应的,accept_prob[index]=accept_prob[0]=2/3,表示了事件0发生的概率,对应的事件2发生的概率即为1-2/3=1/3;

到这里可以看到,alis table的思路不复杂,就是将原来在1维向量上的采样,变成在2维的平面上的采样了。

5、最终的采样:

def alias_smaple(accept_prob, alias_index):
    N = len(accept_prob)

    # Throw the first dice to generate the first random number from 1 to N, and decide which column to fall in
    random_num1 = int(np.floor(np.random.rand()*N))
    # Throw the second dice, generate a random number between 0 ~ 1, judge the size of accept_prob [random_num1]
    random_num2 = np.random.rand()

    # If less than Prab [i], sample i, if greater than Prab [i], sample Alias ​​[i]
    if random_num2 < accept_prob[random_num1]:
        return random_num1
    else:
        alias_index[random_num1]

只需要做两次采样,random_num1 = int(np.floor(np.random.rand()*N)),生成一个0~3之间的随机的整数,random_num2 = np.random.rand(),生成一个0~1之间的随机的小数。

random_num1用来确定我们使用哪一个区间,比如random_num1=2,则通过数组的index,可以以O(1)的时间复杂度访问到对应的那一列。

然后就很简单了,random2和accept_prob[random_num1]存放的概率比较,直接放回对应结果。

整个过程就涉及到两个随机数生成和大小比较以及index的索引,常数时间复杂度。不过需要注意的是,构造accept_prob, alias_index 时,时间复杂度还是O(n)。不过总的程序运行时间当然是大大缩短的,毕竟 alias table我们只需要构建一次,存下来就可以了。

我们上面提到的两种采样方法,和node2vec的有偏采样中的p和q没有任何关系,都是针对于一般的带权图,换句话说,deepwalk面对带权图的时候使用的采样方法可以是上述的这两种,而node2vec中又引入的p,q参数和这里的采样方法无关,那又是更烦人的一件事情了。


方法3 reject sampling

上面的例子里,我们是以节点2为例,讲述了整个alias sampling的计算过程,graph上有n个节点,则就需要构建n个alias table。

而node2vec中,引入的p、q参数使得问题更加复杂。

上述的图片,描述的是节点从节点t到节点v对应的采样的过程,(这里补充一下,node2vec的有偏采样的初始化,论文里给的图片描述的是t到v之后,在v节点的时候我们面临的游走的决策,但是没有提到t是怎么到v的,实际上在node2vec的代码实现里,初始的步,从t到v这一步,使用的是和deepwalk一样的采样策略

重点是这个公式,前面的

这个没啥问题,对于每个节点t来说,alpha(t,x)都是固定的。主要的问题在于:

这一项,Wvx可以使用前面提到的alisa sampling的方法来计算得到,引入了p,q之后,我们只要将alpha和对应的概率相乘就可以了,举个例子,假设节点v和4个邻节点的边的权重均为1,则t,x1,x2,x3四个邻节点被游走到的概率分别为[1/4,1/4,1/4,1/4],然后假设p=q=0.5,则1/p=1/q=2,和[1/4,1/4,1/4,1/4]相乘可以得到[t:1/2,x1:1/4,x2:1/2,x3:1/2],然后构建Wvx对应的 alias table或者直接cumsum之后采样即可。

但是麻烦的地方在于,这里的Wvx的alias table构建的前提是,v节点的上一个节点是t节点,对于节点v而言,edges是固定不变的,但是alpha对应的这个公式是根据节点v的上一个节点而变的,例如假设我们是从x1游走到v节点,则alpha这一项对应的数值就改变了,因此alias table也不能使用原来的那个需要重新构建。

这就意味着,我们其实是根据每一个node pairs来构建alias table的,在deepwalk中,一个节点v只要构建一个alias table,但是在node2vec中,因为引入了p q 参数,一个节点v需要构建4个alias table,如果某个节点的邻节点非常多,则需要构建大量的alias table,虽然alias table的查询的时间复杂度为O(1),但是这样的alias table的构建方式,空间复杂度为原来的O(n)变成O(m),n是节点的数量,m是边的数量X2,因为节点v到节点X的边和节点X到节点V的边在node2vec中意义是不同的,因为二者对应的alpha函数是不同的。

那么拒绝采样是怎么做的呢?直接看代码:

import numpy as np
from numba import njit


@njit(nogil=True)
def random_walk(walk_length, p, q, t):
    """sample a random walk starting from t
    """
    # Normalize the weights to compute rejection probabilities
    max_prob = max(1 / p, 1, 1 / q)
    prob_0 = 1 / p / max_prob
    prob_1 = 1 / max_prob
    prob_2 = 1 / q / max_prob

    # Initialize the walk
    walk = np.empty(walk_length, dtype=indices.dtype)
    walk[0] = t
    walk[1] = random_neighbor(t)

    for j in range(2, walk_length):
        while True:
            new_node = random_neighbor(walk[j - 1])
            r = np.random.rand()
            if new_node == walk[j - 2]:
                # back to the previous node
                if r < prob_0:
                    break
            elif is_neighbor(walk[j - 2], new_node):
                # distance 1
                if r < prob_1:
                    break
            elif r < prob_2:
                # distance 2
                break
        walk[j] = new_node
        
    return walk

可以看到,拒绝采样的思路非常的简单,首先是:

    walk[0] = t
    walk[1] = random_neighbor(t)

t是初始的游走节点,random_neighbor这个函数的功能就是根据节点t和其邻节点的权重进行采样,这里可以使用PartialSum(partialsum就是第一种,直接用numpy.cumsum实现的采样的方法)的方法,也可以使用alias sampling的方法。

然后就是核心部分:

    for j in range(2, walk_length):
        while True:
            new_node = random_neighbor(walk[j - 1])
            r = np.random.rand()
            if new_node == walk[j - 2]:
                # back to the previous node
                if r < prob_0:
                    break
            elif is_neighbor(walk[j - 2], new_node):
                # distance 1
                if r < prob_1:
                    break
            elif r < prob_2:
                # distance 2
                break
        walk[j] = new_node

思路非常简单,也比较符合“拒绝采样”的命名,符合要求,采样结束,否则,继续采样。

可以看到,这种方式非常简单直观,并且不需要预先存储那么多的alias table,但是时间复杂度上会比使用alias table的方法要大。

代码来自于:

//louisabraham.github.io/articles/node2vec-sampling.htmllouisabraham.github.io