node2vec和deepwalk中的采样
- 2021 年 7 月 15 日
- AI
关于权重的问题,先理解一下deepwalk,deepwalk原论文里采样使用的是均匀采样,例如

假设start node是node3,则从3开始,节点3随机采样,因为节点3的一阶邻节点只有2,所以无论怎么采样都只能得到节点2,然后游走到节点2,节点2可以游走到节点1,6,3,4,即节点2到1,6,3,4的概率分别为[1/4,1/4,1/4,1/4],cumsum之后为[0.25,0.5,0.75,1],然后np.random.uniform()生成一个0~1之间的随机数,这个随机数落在0~0.25的区间则选择节点1,落到0.25~0.5的区间则选择节点2.。。以此类推。
当边存在权重的时候,以节点2为例,假设节点2到1,6,3,4的权重分别为 1,1,2,2,则首先要标准化,1+1+2+2=6,然后权重normalize为[1/6,1/6,2/6,2/6],然后cumsum,剩下的计算和选择方法和上面是一样的。
通过np.searchsorted可以比较快速方便的实现。
方法1:简单的方法
当边存在权重的时候,我们上面使用的方法已经涉及到第一种最简单的 非均匀分布的离散型随机变量的概率分布的采样了。
简单的采样方法中,涉及到线性查找,时间复杂度为O(n),而np.searchsorted内部使用的是二分查找,因此时间复杂度下降为O(logn).值得注意的是,当graph是无权图的时候,我们不需要线性查找,以节点2为例,我们只需要生成[0,1,2,3]的一个数组,然后均匀分布生成一个0~3之间的随机整数,然后用数据的index,可以直接访问到对应的事件,事件复杂度为O(1)。不过一般来说,为了统一无权和有权图,都是倾向于使用线性查找的方式来做的,毕竟有权图就不能直接使用这种O(1)的方法,而有权图在我遇到的业务问题中比无权图多的多的多。
方法2: alias sampling
alias sampling能够达到O(1)的时间复杂度,alias sampling的做法很漂亮,用空间换时间,为了方便理解,这里假设节点2和节点1,6,4,3的edge的权重,normalize之后为[1/2,1/3,1/12,1/12],因为后续涉及到采样,权重要转化为概率值的形式。
则 alisa samping的做法是:
图片和例子来源于:
代码来源于:
//www.programmersought.com/article/47703588096/
1、我们设Prob_val=[1/2,1/3,1/12,1/12],L=len(Prob_val),初始化四个数组:
L = len(Prob_val)
# Initialize two arrays
accept_prob = np.zeros(L) # Saved probability
alias_index = np.zeros(L, dtype=np.int) # Save the subscript / serial number
# Large queues are used to store node labels with an area larger than 1, and small queues are used to store node labels with an area smaller than 1.
small_queue = []
large_queue = []
2、节点2的邻节点有4个,意味着存在4个随机事件,用4乘normalize之后的edge的权重向量得到:[2,4/3,1/3,1/3]

对应代码
for index, prob in enumerate(Prob_val):
accept_prob[index] = L*prob
if accept_prob[index] < 1.0:
small_queue.append(index)
else:
large_queue.append(index)
这里,small_queue用来存放计算结果小于1的事件的index,large_queue用来存放计算结果大于等于1的事件的index,我们可以得到small_queue=[0,1],large_queue=[2,3]。
0,1,2,3事件分别对应 游走到节点1,游走到节点6,游走到节点3,游走到节点4 一共四个事件。
3、核心步骤
# 1. Take one from each of the two queues at a time, and let the big one supplement the small one, and then the small one out of the small queue
# 2. After looking at the big value and subtracting the small supply, the remaining value, if it is greater than 1, continue to be placed in the large queue; if it is exactly equal to 1, it will be out of the queue; if it is less than 1, join the small queue
while small_queue and large_queue:
small_index = small_queue.pop()
large_index = large_queue.pop()
# Because there is stored in alias_index: the label of another event, then now with a large probability to supplement the small probability, the label will become the label of the large event
alias_index[small_index] = large_index
# The principle of supplementation is: the large probability is to fill up the small probability (to the probability of 1), then the rest
accept_prob[large_index] = accept_prob[large_index] + accept_prob[small_index] - 1.0
# After judging the completion, the size of the remaining value
if accept_prob[large_index] < 1.0:
small_queue.append(large_index)
else:
large_queue.append(large_index)
这里做的事情,是将上述矩阵转化为:

这样的形式,(看这个代码的逻辑头太疼了,偷懒不解释过程了)
leetcode上居然有alias sample的题,牛逼牛逼
4、 最终得到:
return accept_prob, alias_index
accept_prob=[2/3,1,1/3,1/3],alias_index=[2,0,1,1]
alias_index的设计比较nice,我们设index=0,表示事件0,则alias_index[index]=2,表示如果不是事件0,则为事件2,通过这种做法,用一个数组的每一位存储了两种可能的事件。
对应的,accept_prob[index]=accept_prob[0]=2/3,表示了事件0发生的概率,对应的事件2发生的概率即为1-2/3=1/3;
到这里可以看到,alis table的思路不复杂,就是将原来在1维向量上的采样,变成在2维的平面上的采样了。
5、最终的采样:
def alias_smaple(accept_prob, alias_index):
N = len(accept_prob)
# Throw the first dice to generate the first random number from 1 to N, and decide which column to fall in
random_num1 = int(np.floor(np.random.rand()*N))
# Throw the second dice, generate a random number between 0 ~ 1, judge the size of accept_prob [random_num1]
random_num2 = np.random.rand()
# If less than Prab [i], sample i, if greater than Prab [i], sample Alias [i]
if random_num2 < accept_prob[random_num1]:
return random_num1
else:
alias_index[random_num1]
只需要做两次采样,random_num1 = int(np.floor(np.random.rand()*N)),生成一个0~3之间的随机的整数,random_num2 = np.random.rand(),生成一个0~1之间的随机的小数。
random_num1用来确定我们使用哪一个区间,比如random_num1=2,则通过数组的index,可以以O(1)的时间复杂度访问到对应的那一列。
然后就很简单了,random2和accept_prob[random_num1]存放的概率比较,直接放回对应结果。
整个过程就涉及到两个随机数生成和大小比较以及index的索引,常数时间复杂度。不过需要注意的是,构造accept_prob, alias_index 时,时间复杂度还是O(n)。不过总的程序运行时间当然是大大缩短的,毕竟 alias table我们只需要构建一次,存下来就可以了。
我们上面提到的两种采样方法,和node2vec的有偏采样中的p和q没有任何关系,都是针对于一般的带权图,换句话说,deepwalk面对带权图的时候使用的采样方法可以是上述的这两种,而node2vec中又引入的p,q参数和这里的采样方法无关,那又是更烦人的一件事情了。
方法3 reject sampling
上面的例子里,我们是以节点2为例,讲述了整个alias sampling的计算过程,graph上有n个节点,则就需要构建n个alias table。
而node2vec中,引入的p、q参数使得问题更加复杂。

上述的图片,描述的是节点从节点t到节点v对应的采样的过程,(这里补充一下,node2vec的有偏采样的初始化,论文里给的图片描述的是t到v之后,在v节点的时候我们面临的游走的决策,但是没有提到t是怎么到v的,实际上在node2vec的代码实现里,初始的步,从t到v这一步,使用的是和deepwalk一样的采样策略)

重点是这个公式,前面的


这个没啥问题,对于每个节点t来说,alpha(t,x)都是固定的。主要的问题在于:

这一项,Wvx可以使用前面提到的alisa sampling的方法来计算得到,引入了p,q之后,我们只要将alpha和对应的概率相乘就可以了,举个例子,假设节点v和4个邻节点的边的权重均为1,则t,x1,x2,x3四个邻节点被游走到的概率分别为[1/4,1/4,1/4,1/4],然后假设p=q=0.5,则1/p=1/q=2,和[1/4,1/4,1/4,1/4]相乘可以得到[t:1/2,x1:1/4,x2:1/2,x3:1/2],然后构建Wvx对应的 alias table或者直接cumsum之后采样即可。
但是麻烦的地方在于,这里的Wvx的alias table构建的前提是,v节点的上一个节点是t节点,对于节点v而言,edges是固定不变的,但是alpha对应的这个公式是根据节点v的上一个节点而变的,例如假设我们是从x1游走到v节点,则alpha这一项对应的数值就改变了,因此alias table也不能使用原来的那个需要重新构建。
这就意味着,我们其实是根据每一个node pairs来构建alias table的,在deepwalk中,一个节点v只要构建一个alias table,但是在node2vec中,因为引入了p q 参数,一个节点v需要构建4个alias table,如果某个节点的邻节点非常多,则需要构建大量的alias table,虽然alias table的查询的时间复杂度为O(1),但是这样的alias table的构建方式,空间复杂度为原来的O(n)变成O(m),n是节点的数量,m是边的数量X2,因为节点v到节点X的边和节点X到节点V的边在node2vec中意义是不同的,因为二者对应的alpha函数是不同的。
那么拒绝采样是怎么做的呢?直接看代码:
import numpy as np
from numba import njit
@njit(nogil=True)
def random_walk(walk_length, p, q, t):
"""sample a random walk starting from t
"""
# Normalize the weights to compute rejection probabilities
max_prob = max(1 / p, 1, 1 / q)
prob_0 = 1 / p / max_prob
prob_1 = 1 / max_prob
prob_2 = 1 / q / max_prob
# Initialize the walk
walk = np.empty(walk_length, dtype=indices.dtype)
walk[0] = t
walk[1] = random_neighbor(t)
for j in range(2, walk_length):
while True:
new_node = random_neighbor(walk[j - 1])
r = np.random.rand()
if new_node == walk[j - 2]:
# back to the previous node
if r < prob_0:
break
elif is_neighbor(walk[j - 2], new_node):
# distance 1
if r < prob_1:
break
elif r < prob_2:
# distance 2
break
walk[j] = new_node
return walk
可以看到,拒绝采样的思路非常的简单,首先是:
walk[0] = t
walk[1] = random_neighbor(t)
t是初始的游走节点,random_neighbor这个函数的功能就是根据节点t和其邻节点的权重进行采样,这里可以使用PartialSum(partialsum就是第一种,直接用numpy.cumsum实现的采样的方法)的方法,也可以使用alias sampling的方法。
然后就是核心部分:
for j in range(2, walk_length):
while True:
new_node = random_neighbor(walk[j - 1])
r = np.random.rand()
if new_node == walk[j - 2]:
# back to the previous node
if r < prob_0:
break
elif is_neighbor(walk[j - 2], new_node):
# distance 1
if r < prob_1:
break
elif r < prob_2:
# distance 2
break
walk[j] = new_node
思路非常简单,也比较符合“拒绝采样”的命名,符合要求,采样结束,否则,继续采样。
可以看到,这种方式非常简单直观,并且不需要预先存储那么多的alias table,但是时间复杂度上会比使用alias table的方法要大。
代码来自于:
//louisabraham.github.io/articles/node2vec-sampling.html