[算法] 数据结构 splay(伸展树)解析

前言

splay学了已经很久了,只不过一直没有总结,鸽了好久来写一篇总结。

先介绍 splay:亦称伸展树,为二叉搜索树的一种,部分操作能在 \(O( \log n)\) 内完成,如插入、查找、删除、查询序列第 \(k\) 大、查询前缀(比查询的数小的数中最大的数)、查询后缀(比查询的数大的数中最小的数)等操作,甚至能够实现区间平移。它由 Daniel Sleator 和 Robert Endre Tarjan 在1985年发明的。注:时间复杂度是均摊为 \(O(\log n)\) ,是经过严谨的证明的,单个操作可能退化成 \(O(n)\)

本文例题链接

算法思想

先做一个小小的引入:输入法中,你经常使用词语,会在词条中靠前的位置。实现过程可以使用 splay。

splay 是二叉搜索树的一种,这里简单介绍一下二叉搜索树。

对于一棵二叉树,满足树上任意节点,它的左子树上任意节点满足比当前节点的权值小,右子树上任意节点的权值比当前节点的权值大。则称这棵树为二叉搜索树。

可以利用二叉搜索树的性质来进行操作,比当前节点的权值小就在左子树查找,权值大就在右子树查找。

理想状态下,若该二叉树为一颗完全二叉树,则单次操作时间复杂度为 \(O(\log n)\) 。但这颗二叉树可能退化成一条链,这样单次时间复杂度为 \(O(n)\)

splay 树在这上面进行了改进,通过不断改变树的形态来保证不会退化,均摊时间复杂度为 \(O(\log n)\) 。基本思想是把搜索频率高的点放在深度小的位置,为了操作方便,可以认为每次操作的点都是频率高的。常常把操作的点,或是操作区间的两个端点放在根或根的附近的位置,那么会涉及到旋转操作。

根据势能函数分析(我不会),splay 的时间复杂度上限为 \(O((m+n)\log n)\) ,但这个上限是有波动的。

基本操作

建议配合注释一起使用。

结构体中应包含以下信息:

struct Splay_Node {
	int son[2], val, cnt, siz, fa;
//分别是:两个儿子,权值,副本数,子树大小,父亲节点
	#define ls t[pos].son[0] //宏定义左儿子,方便一些
	#define rs t[pos].son[1] //右儿子,同上
};

简单说明一下,副本数为权值为 val 的数的个数。

New

开辟新节点,里面的值随需求变化,以下是几个重要的值。

int New(int val, int fa) {
	t[++tot].fa = fa, t[tot].cnt = t[tot].siz = 1, t[tot].val = val;
	return tot;
}

Build

建立splay树,将极小值置为根节点,极大值作为根节点的右儿子,满足二叉搜索树的性质,代码:

void Build() {
	root = New(-INF, 0); //极小值为根节点 
	t[root].son[1] = New(INF, root); //极大值为右儿子 
}

写这段代码的主要原因是:使得 splay 的每个节点不会爆掉边界,否则很容易就 RE 。

Ident

判断该节点为父节点的左儿子还是右儿子,左儿子为 \(0\) ,右儿子为 \(1\)

bool Ident(int pos) { return t[t[pos].fa].son[1] == pos; } 

Update

更新子树大小,还更新节点信息(由需求所定)。

void Update(int pos) {
	t[pos].siz = t[ls].siz + t[rs].siz + t[pos].cnt; //子树大小为左右子树大小加上自己的副本数
}

Connect

将一对点变为父子关系。

void Connect(int pos, int fa, int flag) {//依次是:子节点,父节点,哪个儿子
	t[fa].son[flag] = pos;//将fa的儿子置为pos
	t[pos].fa = fa;//将pos的父亲置为fa
}

Rotate

既然要把一个点旋转到根节点,那么就必须先掌握单旋操作,具体分两个情况讨论。

左儿子旋转至父节点

在这里插入图片描述

如上图,需要进行几次转换: \(x\) 的左儿子变为 \(y\) 的右儿子, \(y\) 的右儿子变为\(x\)\(a\) 的子节点变为 \(y\)

那么程序可以写为:

void Rotate(int pos) {//这里的flag1=0,可以按照上述的三个转换进行验证这段程序是对的
	int fa = t[pos].fa, grand = t[fa].fa;
	int flag1 = Ident(pos), flag2 = Ident(fa);
	Connect(pos, grand, flag2);
	Connect(t[pos].son[flag1 ^ 1], fa, flag1);
	Connect(fa, pos, flag1 ^ 1);
	Update(fa); Update(pos);
}

右儿子旋转至父节点

可以视为上图的逆操作: \(y\) 的右儿子变为 \(x\) 的左儿子, \(x\) 的左儿子变为\(y\)\(a\) 的子节点变为 \(x\)

那么程序依旧可以写为:

void Rotate(int pos) {//这里的flag1=1,可以按照上述的三个转换进行验证这段程序是对的
	int fa = t[pos].fa, grand = t[fa].fa;
	int flag1 = Ident(pos), flag2 = Ident(fa);
	Connect(pos, grand, flag2);
	Connect(t[pos].son[flag1 ^ 1], fa, flag1);
	Connect(fa, pos, flag1 ^ 1);
	Update(fa); Update(pos);
}

综上所述,Rotate 操作可以不用判断左右节点,写法为上述程序。

Splay

听名字就知道,这是splay树的核心操作。

函数 \(splay(pos,to)\) 定义为:将编号为 \(x\) 的节点,旋转至父亲为 \(to\) 的节点(即 \(to\) 的其中一个子节点,且进行 splay 后依然满足二叉搜索树的性质)。

显然有一种方法:对于当前节点 \(pos\) ,不停进行 \(Rotate(pos)\) ,知道 \(pos\) 的父节点为 \(to\) 为止。

但是这并不能使该 splay 树的形态发生太大的改变。splay 的目的是改变树的形态,有一种改进的方法:双旋。顺带说明一下,单旋会被卡成 \(O(nm)\) 。(具体我也不知道怎么卡)

双旋即一次旋转两次,设当前点为 \(x\) ,父亲节点为 \(y\) ,爷爷为 \(z\) 。具体分为两种情况,这里只证明正确性。

x、y、z 形成一条链

在这里插入图片描述

这种情况先单旋 \(y\) 在单旋 \(x\) 。过程见下图:
在这里插入图片描述

显然,在上述过程中,严谨地满足了 \(val[x]>val[y]>val[z]\)

x、y、z 形成“<”或 “>”

直接进行两次单旋操作,正确性显然。

Code

代码很短,只有三行。

void Splay(int pos, int to) {
	for(int fa = t[pos].fa; t[pos].fa != to; Rotate(pos), fa = t[pos].fa)
		if(t[fa].fa != to) Ident(pos) == Ident(fa) ? Rotate(fa) : Rotate(pos);
//Ident(pos) == Ident(fa)意味着pos和fa成为了一条链的形状,否则为“<”或“>”。
	if(!to) root = pos;//更新根节点,根节点的父亲值为0
}

总结

这些是 splay 的基本操作,之后的所有操作都是建立在这些之上的。

引申操作

Find

定义 \(Find(val)\) :查询权值为 \(val\) 的点的编号,若没有该点就返回 \(0\)

利用 splay 为二叉搜索树的性质,若 \(val\) 小于当前节点的权值,则在左子树中查找;若大于则在右子树中查找。知道找到当前节点的编号为 \(0\) 或当前节点的权值等于 \(val\) 的时候返回改点的下标。

int Find(int pos, int val) {
	if(!pos) return 0;//空节点直接返回
	if(val == t[pos].val) return pos;//等于就直接返回节点编号
	else if(val < t[pos].val) return Find(ls, val);//在左子树中查找
	else return Find(rs, val);//在右子树中查找
}

Insert

即插入操作, 需要插入权值为 \(val\) 的值。

其思想跟 \(Find\) 函数差不多,利用二叉搜索树的性质直接就可以找到插入的位置。具体分为两类:

  1. 有权值为 \(val\) 的点 \(pos\) ,直接使得副本数加 \(1\) 即可。
  2. 没有权值为 \(val\) 的点 \(pos\) ,则开辟一个新的节点权值为 \(val\)

注意 \(pos\) 应传实参,因为若开辟了新的节点,其父节点的对应儿子也需要改变。

void Insert(int &pos, int val, int fa) {//pos为实参
	if(!pos) Splay(pos = New(val, fa), 0);
	else if(val == t[pos].val) { ++t[pos].cnt; Splay(pos, 0); }
	else if(val < t[pos].val) Insert(ls, val, pos);
	else Insert(rs, val, pos);
}

Erase

即删除操作, \(Erase(val)\) 定义为:删除所维护的序列中权值为 \(val\) 的一个节点(如果有的话)。

可以先找到权值为 \(val\) 的节点并定义其编号为 \(pos\) ,分两种情况。

  1. 若当前节点的副本数大于 \(1\) 时,即 \(t[pos].cnt>1\) 时,可以删除其中一个副本即可,但并没有删除这个节点。
  2. 否则,则需要删除该节点。需要先将 \(pos\) splay 到根节点。找到它的前缀的编号 \(l\) 和它的后缀的编号 \(r\) ,则 \(t[l].val\leq val \leq t[r].val\) 。显然, \((t[l].val,t[r].val)\) 区间内的数只有一个,即 \(pos\) 。将 \(l\) splay 至根节点, \(r\) splay 至 \(l\) 的右儿子,则 \(pos\) 必会在 \(r\) 的左儿子处,因为 \(l\)\(r\)\(pos\) 必回满足二叉搜索树的性质。然后直接删除 \(r\) 的左儿子即可。
void Erase(int val) {
	int pos = Find(root, val);//找到权值为 val 的点。
	if(!pos) return;//没有改节点直接返回,没有难倒删空气?
	if(t[pos].cnt > 1) { --t[pos].cnt; Splay(pos, 0); return; }//对应情况1
	Splay(pos, 0);
	int l = ls, r = rs;
	while(t[l].son[1]) l = t[l].son[1];//找到前缀
	while(t[r].son[0]) r = t[r].son[0];//找到后缀
	Splay(l, 0); Splay(r, l);//对应情况2
	t[r].son[0] = 0;
}

这里在提供一种做法,与 \(Find\) 函数的做法类似,可以说是其的升级版。总体框架不变,主要是针对第二种情况,将其旋转到根节点在进行删除,这种写法还是比较常见的。

void Erase(int pos, int val) {
	if(!pos) return;
	if(val == t[pos].val) {
		if(t[pos].cnt > 1) { t[pos].cnt--; Splay(pos, 0); return; }
		if(ls) Rotate(ls), Erase(pos, val);//有左儿子跟左儿子交换
		else if(rs) Rotate(rs), Erase(pos, val);//有右儿子就跟右儿子交换
		else {//没有儿子就直接删除,注意必须删除其父亲的对应儿子
			int newroot = t[pos].fa;
			t[t[pos].fa].son[Ident(pos)] = 0;
			Splay(newroot, 0);
		}
		return;
	}
	else if(val < t[pos].val) rase(ls, val);
	else Erase(rs, val);
}

Query_kth

查询 \(val\) 在序列是第几大的树,即按照从小到大的顺序排序后, \(val\) 的排名,没有 \(val\) 输出返回 \(-1\)

代码使用递归实现,考虑对于当前节点 \(pos\) ,比 \(val\) 小的数都在左子树内,即有 \(t[ls].siz\) 个树比 \(t[pos].val\) 小。

对于局部解,可以将 \(Querykth(pos,val)\) 函数理解为 \(pos\) 的子树中,小于 \(val\) 的值有多少。

则可以分为三种情况来讨论。

  1. \(val=t[pos].val\) 时,即找到了该节点,返回比它小的数的个数即可,即左子树的节点数加 \(1\)
  2. \(val<t[pos].val\) 时, \(val\) 左子树中,在左子树中查询该节点的排名。
  3. \(val>t[pos].val\) 时, 是最麻烦的部分。 \(val\) 右子树中,左子树与当前节点都会为答案做贡献,先将其统计至答案中,在求出右子树对于答案的贡献。

注意,最后的答案是包含了极小值的,所以找到后的答案应该减一,这一部分我写在了主函数里,所以没找到会输出 \(-1\)

int Query_kth(int pos, int val) {
	if(!pos) return 0;//没有输出-1
	if(val == t[pos].val) { int res = t[ls].siz + 1; Splay(pos, 0); return res; }//对应情况1
	else if(val < t[pos].val) return Query_kth(ls, val);//对于情况2
	//下两行代码对应情况3
	int res = t[ls].siz + t[pos].cnt;//找到后splay维护形态会导致子树的大小变化,因此先记录答案
	return Query_kth(rs, val) + res;
}

Query_val

查询区间的第 \(k\) 小的数。

可以看做上一个操作的逆操作吧,若 \(k\) 都大于了区间的所有数的个数,就直接返回极大值。

同样,对于局部解,可以将 \(Queryval(pos,k)\) 函数理解为 \(pos\) 的子树中,第 \(k\) 大值为多少。

又可以分为三个情况:

  1. \(t[ls].siz\geq k\) 时,即所求答案在左子树,在左边查询即可。
  2. \(t[ls].siz+t[pos].cnt\geq k\) 时, 答案为 \(t[pos].val\) ,因为第 \(t[ls].siz+1\) 小至 \(t[ls].siz+t[pos].cnt\) 的数全部权值都为 \(t[pos].val\)
  3. 否则,答案全部会在右子树当中,查询右子树第 \(k-t[ls].siz-t[pos].cnt\) 大,因为当前节点与左儿子一定比右子树任何一个数小。

同样的需要注意,最后的答案是包含了极小值的,同样这一部分我写在了主函数里,查询的时候需要查询第 \(k+1\) 大的那个数。

int Query_val(int pos, int rank) {
	if(!pos) return INF;
	if(t[ls].siz >= rank) return Query_val(ls, rank);
	else if(t[ls].siz + t[pos].cnt >= rank) { Splay(pos, 0); return t[pos].val; }
	return Query_val(rs, rank - t[ls].siz - t[pos].cnt);
}

Get_Pre、Get_Nxt

\(Erase\) 操作中提到过,可以使用那样的做法。

亦可使用在文末的代码中稍快的做法,与 \(Find\) 函数相似,这里就不多说了。(其实是不想打字了

也可以参照这段代码将一些操作写为非递归的写法,会更快一些。

总结

有些细心的同学可能已经发现了,几乎每个操作都有 splay 操作来维护当前树的形态,保证时间复杂度。

C++代码

只是将上述操作拼起来放在一个代码里。

说明一下操作的几种类型:

  1. 插入 \(x\) 数。
  2. 删除 \(x\) 数(若有多个相同的数,因只删除一个)。
  3. 查询 \(x\) 数的排名(排名定义为比当前数小的数的个数 \(+1\) )。
  4. 查询排名为 \(x\) 的数。
  5. \(x\) 的前驱(前驱定义为小于 \(x\),且最大的数)。
  6. \(x\) 的后继(后继定义为大于 \(x\),且最小的数)。

不是特别长,实现的方法也并不困难,打的时候必须得注意,完整没附上注释的代码:

#include <cstdio>
namespace Quick_Function {
	template <typename Temp> void Read(Temp &x) {
		x = 0; char ch = getchar(); bool op = 0;
		while(ch < '0' || ch > '9') { if(ch == '-') op = 1; ch = getchar(); }
		while(ch >= '0' && ch <= '9') { x = (x << 1) + (x << 3) + (ch ^ 48); ch = getchar(); }
		if(op) x = -x;
	}
	template <typename T, typename... Args> void Read(T &t, Args &... args) { Read(t); Read(args...); }
	template <typename Temp> Temp Max(Temp x, Temp y) { return x > y ? x : y; }
	template <typename Temp> Temp Min(Temp x, Temp y) { return x < y ? x : y; }
	template <typename Temp> Temp Abs(Temp x) { return x < 0 ? (-x) : x; }
	template <typename Temp> void Swap(Temp &x, Temp &y) { x ^= y ^= x ^= y; }
}
using namespace Quick_Function;
#define INF 0x3f3f3f3f
const int MAXN = 1e6 + 5;
int n;
struct Splay_Node {
	int son[2], val, cnt, siz, fa;
	#define ls t[pos].son[0]
	#define rs t[pos].son[1]
};
struct Splay_Tree {
	int root, tot;
	Splay_Node t[MAXN];
	bool Ident(int pos) { return t[t[pos].fa].son[1] == pos; } 
	int New(int val, int fa) {
		t[++tot].fa = fa, t[tot].cnt = t[tot].siz = 1, t[tot].val = val;
		return tot;
	}
	void Build() { root = New(-INF, 0); t[root].son[1] = New(INF, root); }
	void Update(int pos) { t[pos].siz = t[ls].siz + t[rs].siz + t[pos].cnt; }
	void Connect(int pos, int fa, int flag) { t[fa].son[flag] = pos, t[pos].fa = fa; }
	void Rotate(int pos) {
		int fa = t[pos].fa, grand = t[fa].fa;
		int flag1 = Ident(pos), flag2 = Ident(fa);
		Connect(pos, grand, flag2);
		Connect(t[pos].son[flag1 ^ 1], fa, flag1);
		Connect(fa, pos, flag1 ^ 1);
		Update(fa); Update(pos);
	}
	void Splay(int pos, int to) {
		for(int fa = t[pos].fa; t[pos].fa != to; Rotate(pos), fa = t[pos].fa)
			if(t[fa].fa != to) Ident(pos) == Ident(fa) ? Rotate(fa) : Rotate(pos);
		if(!to) root = pos;
	}
	int Find(int pos, int val) {
		if(!pos) return 0;
		if(val == t[pos].val) return pos;
		else if(val < t[pos].val) return Find(ls, val);
		else return Find(rs, val);
	}
	void Insert(int &pos, int val, int fa) {
		if(!pos) Splay(pos = New(val, fa), 0);
		else if(val == t[pos].val) { ++t[pos].cnt; Splay(pos, 0); }
		else if(val < t[pos].val) Insert(ls, val, pos);
		else Insert(rs, val, pos);
	}
	void Erase(int val) {
		int pos = Find(root, val);
		if(!pos) return;
		if(t[pos].cnt > 1) { --t[pos].cnt; Splay(pos, 0); return; }
		Splay(pos, 0);
		int l = ls, r = rs;
		while(t[l].son[1]) l = t[l].son[1];
		while(t[r].son[0]) r = t[r].son[0];
		Splay(l, 0); Splay(r, l);
		t[r].son[0] = 0;
	}
	int Query_kth(int pos, int val) {
		if(!pos) return 0;
		if(val == t[pos].val) { int res = t[ls].siz + 1; Splay(pos, 0); return res; }
		else if(val < t[pos].val) return Query_kth(ls, val);
		int res = t[ls].siz + t[pos].cnt;
		return Query_kth(rs, val) + res;
	}
	int Query_val(int pos, int rank) {
		if(!pos) return INF;
		if(t[ls].siz >= rank) return Query_val(ls, rank);
		else if(t[ls].siz + t[pos].cnt >= rank) { Splay(pos, 0); return t[pos].val; }
		return Query_val(rs, rank - t[ls].siz - t[pos].cnt);
	}
	int Get_Pre(int val) {
		int pos, res, newroot;
		pos = newroot = root;
		while(pos) {
			if(t[pos].val < val) { res = t[pos].val; pos = rs; }
			else pos = ls;
		}
		Splay(newroot, 0);
		return res;
	}
	int Get_Nxt(int val) {
		int pos, res, newroot;
		pos = newroot = root;
		while(pos) {
			if(t[pos].val > val) { res = t[pos].val; pos = ls; }
			else pos = rs;
		}
		Splay(newroot, 0);
		return res;
	}
};
Splay_Tree tree;
int main() {
	tree.Build(); Read(n); 
	for(int i = 1, opt, x; i <= n; i++) {
		Read(opt, x);
		if(opt == 1) tree.Insert(tree.root, x, 0);
		else if(opt == 2) tree.Erase(x);
		else if(opt == 3) printf("%d\n", tree.Query_kth(tree.root, x) - 1);
		else if(opt == 4) printf("%d\n", tree.Query_val(tree.root, x + 1));
		else if(opt == 5) printf("%d\n", tree.Get_Pre(x));
		else printf("%d\n", tree.Get_Nxt(x));
	}
	return 0;
}