数据结构堆

2021 年 6 月 17 日
筆記
算法与数据结构

引用

1. [堆结构维基百科] – //zh.wikipedia.org/wiki/%E5%A0%86%E7%A9%8D

2. [堆结构素材] – //github.com/wangzhione/temp/tree/master/code/struct

正文

1. 简介

堆结构多数人很耳熟, 在堆排序到优先级队列, 系统库的快速查找代码中很容易看见它的身影. 相关的资料比较

丰富, 业务上可用代码模板不多见. 本文重点是学以致用, 带大家从代码维度来观察和理解堆结构的工程实现.

(最小堆也被成为小顶堆, 最大堆也被称为大顶堆)

2. 堆结构定义

#pragma once

#include "struct.h"

//
// heap_t 堆的数据结构
//
typedef struct heap * heap_t;

//
// heap_create - 构建特定规则的初始'小顶'堆
// fcmp   : 当 fcmp(起始结点, 待比较结点) <= 0 停止调整
// return : 返回创建好的堆对象
//
extern heap_t heap_create(cmp_f fcmp);

extern void heap_delete(heap_t h, node_f fide);

extern int heap_len(heap_t h);

extern void * heap_top(heap_t h);

extern bool heap_push(heap_t h, void * node);

extern void * heap_pop(heap_t h);

//
// heap_remove - 删除堆中索引 i 数据
// h      : 堆对象
// i      : 索引 i [0, heap_len())
// return : 索引为 i 的堆结点
//
extern void * heap_remove(heap_t h, int i);

extern void * heap_pop_push(heap_t h, void * node);

其中 struct.h 是数据结构辅助头文件, 有心朋友可以尝试复制和拓展

#pragma once

#include <errno.h>
#include <assert.h>

#include <stdio.h>
#include <stdarg.h>
#include <stdlib.h>
#include <stdint.h>
#include <stddef.h>
#include <stdbool.h>

#include <math.h>
#include <ctype.h>
#include <float.h>
#include <string.h>
#include <limits.h>
#include <inttypes.h>

#ifndef CMP_F
#define CMP_F

//
// cmp_f - 比较行为 > 0 or = 0  or < 0
// : int add_cmp(const void * now, const void * node)
//
typedef int (* cmp_f)();

#endif//CMP_F

#ifndef NEW_F
#define NEW_F

//
// new_f - 构建行为
// : void * rtree_new(void * node)
//
typedef void * (* new_f)();

#endif//NEW_F

#ifndef NODE_F
#define NODE_F

//
// node_f - 销毁行为
// : void list_die(void * node)
//
typedef void (* node_f)();

#endif//NODE_F

#ifndef EACH_F
#define EACH_F

//
// each_f - 遍历行为, node 是内部结点, arg 是外部参数
// : int echo(void * node, void * arg) { return 0; }
//
typedef int (* each_f)(void * node, void * arg);

#endif//EACH_F

//
// DCODE - DEBUG 模式下的测试宏
// DCODE({
//     puts("debug test start ...");
// });
//
#ifndef DCODE
#  ifndef NDEBUG
#    define DCODE(code)  do code while(0)
#  else
#    define DCODE(code)  
#  endif//NDEBUG
#endif//DCODE

//
// PERR - 打印错误信息
// EXIT - 打印错误信息, 并 exit
// IF   - 条件判断辅助的程序退出宏
//
#define PERR(fmt, ...)                                                  \
fprintf(stderr, "[%s:%s:%d][%d:%s]"fmt"\n",                             \
    __FILE__, __func__, __LINE__, errno, strerror(errno), ##__VA_ARGS__)

#define EXIT(fmt, ...)                                                  \
do {                                                                    \
    PERR(fmt, ##__VA_ARGS__);                                           \
    exit(EXIT_FAILURE);                                                 \
} while(0)

#define IF(cond)                                                        \
if ((cond)) EXIT(#cond)

//
// RETURN - 打印错误信息, 并 return 返回指定结果
// val      : return 的东西. 填 NIL 标识 return void;
// fmt      : 双引号包裹的格式化字符串
// ...      : fmt 中对应的参数
// return   : val
// 
#define RETURN(val, fmt, ...)                                           \
do {                                                                    \
    PERR(fmt, ##__VA_ARGS__);                                           \
    return val;                                                         \
} while(0)

#define NIL
#define RETNIL(fmt, ...)                                                \
RETURN(NIL , fmt, ##__VA_ARGS__)

#define RETNUL(fmt, ...)                                                \
RETURN(NULL, fmt, ##__VA_ARGS__)

#define RETERR(fmt, ...)                                                \
RETURN(-1  , fmt, ##__VA_ARGS__)

3. 堆结构实现

3.1 堆结构创建销毁

#include "heap.h"

#define HEAP_INIT_INT   (1<<5)

struct heap {
    void ** data;
    int len;
    int cap;
    cmp_f fcmp;
};

heap_t 
heap_create(cmp_f fcmp) {
    struct heap * h = malloc(sizeof(struct heap));
    if (h == NULL) {
        return NULL;
    }
    
    h->data = malloc(sizeof(void *) * HEAP_INIT_INT);
    if (h->data == NULL) {
        free(h);
        return NULL;
    }
    h->cap = HEAP_INIT_INT;
    h->len = 0;
    h->fcmp = fcmp;

    return h;
}

void 
heap_delete(heap_t h, node_f fdie) {
    if (h != NULL) {
        return;
    }
    if (fdie != NULL && h->len > 0) {
        for (int i = h->len - 1; i >= 0; i--)
            fdie(h->data[i]);
    }
    free(h->data);
    free(h);
}

怎么创建; 怎么销毁; 何时创建; 何时销毁. 销毁决定了这个语言是精细手工生产工具, 还是高效智能生产工具.

3.2 堆结构 push 和 pop

堆结构 push 和 pop 核心在于结点关系的调整. 总结有 堆结点下沉(向下调整)和堆结点上浮(向上调整).

// down - 堆结点下沉, 从上到下沉一遍
static void down(cmp_f fcmp, void * data[], int len, int x) {
    void * m = data[x];
    for (int i = (x<<1)+1; i < len; i = (x<<1)+1) {
        if (i+1 < len && fcmp(data[i+1], data[i]) < 0)
            ++i;
        if (fcmp(m, data[i]) <= 0)
            break;
        data[x] = data[i];
        x = i;
    }
    data[x] = m;
}

// up - 堆结点上浮, 从下到上浮一遍
static void up(cmp_f fcmp, void * node, void * data[], int x) {
    while (x > 0) {
        void * m = data[(x-1)>>1];
        if (fcmp(m, node) <= 0)
            break;
        data[x] = m;
        x = (x-1)>>1;
    }
    data[x] = node;
}

如何理解其中奥妙呢? 可以这么看, 索引 i 结点的左子树索引为 2i+1 = (x<<1)+1, 右子树树索引为 2i+2 = (2i+1)+1.

同样规则索引为 i 结点的父亲结点就是 (i-1)/2 = (i-1)>>1. 这就是堆结点调整的无上奥妙. 如果真要在工程角度吸

收充沛, 最需要的是临摹和调试. 对于我们这些不具备系统算法训练, 算法思维的程序员而言, 有时候理解算法的

法宝是手能生巧, 温故知新.

有了 up 上浮和 down 下沉两个调整规则, 对于 push 和 pop 理解要简单很多.

bool
heap_push(heap_t h, void * node) {
    if (h->len >= h->cap) {
        void * ptr = realloc(h->data, h->cap<<1);
        if (ptr == NULL) {
            return false;
        }
        h->cap <<= 1;
        h->data = ptr;
    }

    up(h->fcmp, node, h->data, h->len++);
    return true;
}

static inline void heap_reduce(struct heap * h) {
    if (h->cap > HEAP_INIT_INT && h->cap >> 1 > h->len) {
        h->cap >>= 1;
        h->data = realloc(h->data, sizeof(void *) * h->cap);
    }
}

void *
heap_pop(heap_t h) {
    void * top = heap_top(h);
    if (top && --h->len > 0) {
        // 尾巴结点一定比(小堆)顶结点大, 那么要下沉
        *h->data = h->data[h->len];
        down(h->fcmp, h->data, h->len, 0);

        heap_reduce(h);
    }
    return top;
}

又有了 push 和 pop , 我们构造个升级版的复合操作, pop 完之后 push

void * 
heap_pop_push(heap_t h, void * node) {
    assert(h != NULL && h->len > 0 && node != NULL);

    // 获取堆顶数据准备弹出
    void * top = *h->data;
    
    // 从堆顶压入新的数据
    *h->data = node;
    down(h->fcmp, h->data, h->len, 0);

    return top;
}

3.3 堆结构 remove

void * 
heap_remove(heap_t h, int i) {
    if (h == NULL || h->len <= 0 || i < 0 || i >= h->len) {
        return NULL;
    }

    void * node = h->data[i];

    // 找到结点开始走删除操作
    if (--h->len > 0) {
        if (h->len != i) {
            // 尾巴结点和待删除结点比较
            int ret = h->fcmp(h->data[h->len], node);

            if (ret < 0) {
                // '小顶'堆, 新的值比老的值小, 那么上浮
                up(h->fcmp, h->data[h->len], h->data, i);
            } else if (ret > 0) {
                // '小顶'堆, 新的值比老的值大, 那么下沉
                h->data[i] = h->data[h->len];
                down(h->fcmp, h->data, h->len, i);
            }
        }

        heap_reduce(h);
    }

    return node;
}

4. 堆结构实践

4.1 堆结构接口自测

#include "heap.h"

struct node {
    int value;
};

static inline int node_cmp(const struct node * l, const struct node * r) {
    return l->value - r->value;
}

static void heap_print(heap_t h) {
    struct heap {
        void ** data;
        int len;
    } * obj = (struct heap *)h;

    // 数据打印
    for (int i = 0; i < obj->len; ++i) {
        struct node * node = obj->data[i];
        printf("%d ", node->value);
    }
    putchar('\n');
}

int main(void) {
    heap_t h = heap_create(node_cmp);
    struct node a[] = { { 53 }, { 17 }, { 78 }, { 9 }, { 45 }, { 65 }, { 87 }, { 23} };
    for (int i = 0; i < (int)(sizeof a / sizeof *a); ++i)
        heap_push(h, a + i);

    heap_print(h);

    // 数据打印
    struct node * node;
    while ((node = heap_pop(h))) {
        printf("%d ", node->value);
    }
    putchar('\n');

    // 重新插入数据
    for (int i = 0; i < (int)(sizeof a / sizeof *a); ++i)
        heap_push(h, a + i);

    // 删除操作 - 下沉
    heap_remove(h, 0);
    heap_print(h);

    // 插入操作
    heap_push(h, &(struct node){ 17 });
    heap_print(h);

    // 删除操作 - 上浮
    heap_remove(h, 2);
    heap_print(h);

    heap_delete(h, NULL);

    exit(EXIT_SUCCESS);
}

4.2 堆结构面试小练习

很常见面试小题寻找一堆数据中 top K . 这里也简单写个例子供参考和思考.

#include "heap.h"

/*
    问题: 找到数据流中第 K 大元素

    例如:
    3 | {4, 5, 8} -> 4
    3 | {4, 5, 8, 2} -> 4
    3 | {4, 5, 8, 2, 3} -> 4
    3 | {4, 5, 8, 2, 3, 5} -> 5
    3 | {4, 5, 8, 2, 3, 5, 10} -> 5
    3 | {4, 5, 8, 2, 3, 5, 10, 9} -> 8
    3 | {4, 5, 8, 2, 3, 5, 10, 9, 8} -> 8
 */

/*
    分析: 我们用 K 个元素 小顶堆 结构

    步骤: 
    0. 前置健壮性检查
    1. 创建一个 K 个元素小顶堆, 在其中添加 K 个元素
    2. 小顶堆堆顶值最小, 让它同待添加元素比较, 如果待添加元素值大直接替换走小顶堆下沉操作
    3. 数据流比较完毕, 小顶堆顶就是 第 K 大值

    复杂度:
        时间复杂度: O(n*log(K)), 其中向堆中添加元素时间复杂度为 O(log(K))
        空间复杂度: O(K), 优先队列中只用存储 K 个元素
 */

static int cmp(int * left, int * right) {
    return *left - *right;
}

int main(void) {
    int a[] = { 4, 5, 8, 2, 3, 5, 10, 9, 8 };
    int n = sizeof(a) / sizeof(*a);
    int k = 3;

    int i = 0;

    heap_t h = heap_create(cmp);
    IF(h == NULL && (k < 0 || k > n));

    for (; i < k; i++) {
        heap_push(h, a+i);
    }
    
    for (;;) {
        int * node = heap_top(h);
        printf("%d\n", *node);

        if (i >= n)
            break;

        if (cmp(node, a+i) < 0) {
            heap_pop_push(h, a+i);
        }
        
        i++;
    }

    heap_delete(h, NULL);

    // 检查原始数据是否错乱
    for (i = 0; i < n; i++) {
        printf("%d ", a[i]);
    }
    putchar('\n');

    exit(EXIT_SUCCESS);
}

5. 总结回顾

如果有错误, 欢迎指正交流.

聊得很多, 大部分全是代码. 原因和习惯有关, 在自己逐渐成为职业写手(不是架构师噢, 欢迎婊一下架构师)之后,

思维模式也逐渐变为直接理解代码或者通过代码理解代码.

简单回顾下本文. 主要分为数据结构堆是什么 -> 堆结构工程实现 -> 堆结构应用小例子三部分. 其中关于 4.2 中

面试小问题中补充个思考点, 让大家一块玩味玩味. top K 问题中, 如果数据是海量, 并且 K = n/2, 那会怎么样?

期待脑经急转弯, 有感觉评论区交流 ~

Tags: 算法与数据结构

数据结构堆

引用

目录

正文

1. 简介

2. 堆结构定义

3. 堆结构实现

3.1 堆结构创建销毁

3.2 堆结构 push 和 pop

3.3 堆结构 remove

4. 堆结构实践

4.1 堆结构接口自测

4.2 堆结构面试小练习

5. 总结回顾

VirMach 便宜 VPS

QNews

数据结构堆

引用

目录

正文

1. 简介

2. 堆结构定义

3. 堆结构实现

3.1 堆结构创建销毁

3.2 堆结构 push 和 pop

3.3 堆结构 remove

4. 堆结构实践

4.1 堆结构接口自测

4.2 堆结构面试小练习

5. 总结回顾

分享此文：

Related Posts

使用Gensim库对文本进行词袋、TF-IDF和n-gram方法向量化处理

[数据知识]IBM 数据治理成熟度评估模型

基于redis实现的四种常见的限流策略

frp实现NAS外网访问

VirMach 便宜 VPS

QNews

熱門搜尋