[apue] apue_db：一个可以充当"注册表"的 key-value 数据库

2020 年 4 月 10 日
笔记

apue 最后两章都是通过一个完整的实例来解释一些 linux 功能，第20章就是通过一个数据库实例来解释文件锁的使用，

说实话，当时没兴趣，因为满页都是源码和解析，有点看不下去。但是再拾起来硬着头皮看的时候，发现这哪里是个小 demo，明明是个五脏俱全的 key-value 数据库嘛，

而且这个数据库，提供多进程并发读写的安全性保证（通过文件锁）、提供已删除节点循环再利用的能力、提供根据用户需求调节内部 hash 表参数的能力……

特别是它的索引与数据文件格式，采用字符串存储各种偏移量与数字，非常便于直接打开文件去做一些 “观察”，然后也能很方便地基于 SDK 构建查找、增删改数据库的工具……

这简直就是一个 linux 上的 “注册表” 工具！

先来看看这个数据库提供的 SDK 接口：

apue_db.h

 1 #ifndef __APUE_DB_H__   2 #define __APUE_DB_H__   3   4 typedef void* DBHANDLE;   5   6 // db_store flags   7 #define DB_INSERT 1   8 #define DB_REPLACE 2   9 #define DB_STORE 3  10  11 #define IDXLEN_MIN 6  12 #define IDXLEN_MAX 1024 // single index can not exceed this size  13 #define DATLEN_MIN 2  14 #define DATLEN_MAX 1024 // single data can not exceed this size  15 #define NHASH_DEF 137 // default hash table size  16  17 DBHANDLE db_open (char const* pathname, int oflag, .../*mode*/);  18 void db_close (DBHANDLE db);  19 int db_store (DBHANDLE db, const char *key, const char *data, int flag);  20 char* db_fetch (DBHANDLE db, char *key);  21 int db_delete (DBHANDLE db, const char *key);  22 void db_rewind (DBHANDLE db);  23 char *db_nextrec (DBHANDLE db, char *key);  24 void db_dump (DBHANDLE db);  25  26 #endif

通过 db_open/db_close 打开关闭数据库，拿到DBHANDLE后就可以基于这个做操作了：

db_store 存储一个key，flag 指定覆盖方式：
- DB_INSERT 当已经有这个key时会返回失败
- DB_REPLACE 当没有这个key时会返回失败
- DB_STORE 综合了上面两种情况，有时REPLACE，没有时INSERT
db_fetch 获取一个key对应的data
db_delete 删除一个key
db_rewind/db_nextrec 用来无序遍历数据库中的所有key
db_dump 是我自己加的一个接口，用来打印数据库内部状态，如索引哈希表、索引空闲节点列表，调试时使用

实现比较长，就不贴了，只给一个链接：apue_db.c

依据书中代码，纯手工输入，同时加入了习题中可以指定索引哈希表大小的能力

（编译时指定 HAS_HASHSIZE 宏，运行时通过环境变量 APUE_DB_HASH_SIZE 指定具体的哈希值，当然这个只在创建数据库时起作用，如果数据库已经存在，

将直接使用数据库中记录的哈希表大小值，如果没有环境变量，使用 NHASH_DEF 作为默认的哈希表尺寸，PS：尽量使用质数来保证哈希效果）

有了SDK，搞个数据库小工具就是小菜一碟了：

db.c

  1 #include "../apue.h"    2 #include "apue_db.h"    3 #include <fcntl.h>    4 #include <strings.h>    5 #include <errno.h>    6    7 void Usage ()    8 {    9     printf ("Usage: db filename insert key datan");   10     printf ("       db filename query keyn");   11     printf ("       db filename delete keyn");   12     printf ("       db filename walkn");   13     printf ("       db filename dumpn");   14     exit (-1);   15 }   16   17 int main (int argc, char *argv[])   18 {   19     if (argc < 3)   20         Usage ();   21   22     char *filename = argv[1];   23     char *action = argv[2];   24     char *key = NULL;   25     char *data = NULL;   26     if (strcasecmp (action, "walk") == 0   27             || strcasecmp (action, "dump") == 0)   28     {   29         // no extra param   30     }   31     else if (strcasecmp (action, "delete") == 0   32             || strcasecmp (action, "query") == 0)   33     {   34         if (argc < 4)   35             Usage ();   36   37         key = argv[3];   38     }   39     else if (strcasecmp (action, "insert") == 0)   40     {   41         if (argc < 5)   42             Usage ();   43   44         key = argv[3];   45         data = argv[4];   46     }   47     else   48     {   49         Usage ();   50     }   51   52     DBHANDLE db;   53     char *ptr = NULL;   54 #ifdef HAS_HASHSIZE   55     int hashsize = 0;   56     ptr = getenv ("APUE_DB_HASH_SIZE");   57     if (ptr)   58         hashsize = atoi (ptr);   59   60     if (hashsize <= 0)   61         hashsize = NHASH_DEF;   62   63     if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE, hashsize)) == NULL)   64 #else   65     if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE)) == NULL)   66 #endif   67         err_sys ("db_open error");   68   69     int ret = 0;   70     if (strcasecmp (action, "dump") == 0)   71     {   72         db_dump (db);   73     }   74     else if (strcasecmp (action, "walk") == 0)   75     {   76         //db_rewind ();    77         int n = 0;   78         char buf[IDXLEN_MAX] = { 0 };   79         while ((ptr = db_nextrec(db, buf)) != NULL)   80         {   81             n ++;   82             printf ("[%5d] %s --- %sn", n, buf, ptr);   83         }   84   85         printf ("walk done!n");   86     }   87     else if (strcasecmp (action, "insert") == 0)   88     {   89         ret = db_store (db, key, data, DB_STORE);   90         if (ret < 0)   91             fprintf (stderr, "insert %s.%s failed, errno %dn", key, data, errno);   92         else if (ret == 1)   93             fprintf (stderr, "insert %s.%s cover old datan", key, data);   94         else   95             printf ("db %s '%s' code %dn", action, key, ret);   96     }   97     else if (strcasecmp (action, "delete") == 0)   98     {   99         ret = db_delete (db, key);  100         if (ret < 0)  101             fprintf (stderr, "delete %s failed, errno %dn", key, errno);  102         else  103             printf ("db %s '%s' code %dn", action, key, ret);  104     }  105     else if (strcasecmp (action, "query") == 0)  106     {  107         ptr = db_fetch (db, key);  108         //printf ("%s === %sn", key, ptr);  109         // only print data to allow assigned in shell script  110         printf ("%sn", ptr == NULL ? "nil" : ptr);  111     }  112     else  113         Usage ();  114  115     db_close (db);  116     return ret;  117 }

如果给定的参数不合法，会弹出 usage:

Usage: db filename insert key data         db filename query key         db filename delete key         db filename walk         db filename dump

其中：

insert 底层使用 db_store(…, DB_STORE); 来插入一条数据
query 底层使用 db_fetch 来查询一条数据
delete 底层使用 db_delete 来删除一条数据
walk 底层使用 db_nextrec 来遍历所有数据
dump 底层使用 db_dump 来查看数据库内部状态

好了，有了这个工具，我们就可以用脚本来开展测试工作了，为了验证这个数据库是“靠谱”的，我主要测试的是多进程并行写入、删除的能力。

在开始搞事情之前，我需要先准备一些测试数据，这个由一个awk脚本来完成：

gen.awk

 1 #! /bin/awk -f   2 BEGIN {   3     WORDNUM = 10   4     for (i = 1; i <= WORDNUM; i++) {   5         printf("%s %sn", randword(randint(20)), randword(randint(150)))   6     }   7 }   8   9 # randint(n): return a random integer number which is >= 1 and <= n  10 function randint(n) {  11     return int(n *rand()) + 1  12 }  13  14 # randlet(): return a random letter, which maybe upper, lower or number.  15 function randlet() {  16     return substr("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", randint(62), 1)  17 }  18  19 # randword(LEN): return a rand word with a length of LEN  20 function randword(LEN) {  21     randw=""  22     for( j = 1; j <= LEN; j++) {  23         randw=randw randlet()  24     }  25     return randw  26 }

执行这个脚本，得到测试数据文件：

$./gen.awk > demo  $ cat demo  s0jKl kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV  TmD516yvmt JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq  BOhc40pKXhCbCu8 yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf  Pw1o1fcg6kHIm ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE  GalRFwb YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai  2X staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l  zW4dQI 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7  0Jde UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2  yNSPh9ev0rnu0yU I3XVWF8h7to0  UivjVVXnSN60cre Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj

这个文件每行都是一个 “key data”，其中 key 为 1-20 长度的随机字符串，data 为 1-150 长度的随机字符串，共10条。

写入数据的测试脚本就可以这样写了：

testi.sh

 1 #! /bin/sh   2 OLD_IFS="$IFS"   3 IFS=" "   4 while read line   5 do   6 #  echo $line   7   array=($line)   8   key=${array[0]}   9   data=${array[1]}  10   echo "$key -> $data"  11   ./db yunh insert $key $data  12 done <demo  13  14 IFS="$OLD_IFS"

执行这个脚本，结果如下：

$ ./testi.sh  s0jKl -> kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV  db insert 's0jKl' code 0  TmD516yvmt -> JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq  db insert 'TmD516yvmt' code 0  BOhc40pKXhCbCu8 -> yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf  db insert 'BOhc40pKXhCbCu8' code 0  Pw1o1fcg6kHIm -> ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE  db insert 'Pw1o1fcg6kHIm' code 0  GalRFwb -> YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai  db insert 'GalRFwb' code 0  2X -> staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l  db insert '2X' code 0  zW4dQI -> 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7  db insert 'zW4dQI' code 0  0Jde -> UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2  db insert '0Jde' code 0  yNSPh9ev0rnu0yU -> I3XVWF8h7to0  db insert 'yNSPh9ev0rnu0yU' code 0  UivjVVXnSN60cre -> Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj  db insert 'UivjVVXnSN60cre' code 0

可以看到都插入进去了。如果有兴趣的话，现在可以打开数据库的索引与数据文件，一探究竟：

$ cat yunh.idx       0   137     0     0     0     0     0     0     0     0     0     0     0     0     0   857     
0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0     0  1043     0     0     0     0     0
     0     0     0     0   995     0     0     0     0     0     0     0     0     0  1076     0
     0   949     0     0     0     0     0     0     0     0     0     0     0     0     0  1020
     0     0     0     0     0     0     0     0     0     0   974     0     0     0     0   885
     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0   918     0     0     0     0     0     0     0     0     0     0     0
     0     0     0     0     0     0     0     0     0   835       0  12s0jKl:0:123       0  18TmD516yvmt:123:52       0  23BOhc40pKXhCbCu8:175:76       0  21Pw1o1fcg6kHIm:251:64       0  15GalRFwb:315:79       0  112X:394:110       0  15zW4dQI:504:151       0  130Jde:655:104       0  23yNSPh9ev0rnu0yU:759:13       0  23UivjVVXnSN60cre:772:59  $ cat yunh.dat  kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV  JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq  yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf  ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE  YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai  staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l  6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7  UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2  I3XVWF8h7to0  Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj

这里就不细说了，不过总的感觉，这个数据库还是比较“透明”的。

做多进程并发，这点儿数据当然不够了，我们修改gen.awk，让它生成1000条数据，

然后在插入脚本调用 db 命令的位置，使用后台运行来同时跑多个进程：

  ./db yunh insert $key $data &

这样执行之后，再观察数据库中的数据，通过执行 walk 或 dump，可以看到确确实实有1000条数据插入了。

为了验证数据准确性，甚至我还写了一个校验脚本，这个脚本每次一行从测试数据中读出key与data，然后再去数据库中取数据做对比，

经过验证，一条不差！

感兴趣的可以参考一下这个脚本：

testq.sh

 1 #! /bin/sh   2 OLD_IFS="$IFS"   3 IFS=" "   4 n=0   5 while read line   6 do   7 #  echo $line   8   array=($line)   9   key=${array[0]}  10   data=${array[1]}  11   resp=`./db yunh query $key $data`  12   if [ "$resp" != "$data" ]; then  13     echo "query $key with $resp != $data"  14     n=$(($n+1))  15   fi  16 done <demo  17 echo "total different: $n"  18  19 IFS="$OLD_IFS"  20

最近在做 windows 到 linux 程序移植的工作，其中注册表访问的部分一直很头疼，因为写配置文件实在是又零散又不能保证并发问题，

于是自然而然想到，把这个SDK封装在一个跨平台访问配置信息的类中，用于模拟 windows 上访问注册表的机制，结果很完美。

最后总结一下，就是 apue 本身是个大宝库，看似简单的一个demo都蕴藏着巨大的潜力，作者不愧为一代巨匠，赞~~~

[apue] apue_db：一个可以充当"注册表"的 key-value 数据库

VirMach 便宜 VPS

QNews

[apue] apue_db：一个可以充当"注册表"的 key-value 数据库

分享此文：

Related Posts

线程池理念分析及其手写

操作系统 内存管理 虚拟存储技术与虚拟页式存储管理方案的实现

如何将MagicaVoxel模型导入UE4中（2）

第一季 | 更新视图扩展类 UpdateModelMixin 修改密码，会用了么

VirMach 便宜 VPS

QNews

热门搜寻

操作系统内存管理虚拟存储技术与虚拟页式存储管理方案的实现