[apue] apue_db:一個可以充當"註冊表"的 key-value 資料庫
- 2020 年 4 月 10 日
- 筆記
apue 最後兩章都是通過一個完整的實例來解釋一些 linux 功能,第20章就是通過一個資料庫實例來解釋文件鎖的使用,
說實話,當時沒興趣,因為滿頁都是源碼和解析,有點看不下去。但是再拾起來硬著頭皮看的時候,發現這哪裡是個小 demo,明明是個五臟俱全的 key-value 資料庫嘛,
而且這個資料庫,提供多進程並發讀寫的安全性保證(通過文件鎖)、提供已刪除節點循環再利用的能力、提供根據用戶需求調節內部 hash 表參數的能力……
特別是它的索引與數據文件格式,採用字元串存儲各種偏移量與數字,非常便於直接打開文件去做一些 “觀察”,然後也能很方便地基於 SDK 構建查找、增刪改資料庫的工具……
這簡直就是一個 linux 上的 “註冊表” 工具!
先來看看這個資料庫提供的 SDK 介面:
1 #ifndef __APUE_DB_H__ 2 #define __APUE_DB_H__ 3 4 typedef void* DBHANDLE; 5 6 // db_store flags 7 #define DB_INSERT 1 8 #define DB_REPLACE 2 9 #define DB_STORE 3 10 11 #define IDXLEN_MIN 6 12 #define IDXLEN_MAX 1024 // single index can not exceed this size 13 #define DATLEN_MIN 2 14 #define DATLEN_MAX 1024 // single data can not exceed this size 15 #define NHASH_DEF 137 // default hash table size 16 17 DBHANDLE db_open (char const* pathname, int oflag, .../*mode*/); 18 void db_close (DBHANDLE db); 19 int db_store (DBHANDLE db, const char *key, const char *data, int flag); 20 char* db_fetch (DBHANDLE db, char *key); 21 int db_delete (DBHANDLE db, const char *key); 22 void db_rewind (DBHANDLE db); 23 char *db_nextrec (DBHANDLE db, char *key); 24 void db_dump (DBHANDLE db); 25 26 #endif
通過 db_open/db_close 打開關閉資料庫,拿到DBHANDLE後就可以基於這個做操作了:
- db_store 存儲一個key,flag 指定覆蓋方式:
- DB_INSERT 當已經有這個key時會返回失敗
- DB_REPLACE 當沒有這個key時會返回失敗
- DB_STORE 綜合了上面兩種情況,有時REPLACE,沒有時INSERT
- db_fetch 獲取一個key對應的data
- db_delete 刪除一個key
- db_rewind/db_nextrec 用來無序遍歷資料庫中的所有key
- db_dump 是我自己加的一個介面,用來列印資料庫內部狀態,如索引哈希表、索引空閑節點列表,調試時使用
實現比較長,就不貼了,只給一個鏈接:apue_db.c
依據書中程式碼,純手工輸入,同時加入了習題中可以指定索引哈希表大小的能力
(編譯時指定 HAS_HASHSIZE 宏,運行時通過環境變數 APUE_DB_HASH_SIZE 指定具體的哈希值,當然這個只在創建資料庫時起作用,如果資料庫已經存在,
將直接使用資料庫中記錄的哈希表大小值,如果沒有環境變數,使用 NHASH_DEF 作為默認的哈希表尺寸,PS:盡量使用質數來保證哈希效果)
有了SDK,搞個資料庫小工具就是小菜一碟了:
1 #include "../apue.h" 2 #include "apue_db.h" 3 #include <fcntl.h> 4 #include <strings.h> 5 #include <errno.h> 6 7 void Usage () 8 { 9 printf ("Usage: db filename insert key datan"); 10 printf (" db filename query keyn"); 11 printf (" db filename delete keyn"); 12 printf (" db filename walkn"); 13 printf (" db filename dumpn"); 14 exit (-1); 15 } 16 17 int main (int argc, char *argv[]) 18 { 19 if (argc < 3) 20 Usage (); 21 22 char *filename = argv[1]; 23 char *action = argv[2]; 24 char *key = NULL; 25 char *data = NULL; 26 if (strcasecmp (action, "walk") == 0 27 || strcasecmp (action, "dump") == 0) 28 { 29 // no extra param 30 } 31 else if (strcasecmp (action, "delete") == 0 32 || strcasecmp (action, "query") == 0) 33 { 34 if (argc < 4) 35 Usage (); 36 37 key = argv[3]; 38 } 39 else if (strcasecmp (action, "insert") == 0) 40 { 41 if (argc < 5) 42 Usage (); 43 44 key = argv[3]; 45 data = argv[4]; 46 } 47 else 48 { 49 Usage (); 50 } 51 52 DBHANDLE db; 53 char *ptr = NULL; 54 #ifdef HAS_HASHSIZE 55 int hashsize = 0; 56 ptr = getenv ("APUE_DB_HASH_SIZE"); 57 if (ptr) 58 hashsize = atoi (ptr); 59 60 if (hashsize <= 0) 61 hashsize = NHASH_DEF; 62 63 if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE, hashsize)) == NULL) 64 #else 65 if ((db = db_open (filename, O_RDWR | O_CREAT /*| O_TRUNC*/, FILE_MODE)) == NULL) 66 #endif 67 err_sys ("db_open error"); 68 69 int ret = 0; 70 if (strcasecmp (action, "dump") == 0) 71 { 72 db_dump (db); 73 } 74 else if (strcasecmp (action, "walk") == 0) 75 { 76 //db_rewind (); 77 int n = 0; 78 char buf[IDXLEN_MAX] = { 0 }; 79 while ((ptr = db_nextrec(db, buf)) != NULL) 80 { 81 n ++; 82 printf ("[%5d] %s --- %sn", n, buf, ptr); 83 } 84 85 printf ("walk done!n"); 86 } 87 else if (strcasecmp (action, "insert") == 0) 88 { 89 ret = db_store (db, key, data, DB_STORE); 90 if (ret < 0) 91 fprintf (stderr, "insert %s.%s failed, errno %dn", key, data, errno); 92 else if (ret == 1) 93 fprintf (stderr, "insert %s.%s cover old datan", key, data); 94 else 95 printf ("db %s '%s' code %dn", action, key, ret); 96 } 97 else if (strcasecmp (action, "delete") == 0) 98 { 99 ret = db_delete (db, key); 100 if (ret < 0) 101 fprintf (stderr, "delete %s failed, errno %dn", key, errno); 102 else 103 printf ("db %s '%s' code %dn", action, key, ret); 104 } 105 else if (strcasecmp (action, "query") == 0) 106 { 107 ptr = db_fetch (db, key); 108 //printf ("%s === %sn", key, ptr); 109 // only print data to allow assigned in shell script 110 printf ("%sn", ptr == NULL ? "nil" : ptr); 111 } 112 else 113 Usage (); 114 115 db_close (db); 116 return ret; 117 }
如果給定的參數不合法,會彈出 usage:
Usage: db filename insert key data db filename query key db filename delete key db filename walk db filename dump
其中:
- insert 底層使用 db_store(…, DB_STORE); 來插入一條數據
- query 底層使用 db_fetch 來查詢一條數據
- delete 底層使用 db_delete 來刪除一條數據
- walk 底層使用 db_nextrec 來遍歷所有數據
- dump 底層使用 db_dump 來查看資料庫內部狀態
好了,有了這個工具,我們就可以用腳本來開展測試工作了,為了驗證這個資料庫是“靠譜”的,我主要測試的是多進程並行寫入、刪除的能力。
在開始搞事情之前,我需要先準備一些測試數據,這個由一個awk腳本來完成:
1 #! /bin/awk -f 2 BEGIN { 3 WORDNUM = 10 4 for (i = 1; i <= WORDNUM; i++) { 5 printf("%s %sn", randword(randint(20)), randword(randint(150))) 6 } 7 } 8 9 # randint(n): return a random integer number which is >= 1 and <= n 10 function randint(n) { 11 return int(n *rand()) + 1 12 } 13 14 # randlet(): return a random letter, which maybe upper, lower or number. 15 function randlet() { 16 return substr("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", randint(62), 1) 17 } 18 19 # randword(LEN): return a rand word with a length of LEN 20 function randword(LEN) { 21 randw="" 22 for( j = 1; j <= LEN; j++) { 23 randw=randw randlet() 24 } 25 return randw 26 }
執行這個腳本,得到測試數據文件:
$./gen.awk > demo $ cat demo s0jKl kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV TmD516yvmt JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq BOhc40pKXhCbCu8 yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf Pw1o1fcg6kHIm ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE GalRFwb YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai 2X staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l zW4dQI 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7 0Jde UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2 yNSPh9ev0rnu0yU I3XVWF8h7to0 UivjVVXnSN60cre Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj
這個文件每行都是一個 “key data”,其中 key 為 1-20 長度的隨機字元串,data 為 1-150 長度的隨機字元串,共10條。
寫入數據的測試腳本就可以這樣寫了:
1 #! /bin/sh 2 OLD_IFS="$IFS" 3 IFS=" " 4 while read line 5 do 6 # echo $line 7 array=($line) 8 key=${array[0]} 9 data=${array[1]} 10 echo "$key -> $data" 11 ./db yunh insert $key $data 12 done <demo 13 14 IFS="$OLD_IFS"
執行這個腳本,結果如下:
$ ./testi.sh s0jKl -> kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV db insert 's0jKl' code 0 TmD516yvmt -> JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq db insert 'TmD516yvmt' code 0 BOhc40pKXhCbCu8 -> yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf db insert 'BOhc40pKXhCbCu8' code 0 Pw1o1fcg6kHIm -> ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE db insert 'Pw1o1fcg6kHIm' code 0 GalRFwb -> YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai db insert 'GalRFwb' code 0 2X -> staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l db insert '2X' code 0 zW4dQI -> 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7 db insert 'zW4dQI' code 0 0Jde -> UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2 db insert '0Jde' code 0 yNSPh9ev0rnu0yU -> I3XVWF8h7to0 db insert 'yNSPh9ev0rnu0yU' code 0 UivjVVXnSN60cre -> Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj db insert 'UivjVVXnSN60cre' code 0
可以看到都插入進去了。如果有興趣的話,現在可以打開資料庫的索引與數據文件,一探究竟:
$ cat yunh.idx 0 137 0 0 0 0 0 0 0 0 0 0 0 0 0 857
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 1043 0 0 0 0 0
0 0 0 0 995 0 0 0 0 0 0 0 0 0 1076 0
0 949 0 0 0 0 0 0 0 0 0 0 0 0 0 1020
0 0 0 0 0 0 0 0 0 0 974 0 0 0 0 885
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 918 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 835 0 12s0jKl:0:123 0 18TmD516yvmt:123:52 0 23BOhc40pKXhCbCu8:175:76 0 21Pw1o1fcg6kHIm:251:64 0 15GalRFwb:315:79 0 112X:394:110 0 15zW4dQI:504:151 0 130Jde:655:104 0 23yNSPh9ev0rnu0yU:759:13 0 23UivjVVXnSN60cre:772:59 $ cat yunh.dat kEjwE4q3nNJugFJ0cgNaSgDpP3VS45x3Wum9kRF6SgmIReFmrNBcCecjyQHQqCrB5fC61hao1BV2x6XZ6KLtA4jZTEnhcAugAMMWE95NU7FnsYar4wz279jHoV JB2NG30NDAaL5vpzp8DQX0rLRiVxjONIm64AN6UVc7uTLIIRpEq yo1vVWxtP4uJIbRFwNo6eZnxbOnzwrRvrcX0Xi1DcKsHcsaCgoqkbr1PWoqSdcG5jbwi4sMrlGf ZmDlGY0OEsAsWYzRprJJcjxOZ0h9OBP5ORTqmvxU2XgS9lRXAfCuIzFHOLVt1eE YpHtiHoEVu46gDh6X55JbQMr9T9mI5PIwCllwe1sy1lUkQn2EqJAE9tZ0bTpMNj7nVenVaEpJEBHai staN43MMZxs8H3wITgkcuTKWGRxLE8pYpUTc2SUETv9igtejxiiM2B6x44ch9XGZjkXSMp2Rewv2WjRBHSVfZAmTAYz32h5l5PRKsdHqMMU1l 6tnikssfMBLVJs4jbTXkFylvdEcVGMB1eYpdCvnvqBxcUuMPmDgSDuFVl726MkkgzMU5nFLoQrcM4Y8aTHRnMXilQTEaMe5aYdgJ5jEVnKMwRt9mQWE8sYKVSLHjtDJ9LwsGcN2IZ2Eznmn6ElzbY7 UQQFJQpluZKXybyfzyLrdIGYNn8Rs09tXwv7uMjlYRpe7C1frEB5hGHwuEu37bSCj0v5L1cxnYLabzF4t4loXtiV97O7XXg4qMK5IR2 I3XVWF8h7to0 Grro31PCJDUx83CjbThVEksrvQHZcxnLwBa3RCpUS0Yhwm4OXisdZN0Jnj
這裡就不細說了,不過總的感覺,這個資料庫還是比較“透明”的。
做多進程並發,這點兒數據當然不夠了,我們修改gen.awk,讓它生成1000條數據,
然後在插入腳本調用 db 命令的位置,使用後台運行來同時跑多個進程:
./db yunh insert $key $data &
這樣執行之後,再觀察資料庫中的數據,通過執行 walk 或 dump,可以看到確確實實有1000條數據插入了。
為了驗證數據準確性,甚至我還寫了一個校驗腳本,這個腳本每次一行從測試數據中讀出key與data,然後再去資料庫中取數據做對比,
經過驗證,一條不差!
感興趣的可以參考一下這個腳本:
1 #! /bin/sh 2 OLD_IFS="$IFS" 3 IFS=" " 4 n=0 5 while read line 6 do 7 # echo $line 8 array=($line) 9 key=${array[0]} 10 data=${array[1]} 11 resp=`./db yunh query $key $data` 12 if [ "$resp" != "$data" ]; then 13 echo "query $key with $resp != $data" 14 n=$(($n+1)) 15 fi 16 done <demo 17 echo "total different: $n" 18 19 IFS="$OLD_IFS" 20
最近在做 windows 到 linux 程式移植的工作,其中註冊表訪問的部分一直很頭疼,因為寫配置文件實在是又零散又不能保證並發問題,
於是自然而然想到,把這個SDK封裝在一個跨平台訪問配置資訊的類中,用於模擬 windows 上訪問註冊表的機制,結果很完美。
最後總結一下,就是 apue 本身是個大寶庫,看似簡單的一個demo都蘊藏著巨大的潛力,作者不愧為一代巨匠,贊~~~