Linux系統編程 —時序競態

2020 年 10 月 5 日
筆記

時序競態

什麼是時序競態？將同一個程式執行兩次，正常情況下，前後兩次執行得到的結果應該是一樣的。但由於系統資源競爭的原因，前後兩次執行的結果有可能得到不一樣的結果，這個現象就是時序競態。

pause函數

函數原型：

int pause(void);

函數作用：

進程調用pause函數時，會造成進程主動掛起（處於阻塞狀態，並主動放棄CPU），並且等待訊號將其喚醒。

返回值：

我們知道，訊號的處理方式有三種：1. 默認動作；2. 忽略處理；3. 捕捉。進程收到一個訊號後，會先處理響應訊號，再喚醒pause函數。於是有下面幾種情況：

① 如果訊號的默認處理動作是終止進程，則進程將被終止，也就是說一收到訊號進程就終止了，pause函數根本就沒有機會返回；

② 如果訊號的默認處理動作是忽略，則進程將直接忽略該訊號，相當於沒收到這個訊號，進程繼續處於掛起狀態，pause函數不返回；

③ 如果訊號的處理動作是捕捉，則進程調用完訊號處理函數之後，pause返回-1，errno設置為EINTR，表示「被訊號中斷」。

④ pause收到的訊號不能被屏蔽，如果被屏蔽，那麼pause就不能被喚醒。

因為alarm函數可以在設定的時間之後發送SIGALRM訊號，pause函數又可以將進程掛起等待訊號，則二者結合可以自己寫一個sleep函數，如下：

 1#include <unistd.h>
 2#include <signal.h>
 3#include <stdio.h>
 4
 5void sig_alrm(int signo)
 6{
 7    /* nothing to do */
 8}
 9
10unsigned int mysleep(unsigned int nsecs)
11{
12    unsigned int unslept;
13
14    signal(SIGALRM, &sig_alrm);
15    unslept = alarm(nsecs); 
16    pause();
17
18    return unslept;
19}
20
21
22int main(void)
23{
24    while(1){
25        mysleep(2);
26        printf("Two seconds passed\n");
27    }
28
29    return 0;
30}

時序競態前導例

在講時序競態具體現象之前，我們先來看一個生活中常見的場景：

想午睡10分鐘，於是定了個10分鐘的鬧鐘，希望10分鐘後鬧鐘將自己叫醒。

正常情況：定好鬧鐘，午睡，10分鐘後鬧鐘叫醒自己；

異常情況：定好鬧鐘，躺下睡覺2分鐘，被同學叫醒去打球，打了20分鐘後回來繼續睡覺。但在打球期間，鬧鐘早就響過了，將不會再喚醒自己。

這個例子與之後要講的時序競態有很大的相似之處。

時序競態問題分析

我們再回過頭來看上面所寫的mysleep程式。這個函數有可能是下面的時序：

SIGALRM默認動作是終止進程，因此我們要將其捕捉，對SIGALRM註冊訊號處理函數；
調用alarm(1)函數定時1秒鐘；
alarm(1)調用結束，定時器開始計時。就在這時，進程失去CPU，進入就緒態等待CPU（相當於被同學叫醒去打球）。失去CPU的方式有可能是內核調度了優先順序更高的進程取代了當前進程，使得當前進程無法獲得CPU；
我們知道，alarm函數如果採用自然定時法的話，定時器將一直計時，與進程狀態無關。於是，1秒後，鬧鐘定時時間到，內核向當前進程發送SIGALRM訊號。高優先順序進程尚未執行完畢，當前進程仍然無法獲得CPU，繼續處於就緒態，訊號無法處理（處於未決狀態）；
優先順序高的進程執行完畢，當前進程獲得CPU資源，內核調度回當前進程執行。SIGALRM訊號遞達，並被進程處理；
訊號處理完畢後，返回當前主控流程，並調用pause()函數，掛起等待alarm函數發送的SIGALRM訊號將自己喚醒；
但實際SIGALRM訊號已經處理完畢，pause()函數永遠不會等到。

解決時序競態問題

通過以上時序分析，我們可以看出，造成時序競態的原因就是SIGALRM訊號在進程失去CPU的時候就已經發送過來。為了防止這個現象出現，我們可以先將該訊號阻塞，將其「抓住」，再在解除阻塞的時候立刻調用pause函數掛起等待。這樣即使在調用alarm就失去CPU，也可以在進程重新獲得CPU時將抓到的SIGALRM訊號重新「放出來」，並將之後的pause函數喚醒。

但在解除阻塞與pause等待掛起訊號之間，還是有可能失去CPU，除非將這兩個步驟做成一個「原子操作」。Linux系統提供的sigsuspend函數就具備這個功能。所以，在時序要求比較嚴格的場合下都應該使用sigsuspend函數，而非pause函數。

函數原型：

int sigsuspend(const sigset_t *mask);

函數作用：

掛起等待訊號；

函數參數：

mask，傳入參數，sigsuspend函數調用期間，進程訊號屏蔽字由參數mask指定。

具體用法：可將某個訊號（如SIGALRM）從臨時訊號屏蔽字mask中刪除，也就是在調用sigsuspend函數時對該訊號解除屏蔽，然後掛起等待訊號。但我們此時已經改變了進程的訊號屏蔽字，所以調用完sigsuspend函數之後，應將進程的訊號屏蔽字恢復原樣。

 1#include <unistd.h>
 2#include <signal.h>
 3#include <stdio.h>
 4
 5void sig_alrm(int signo)
 6{
 7    /* nothing to do */
 8}
 9
10unsigned int mysleep(unsigned int nsecs)
11{
12    struct sigaction newact, oldact;
13    sigset_t newmask, oldmask, suspmask;
14    unsigned int unslept;
15
16    //1.為SIGALRM設置捕捉函數，一個空函數
17    newact.sa_handler = sig_alrm;
18    sigemptyset(&newact.sa_mask);
19    newact.sa_flags = 0;
20    sigaction(SIGALRM, &newact, &oldact);
21
22    //2.設置阻塞訊號集，阻塞SIGALRM訊號
23    sigemptyset(&newmask);
24    sigaddset(&newmask, SIGALRM);
25   sigprocmask(SIG_BLOCK, &newmask, &oldmask);   //訊號屏蔽字 mask
26
27    //3.定時n秒，到時後可以產生SIGALRM訊號
28    alarm(nsecs);
29
30    /*4.構造一個調用sigsuspend臨時有效的阻塞訊號集，
31     *  在臨時阻塞訊號集里解除SIGALRM的阻塞*/
32    suspmask = oldmask;
33    sigdelset(&suspmask, SIGALRM);
34
35    /*5.sigsuspend調用期間，採用臨時阻塞訊號集suspmask替換原有阻塞訊號集
36     *  這個訊號集中不包含SIGALRM訊號,同時掛起等待，
37     *  當sigsuspend被訊號喚醒返回時，恢復原有的阻塞訊號集*/
38    sigsuspend(&suspmask); 
39
40    unslept = alarm(0);
41    //6.恢復SIGALRM原有的處理動作，呼應前面注釋1
42    sigaction(SIGALRM, &oldact, NULL);
43
44    //7.解除對SIGALRM的阻塞，呼應前面注釋2
45    sigprocmask(SIG_SETMASK, &oldmask, NULL);
46
47    return(unslept);
48}
49
50int main(void)
51{
52    while(1){
53        mysleep(2);
54        printf("Two seconds passed\n");
55    }
56
57    return 0;
58}

可重入函數/不可重入函數

一個函數在被調用執行期間尚未調用結束的時候，由於某種時序，該函數又被重複調用，這種情況稱為「重入」。如果從訊號處理程式返回，則繼續執行進程斷點處的正常指令序列，從重新恢復到斷點重新執行的過程中，函數所依賴的環境沒有發生改變，就說這個函數是可重入的，反之就是不可重入的。

如果要將函數做成可重入函數，則函數內不能含有全局變數及static變數，也不能使用malloc、free。

更多精彩內容，請關注公眾號良許Linux，公眾內回復1024可免費獲得5T技術資料，包括：Linux，C/C++，Python，樹莓派，嵌入式，Java，人工智慧，等等。公眾號內回復進群，邀請您進高手如雲技術交流群。

公眾號：良許Linux