小議緩衝區溢出

2020 年 11 月 8 日
筆記
C/C++, C語言, 安全相關, 緩衝區溢出

最近一個朋友學習資訊安全方面的知識，然後發來一題和我一起討論，雖然覺得簡單，但是實際還是有點意思的，就拿出來一起看看。題目如下：

從圖中可以看到一段C語言的程式碼，還能看到3個問題。這裡我把程式碼提出來，程式碼如下：

 1 #include <stdio.h>
 2 
 3 int main(int argc, char* argv[])
 4 {
 5     int apple;
 6 
 7     char buf[9];
 8 
 9     gets(buf);
10 
11     if (apple == 0x64636261) 
12     {
13         printf("hello world!");
14     }
15 
16     return 0;
17 }

我把問題也寫出來，問題有三個：

（1）分析是哪種溢出類型

（2）給出題目的變數 apple 的地址，例如 0x0012ff44，給出 buf 各字元的地址

（3）a、b、c、d 的 ASCII 碼值分別為0x61、0x62、0x63 和 0x64 ，給出 buf 輸入方式，使得程式可以輸出 hello world

什麼是緩衝區

簡單說，緩衝區就是一塊存放數據的記憶體區域。根據存放數據的記憶體的分配方式，可以把記憶體分為棧記憶體和堆記憶體。

棧記憶體，用於存放局部變數、函數的參數等，對於函數調用時現場的保護，也會用到棧記憶體，比如保存函數的返回地址。棧記憶體，由 CPU 的來維護，在 32 位作業系統下，由 CPU 的 EBP 和 ESP 兩個暫存器來維護。

堆記憶體，是程式設計師通過特定的函數來申請的，比如 malloc 和 new 等函數。堆記憶體申請後由程式設計師來釋放。而棧記憶體隨著函數的返回棧記憶體也會被自動的回收。

什麼是緩衝區溢出

通常就是記憶體的覆蓋，由於緩衝區分為棧和堆，因此緩衝區溢出分為棧溢出和堆溢出。因為 C/C++ 很多函數早期都不檢查記憶體邊界，所有的記憶體邊界檢查都由程式設計師自己去完成。這樣就有可能因為疏忽造成緩衝區的溢出。而現在，大部分操作記憶體的函數，都在之前函數的基礎上增加了安全檢查，也就比以前安全了。

有些安全書籍認為，避免緩衝區溢出，不要使用棧記憶體，而是去使用堆記憶體，這樣的認識是錯誤的。因為堆記憶體的使用不當也會造成溢出，也是存在安全隱患的。

緩衝區溢出攻擊

緩衝區溢出攻擊的本質是數據當作程式碼運行。在有存在緩衝區溢出攻擊的程式中，攻擊者將可執行的程式碼當作數據植入記憶體，再通過特定的方式使植入的數據運行，從而達到攻擊的目的。

題目解析

有了上面的鋪墊，就來說說題目中的內容。

第一題，上面的程式碼是哪種類型的溢出。在程式碼中可以看出，數組 buf[9] 是一塊緩衝區，而 buf 是一個局部變數。局部變數是在棧中保存。程式碼中的 gets() 函數是接收用戶輸入的函數，但是它不對記憶體邊界進行檢查。buf[9] 的長度為 9 個位元組，但是當使用 gets() 函數獲取用戶輸入時，當超過 9 個位元組時，也會全部接收。這樣就造成了緩衝區溢出，更具體的說，就是棧溢出。這點是 C/C++ 語言的特點，數組越界是被允許的，因為在很多程式設計中，為了存儲不定長數據，就會使用數組越界的方式。

第二題，假如 apple 的記憶體地址是 0x0012ff44，那麼給出 buf 中各個字元的地址。變數相當於給某個記憶體首地址起了一個名字，變數的類型限制了該變數的記憶體長度，比如 0x0012ff44 這個是一個記憶體的地址，給這個記憶體的地址起一個名字叫 apple，另外變數 apple 的類型是 int，那麼限制該變數的長度佔用 4 個位元組。

第二題的題目，是給出我們 apple 的地址，然後讓寫出 buf 變數的地址。這裡就又需要了解兩個知識。首先，局部變數是在棧地址中這個是已知的，而棧地址的增長方向是由高到低的。第二，在 C 語言中，函數內部定義的局部變數，會按照變數定義的先後順序來分配棧中的記憶體地址。那麼，在程式碼中，先定義的 apple ，後定義的 buf 變數。那麼，apple 的地址就比 buf 的地址要高（大、上），如圖。

知道上面兩點以後，那麼 buf 的地址到底是多少呢？還是先來說說 apple 實際佔用的地址，apple 變數的地址是 0x0012ff44，這個地址其實是 apple 變數的首地址，因為 0x0012ff44 只代表一個位元組的記憶體空間，而 apple 是 int 類型的變數，佔用 4 個位元組，那麼 apple 實際佔用的是 0x0012ff44、0x0012ff45、0x0012ff46 和 0x0012ff47 四個記憶體空間，也就是 4 個位元組。而 apple 就是首地址就是 0x0012ff44。

再說 buf 變數，buf 的定義為 char buf[9]，則說明 buf 占 9 個位元組，而 buf 在 apple 之後定義的，那麼 buf 在棧記憶體中的地址一定是小於 apple 的地址的。那是不是只要用 apple 的地址減去 9 就是 buf 的地址呢？其實還不是。雖然 buf 占 9 個位元組，但是在 32 位的 CPU 中，記憶體中的數據一般是按照 4 個位元組對齊的（32 位剛好 4 個位元組）。那麼，也就是通過 0x0012ff44 – 0xC 就是 buf 的首地址。記憶體結構如下圖。

在上圖中，標註為紅色的部分，就是 buf 變數的記憶體，標註為綠色的部分，則是 apple 變數的記憶體。其中的白色記憶體，就是被用來對齊的記憶體。這樣是不是浪費了記憶體。是的！在 32 位系統下，記憶體按 4 位元組對齊，CPU 訪問速度是最快的。因此，浪費 3 個位元組去進行記憶體對齊，從而換取 CPU 讀取的速度更快，是划得來的。在電腦演算法中，經常提到兩句話，「用空間換時間」和「用時間換空間」，這顯然是「用空間換時間」的情況。從上面的圖可以看出，buf 的起始地址是 0x0012ff38。

第三題，是要讓程式輸出「hello world」這個字元串。但是從程式碼中來看，只有在 apple 等於 0x64636261 的時候，才會輸出”hello world”字元串。而整個程式碼中就沒有對 apple 進行賦值的程式碼。而且 0x64636261 又是什麼？在第三題的題目中給出提示，0x61 代表小寫字母 a 的 ASCII 碼，0x62 代表小寫字母 b 的 ASCII 碼。那麼，也就是說讓 apple 中填充為字母 abcd 即可。看下圖。

只要我們在給 buf 通過 gets 賦值時，輸入的內容超過 9 個字元，去覆蓋其後面的記憶體即可。那麼要輸入多少個字元呢？buf 的長度是 9 個位元組，對齊的位元組是 3 個位元組，apple 的長度是 4，那麼一共輸入 16 個字元即可，前 12 個隨便輸入，最後 4 個輸入 abcd 即可。

等等，程式碼中 apple == 0x64636261，看起來 apple 比較的是 dcba，但是為什麼輸入的是 abcd 呢？這個是位元組順序的問題，這裡不展開討論，只要了解了位元組序的問題，就可以理解了，而位元組序在開發網路程式和進行逆向分析時，也算是基礎的基礎。

演示

這個程式，我使用 XP + VC6 來進行演示。為什麼使用 VC6，因為在新版的 VS 中，已經沒有 gets 函數了，因為它不安全，所以被丟棄了。

把上面的程式碼錄入 VC6 中，然後使用 DEBUG 進行編譯（Release編譯的話，生成的二進位會被優化，記憶體結構不明顯，溢出的方式也不同，由於是試題，用最簡單的方式表明問題即可）。

編譯後，在 gets() 的位置設置斷點，然後打開「watch」窗口，來看一下 apple 和 buf 的記憶體地址，如下圖。

可以看出，apple 的地址是 0x0012ff7c，buf 的記憶體地址是 0x0012ff70。是不是有疑惑？跟題目中的地址不同！別急！相同的程式在不同的作業系統（比如，XP 和 Win7）上變數的記憶體地址是不同的，甚至在修補程式不同的系統（XP SP2 和 XP SP3）上也可能是不同的。但是，我們注意兩點，第一，apple 的地址比 buf 的地址大，第二，apple 的地址和 buf 的地址差 0xC。只要憑這兩點來看，和我們前面分析的是相同的。

接著打開「memory」窗口，來看記憶體，如下圖。

接著，在 if 的位置處下斷點，然後讓程式運行起來，我們就可以進行輸入了，如下圖。

我這裡輸入了 12 個 1，因為前 12 個字元隨便輸入，然後輸入了 abcd，輸入完成後按下回車，我們在 if 位置處設置的斷點被斷住了，此時觀察記憶體，如下圖。

從上圖可以看到，在 0x0012ff7c 的位置處，也就是 apple 所在的棧空間中，被填充了0x61、0x62、0x63 和 0x64。雖然程式中沒有任何位置給 apple 變數賦值，但是我們通過溢出的方式覆蓋了 apple 的記憶體地址，成功的對它進行了賦值。讓程式運行起來，觀察程式的運行，如下圖。

可以看到，字元串「hello world」被輸出了。

總結

上面把整個題目分析了一下，沒有難度，只是一些基礎知識。這種題目有什麼實際的意義呢？就拿這個題目的程式碼來舉個例子，如果 gets 接收的是一串密碼，只有在密碼正確的情況下，才會執行特定的功能，而密碼的對與否可能有一個標誌位。那麼及時不知道正確的密碼，只要通過溢出去覆蓋標誌位是不是就可以執行特定的功能了？當然這只是一個簡單的例子。對於緩衝區溢出、SQL 注入、XSS 等攻擊，它們的問題都是檢查不嚴格而導致外部輸入的數據被當作程式碼執行了，從而產生安全的問題。因此，它們的本質是相同的。因此，對於程式設計師而言，就是不能相信任何的外部輸入，一定要對外部輸入做嚴格的檢查。

Tags: C/C++ C語言安全相關緩衝區溢出

小議緩衝區溢出

VirMach 便宜 VPS

QNews

小議緩衝區溢出

分享此文：

Related Posts

如何編寫一個WebPack的插件原理及實踐

uniAPP跨域問題及介面傳參數據項帶雙引號「」問題記錄

教你如何 分析 Android ANR 問題

印度驚現金色烏龜：像極了長腿的蛋黃

VirMach 便宜 VPS

QNews

熱門搜尋

教你如何分析 Android ANR 問題