小議緩衝區溢出

        最近一個朋友學習資訊安全方面的知識,然後發來一題和我一起討論,雖然覺得簡單,但是實際還是有點意思的,就拿出來一起看看。題目如下:

        從圖中可以看到一段C語言的程式碼,還能看到3個問題。這裡我把程式碼提出來,程式碼如下:

 1 #include <stdio.h>
 2 
 3 int main(int argc, char* argv[])
 4 {
 5     int apple;
 6 
 7     char buf[9];
 8 
 9     gets(buf);
10 
11     if (apple == 0x64636261) 
12     {
13         printf("hello world!");
14     }
15 
16     return 0;
17 }

我把問題也寫出來,問題有三個:

(1)分析是哪種溢出類型

(2)給出題目的變數 apple 的地址,例如 0x0012ff44,給出 buf 各字元的地址

(3)a、b、c、d 的 ASCII 碼值分別為0x61、0x62、0x63 和 0x64 ,給出 buf 輸入方式,使得程式可以輸出 hello world

 

什麼是緩衝區

        簡單說,緩衝區就是一塊存放數據的記憶體區域。根據存放數據的記憶體的分配方式,可以把記憶體分為棧記憶體和堆記憶體。

        棧記憶體,用於存放局部變數、函數的參數等,對於函數調用時現場的保護,也會用到棧記憶體,比如保存函數的返回地址。棧記憶體,由 CPU 的來維護,在 32 位作業系統下,由 CPU 的 EBP 和 ESP 兩個暫存器來維護。

        堆記憶體,是程式設計師通過特定的函數來申請的,比如 malloc 和 new 等函數。堆記憶體申請後由程式設計師來釋放。而 棧記憶體 隨著函數的返回 棧記憶體 也會被自動的回收。

 

什麼是緩衝區溢出

        通常就是記憶體的覆蓋,由於緩衝區分為 棧 和 堆,因此緩衝區溢出分為 棧溢出 和 堆溢出。因為 C/C++ 很多函數早期都不檢查記憶體邊界,所有的記憶體邊界檢查都由程式設計師自己去完成。這樣就有可能因為疏忽造成緩衝區的溢出。而現在,大部分操作記憶體的函數,都在之前函數的基礎上增加了安全檢查,也就比以前安全了。

        有些安全書籍認為,避免緩衝區溢出,不要使用棧記憶體,而是去使用堆記憶體,這樣的認識是錯誤的。因為堆記憶體的使用不當也會造成溢出,也是存在安全隱患的。

 

緩衝區溢出攻擊

        緩衝區溢出攻擊的本質是數據當作程式碼運行。在有存在緩衝區溢出攻擊的程式中,攻擊者將可執行的程式碼當作數據植入記憶體,再通過特定的方式使植入的數據運行,從而達到攻擊的目的。

 

題目解析

        有了上面的鋪墊,就來說說題目中的內容。

        第一題,上面的程式碼是哪種類型的溢出。在程式碼中可以看出,數組 buf[9] 是一塊緩衝區,而 buf 是一個局部變數。局部變數是在棧中保存。程式碼中的 gets() 函數是接收用戶輸入的函數,但是它不對記憶體邊界進行檢查。buf[9] 的長度為 9 個位元組,但是當使用 gets() 函數獲取用戶輸入時,當超過 9 個位元組時,也會全部接收。這樣就造成了緩衝區溢出,更具體的說,就是棧溢出。這點是 C/C++ 語言的特點,數組越界是被允許的,因為在很多程式設計中,為了存儲不定長數據,就會使用數組越界的方式。

 

        第二題,假如 apple 的記憶體地址是 0x0012ff44,那麼給出 buf 中各個字元的地址。變數相當於給某個記憶體首地址起了一個名字,變數的類型限制了該變數的記憶體長度,比如 0x0012ff44 這個是一個記憶體的地址,給這個記憶體的地址起一個名字叫 apple,另外 變數 apple 的類型是 int,那麼限制該變數的長度佔用 4 個位元組。

         第二題的題目,是給出我們 apple 的地址,然後讓寫出 buf 變數的地址。這裡就又需要了解兩個知識。首先,局部變數是在棧地址中這個是已知的,而棧地址的增長方向是由高到低的。第二,在 C 語言中,函數內部定義的局部變數,會按照變數定義的先後順序來分配棧中的記憶體地址。那麼,在程式碼中,先定義的 apple ,後定義的 buf 變數。那麼,apple 的地址就比 buf 的地址要高(大、上),如圖。

        知道上面兩點以後,那麼 buf 的地址到底是多少呢?還是先來說說 apple 實際佔用的地址,apple 變數的地址是 0x0012ff44,這個地址其實是 apple 變數的首地址,因為 0x0012ff44 只代表一個位元組的記憶體空間,而 apple 是 int 類型的變數,佔用 4 個位元組,那麼 apple 實際佔用的是 0x0012ff44、0x0012ff45、0x0012ff46 和 0x0012ff47 四個記憶體空間,也就是 4 個位元組。而 apple 就是首地址就是 0x0012ff44。

        再說 buf 變數,buf 的定義為 char buf[9],則說明 buf 占 9 個位元組,而 buf 在 apple 之後定義的,那麼 buf 在棧記憶體中的地址一定是小於 apple 的地址的。那是不是只要用 apple 的地址減去 9 就是 buf 的地址呢?其實還不是。雖然 buf 占 9 個位元組,但是在 32 位的 CPU 中,記憶體中的數據一般是按照 4 個位元組對齊的(32 位剛好 4 個位元組)。那麼,也就是通過 0x0012ff44 – 0xC 就是 buf 的首地址。記憶體結構如下圖。

        在上圖中,標註為紅色的部分,就是 buf 變數的記憶體,標註為綠色的部分,則是 apple 變數的記憶體。其中的白色記憶體,就是被用來對齊的記憶體。這樣是不是浪費了記憶體。是的!在 32 位系統下,記憶體按 4 位元組對齊,CPU 訪問速度是最快的。因此,浪費 3 個位元組去進行記憶體對齊,從而換取 CPU 讀取的速度更快,是划得來的。在電腦演算法中,經常提到兩句話,「用空間換時間」和「用時間換空間」,這顯然是「用空間換時間」的情況。從上面的圖可以看出,buf 的起始地址是 0x0012ff38。

 

        第三題,是要讓程式輸出「hello world」這個字元串。但是從程式碼中來看,只有在 apple 等於 0x64636261 的時候,才會輸出”hello world”字元串。而整個程式碼中就沒有對 apple 進行賦值的程式碼。而且 0x64636261 又是什麼?在第三題的題目中給出提示,0x61 代表小寫字母 a 的 ASCII 碼,0x62 代表小寫字母 b 的 ASCII 碼。那麼,也就是說讓 apple 中填充為字母 abcd 即可。看下圖。

        只要我們在給 buf 通過 gets 賦值時,輸入的內容超過 9 個字元,去覆蓋其後面的記憶體即可。那麼要輸入多少個字元呢?buf 的長度是 9 個位元組,對齊的位元組是 3 個位元組,apple 的長度是 4,那麼一共輸入 16 個字元即可,前 12 個隨便輸入,最後 4 個輸入 abcd 即可。

        等等,程式碼中 apple == 0x64636261,看起來 apple 比較的是 dcba,但是為什麼輸入的是 abcd 呢?這個是位元組順序的問題,這裡不展開討論,只要了解了位元組序的問題,就可以理解了,而位元組序在開發網路程式和進行逆向分析時,也算是基礎的基礎。

 

演示

        這個程式,我使用 XP + VC6 來進行演示。為什麼使用 VC6,因為在新版的 VS 中,已經沒有 gets 函數了,因為它不安全,所以被丟棄了。

        把上面的程式碼錄入 VC6 中,然後使用 DEBUG 進行編譯(Release編譯的話,生成的二進位會被優化,記憶體結構不明顯,溢出的方式也不同,由於是試題,用最簡單的方式表明問題即可)。

        編譯後,在 gets() 的位置設置斷點,然後打開「watch」窗口,來看一下 apple 和 buf 的記憶體地址,如下圖。

        可以看出,apple 的地址是 0x0012ff7c,buf 的記憶體地址是 0x0012ff70。是不是有疑惑?跟題目中的地址不同!別急!相同的程式在不同的作業系統(比如,XP 和 Win7)上變數的記憶體地址是不同的,甚至在修補程式不同的系統(XP SP2 和 XP SP3)上也可能是不同的。但是,我們注意兩點,第一,apple 的地址比 buf 的地址大,第二,apple 的地址和 buf 的地址差 0xC。只要憑這兩點來看,和我們前面分析的是相同的。

 

        接著打開「memory」窗口,來看記憶體,如下圖。

        接著,在 if 的位置處下斷點,然後讓程式運行起來,我們就可以進行輸入了,如下圖。

        我這裡輸入了 12 個 1,因為前 12 個字元隨便輸入,然後輸入了 abcd,輸入完成後按下回車,我們在 if 位置處設置的斷點被斷住了,此時觀察記憶體,如下圖。

        從上圖可以看到,在 0x0012ff7c 的位置處,也就是 apple 所在的棧空間中,被填充了0x61、0x62、0x63 和 0x64。雖然程式中沒有任何位置給 apple 變數賦值,但是我們通過溢出的方式覆蓋了 apple 的記憶體地址,成功的對它進行了賦值。讓程式運行起來,觀察程式的運行,如下圖。

        可以看到,字元串「hello world」被輸出了。

 

總結

        上面把整個題目分析了一下,沒有難度,只是一些基礎知識。這種題目有什麼實際的意義呢?就拿這個題目的程式碼來舉個例子,如果 gets 接收的是一串密碼,只有在密碼正確的情況下,才會執行特定的功能,而密碼的對與否可能有一個標誌位。那麼及時不知道正確的密碼,只要通過溢出去覆蓋標誌位是不是就可以執行特定的功能了?當然這只是一個簡單的例子。對於緩衝區溢出、SQL 注入、XSS 等攻擊,它們的問題都是檢查不嚴格而導致 外部輸入的數據被當作程式碼 執行了,從而產生安全的問題。因此,它們的本質是相同的。因此,對於程式設計師而言,就是不能相信任何的外部輸入,一定要對外部輸入做嚴格的檢查。