Linux系統——架構淺析

2019 年 10 月 7 日
筆記

導語：掐指一算自己從研究生開始投入到Linux的海洋也有幾年的時間，即便如此依然對其各種功能模組一知半解。無數次看了Linux內核的技術文章後一頭霧水，為了更系統地更有方法的學Linux，特此記錄。

歷史

1991年，還在芬蘭赫爾辛基大學上學的Linus Torvalds在自己的Intel 386電腦上開發了屬於他自己的第一個程式，並利用Internet發布了他開發的源程式碼，將其命名為Linux，從而創建了Linux作業系統，並在同年公開了Linux的程式碼，從而開啟了一個偉大的時代。在之後的將近30年的時間裡，越來越多的工程師投入到Linux，幫助不斷完善Linux的功能。現在的Linux系統架構憑藉優秀的分層和模組化的設計，融合了大量的設備和不同的物理架構。

寫這篇文章，也是對Linux系統的一個非常簡單的介紹，主要講解Linux的進程調度、記憶體管理、設備驅動、文件系統、網路模組。

Linux內核架構圖

上圖就是Linux內核的架構圖，從硬體層—>作業系統內核—>應用層，這套系統架構的設計應用於各類軟硬體結合的系統上，比如物聯網系統，單片機系統、機器人等領域。

進程調度

進程在Linux系統中稱為process或task。作業系統中進程的數據結構包含很多元素，諸如：地址空間、進程優先順序、進程狀態、訊號量、佔用的文件等，往往用鏈錶鏈接。

CPU在每個系統滴答（Tick）中斷產生的時候檢查就緒隊列裡邊的進程（遍歷鏈表中的進程結構體），如有符合調度演算法的新進程需要切換，保存當前運行的進程的資訊（包括棧、地址等）後掛起當前進程，然後運行新的進程，這就是進程調度。

CPU調度的基本依據是進程的優先順序。調度的終極目標是讓高優先順序的進程能及時得到CPU的資源，低優先順序的任務也能公平的分配到CPU資源。不過因為保存當前進程的資訊所以進程的切換本身是有成本的，調度演算法同樣需要考慮效率。

在早期Linux內核中，就是採用輪詢演算法來實現的，內核在就緒的進程隊列中選擇高優先順序的進程執行，每次運行相等時間，該演算法簡單直觀，但仍然會導致一些低優先順序的進程長時間不能執行。為了提高調度的公平性，在後來Linux內核（2.6）中，引入了CFS調度器演算法。

CFS引入虛擬運行時間的概念，虛擬運行時間用task_struct->se.vruntime表示，通過它來記錄和度量進程應該獲得的CPU運行時間。在理想的調度情況下，任何時候所有的進程都應該有相同的task_struct->se.vruntime值。因為每個進程都是並發執行，沒有進程會超過理想狀態下應該佔有的CPU時間。CFS選擇需要運行的進程的邏輯基於task_struct->se.vruntime值，它總是選擇task_struct->se.vruntime值最小的進程來運行（為了公平）。

CFS使用基於時間排序的紅黑樹來為將來進程的執行時間線。所有的進程按task_struct->se.vruntime關鍵字排序。CFS從樹中選擇最左邊的任務執行。隨著系統運行，執行過的進程會被放到樹的右側，逐步讓每個任務都有機會成為最左邊的進程，從而讓每個進程都能獲取CPU資源。

總的來說，CFS演算法首先選一個進程，當進程切換時，該進程使用的CPU時間會加到該進程task_struct->se.vruntime里，當task_struct->se.vruntime的值逐漸增大到別的進程變成了紅黑樹最左邊的進程時，最左邊的進程被選中執行，當前的進程被搶佔。

記憶體管理

記憶體，一種硬體設備，作業系統對其定址，找到對應的記憶體單元，然後對其操作。CPU的位元組長度決定了最大的可定址空間，32位機器最大定址空間是4G Bytes，64位機器最大定址空間是2^64 Bytes。

最大定址空間和物理記憶體大小無關，稱之為虛擬地址空間。Linux內核把虛擬地址空間分為內核空間和用戶空間。每個用戶進程的虛擬地址空間範圍是0~TASK_SIZE。從TASK_SIZE~2^32或2^64的區域保留給內核，不能被用戶進程訪問。

虛擬地址空間與物理記憶體的映射

絕大多數情況下，虛擬地址空間比實際物理記憶體大，作業系統需要考慮如何將實際可用的物理記憶體映射到虛擬地址空間。

Linux內核採用頁表（page table）將虛擬地址映射到物理地址。虛擬地址和進程使用的用戶&內核地址有關，物理地址用來定址實際使用的記憶體。

示例圖

上圖所示，A和B進程的虛擬地址空間被分為大小相等的等份，稱為頁（page）。物理記憶體同樣被分割為大小相等的頁（page frame）。

進程A第1個記憶體頁映射到物理記憶體(RAM)的第4頁；進程B第1個記憶體頁映射到物理記憶體第5頁。進程A第5個記憶體頁和進程B第1個記憶體頁都映射到物理記憶體的第5頁(內核可決定哪些記憶體空間被不同進程共享)。頁表將虛擬地址空間映射到物理地址空間。

文件系統

Linux的核心理念：everything is file。Linux系統存在很多文件系統，比如EXT2，EXT3，EXT4，rootfs，proc等等，每一種文件系統都是獨立的，有自己的組織方式、操作方法。

為了支援不同的文件系統，內核在用戶態和文件系統之間包含了一層虛擬文件系統（Virtual File System）。大多數內核提供的函數都能通過VFS定義的介面來訪問。例如內核的子系統：字元設備、塊設備，管道，socket等。另外，用於操作字元和塊設備的文件是在/dev目錄下真實文件，當讀寫操作執行的時候，其會被對應的驅動程式創建。

VFS結構圖

Linux的虛擬文件系統四大對象：

1. super block（超級塊）

2. inode（節點）

3. dentry（目錄）

4. block（具體的數據塊）

super block

代表一個具體的已經安裝的文件系統，包含文件系統的類型、大小、狀態等等。

inode

代表一個具體的文件，在Linux文件管理中，一個文件除了自身的數據外，還有一個附屬資訊，即文件的元數據（metadata），這個元數據用於記錄文件的許多資訊比如文件大小、創建人、創建時間等，這個元數據就包含在inode中。

inode是文件從抽象—>具體的關鍵。inode存儲了一些指針，這些指針指向存儲設備的一些數據塊，文件的內容就存儲在這些數據塊中。Linux想打開一個文件時，只需要找到文件對應的inode，然後沿著指針，將所有的數據塊攢起來，就可以在記憶體中組成一個文件的數據了。

inode 結構

inode並不是組織文件的唯一方式，最簡單的組織文件的方式，是把文件依次順序的放入存儲設備，但如果有刪除操作的話，刪除造成的空餘空間夾雜在正常文件之間，很難利用和管理；複雜方式可以用來鏈表來做，每個數據塊有個指針，指向屬於同一文件的下一個數據塊，這樣的好處是可以利用零散的空餘空間，壞處是對文件的操作必須按照線性方式進行，如果隨機讀取就必須要遍歷鏈表，直到目標位置。由於這一遍歷不是在記憶體進行，所以速度很慢。

inode既可以充分利用空間，在記憶體佔據空間不與存儲設備相關，解決了上面的問題。但inode也有自己的問題。每個inode能夠存儲的數據塊指針總數是固定的。如果一個文件需要的數據塊超過這一總數，inode需要額外的空間來存儲多出來的指針。

dentry

代表一個目錄項，是路徑的一部分，比如一個路徑/home/jackycao/hello.txt，那麼目錄項就有home、jackycao、hello.txt。

block

代表具體的數據，一個文件由分散的多個block組成，組織的方式由inode來指向。

設備驅動

與外設的交互，說白了就是輸入（input）、操作（operate）、輸出（ouput）的操作。

內核需要完成三件事情：

1. 針對不同的設備類型實現不同的方法來定址硬體。

2. 必須為用戶空間提供操作不同硬體設備的方法，且需要一個統一的機制來確保盡量有限的編程工作。

3. 讓用戶空間知道在內核中有哪些設備。

設備通訊圖

內核訪問外設主要有兩種方式：I/O埠和I/O記憶體映射。具體不展開介紹了。

內核動態接收外設發來的請求（數據）主要通過兩種方式：輪詢和中斷。

輪詢：周期性的訪問查詢設備是否有數據，如果有，便獲取數據。這種方法比較浪費CPU資源。

中斷：核心思想是外設有請求時主動通知CPU，中斷的優先順序最高，會中斷CPU的當前進程運行，每個CPU都提供了中斷線，每個中斷由唯一的中斷號識別，內核為每個應用的中斷提供一個中斷處理方法。當有數據已準備好可以給內核或者間接被一個應用程式使用的時候，外設出發一個中斷。使用中斷確保系統只有在外設需要處理器介入的時候才會通知CPU，提高了效率。

PS：塊和扇區的概念：塊是一個指定大小的位元組序列，用於保存在內核和設備間傳輸的數據，塊的大小可以被設置，默認是4096 bytes，扇區是存儲設備操作的最小單元，默認是512 Bytes，塊是一段連續的扇區。

網路

Linux的網路子系統的模型基於ISO的OSI模型，Linux內核中會簡化相應層級。下圖為Linux使用的TCP/IP參考模型。

網路模型

Host-to-Host層：相當於OSI模型的物理層和數據鏈路層，負責將數據從一個電腦傳輸到另一個電腦。在Linux內核的角度來看，這一層是通過網卡的設備驅動程式實現的。

Internet層：相當於OSI模型的網路層，負責讓網路中的電腦可以交換數據（這些電腦並不一定是直連的）。該層同時負責傳輸的包分成指定的大小，因為包在傳輸路徑上每個電腦支援的最大網路包的大小不一樣，在傳輸時數據被分割成不同的包，在接收端再組合。該層為網路中的電腦分配唯一的網路地址。

Transport層：相當於OSI模型的傳輸層，負責讓兩個連接的電腦上運行的應用程式之間的數據傳輸。比如，兩台電腦上的客戶端和服務端程式，通過埠號來識別通訊的應用程式。

App層：相當於OSI模型的會話層、表示層、應用層，網路中不同電腦的兩個應用程式建立連接後，這一層負責實際內容的傳輸。

Linux內核子系統的實現通過C程式碼實現，每個層只能和它上下層通訊。

Linux網路分層圖

參考資料

《Linux內核設計與實現》

《Linux內核完全剖析》

《Linux設備驅動程式》