python之IO多路復用

  同步IO和非同步IO,阻塞IO和非阻塞IO分別是什麼,到底有什麼區別?

  不同的人在不同的上下文下給出的答案是不同的。所以先限定一下本文的上下文。

  本文討論的背景是Linux環境下的network IO。

  在進行解釋之前,首先要說明幾個概念:

  進程切換

  進程的阻塞

  文件描述符

  快取 I/O

  進程切換

  為了控制進程的執行,內核必須有能力掛起正在CPU上運行的進程,並恢復以前掛起的某個進程的執行。這種行為被稱為進程切換。

  因此可以說,任何進程都是在作業系統內核的支援下運行的,是與內核緊密相關的。

  從一個進程的運行轉到另一個進程上運行,這個過程中經過下面這些變化:

  1. 保存處理器上下文,包括程式計數器和其他暫存器

  2. 更新PCB資訊

  3. 把進程的PCB移入相應的隊列,如就緒、在某事件阻塞等隊列

  4. 選擇另一個進程執行,並更新其PCB

  5. 更新記憶體管理的數據結構

  6. 恢復處理器上下文

  進程式控制制塊PCB(Processing Control Block),是作業系統核心中一種數據結構,主要表示進程狀態。

  PCB的作用是使一個在多道程式環境下不能獨立運行的程式(含數據),成為一個能獨立運行的基本單位或與其它進程並發執行的進程。

  或者說,OS是根據PCB來對並發執行的進程進行控制和管理的。 

  PCB通常是系統記憶體佔用區中的一個連續存區,它存放著作業系統用於描述進程情況及控制進程運行所需的全部資訊 

  進程的阻塞

  正在執行的進程,由於期待的某些事件未發生,如請求系統資源失敗、等待某種操作的完成、新數據尚未到達或無新工作做等,則由系統自動執行阻塞原語(Block),使自己由運行狀態變為阻塞狀態。可見,進程的阻塞是進程自身的一種主動行為,也因此只有處於運行態的進程(獲得CPU),才可能將其轉為阻塞狀態。當進程進入阻塞狀態,是不佔用CPU資源的。

  文件描述符fd

  文件描述符(File descriptor)是電腦科學中的一個術語,是一個用於表述指向文件的引用的抽象化概念。

  文件描述符在形式上是一個非負整數。實際上,它是一個索引值,指向內核為每一個進程所維護的該進程打開文件的記錄表。

  當程式打開一個現有文件或者創建一個新文件時,內核向進程返回一個文件描述符。

  在程式設計中,一些涉及底層的程式編寫往往會圍繞著文件描述符展開。但是文件描述符這一概念往往只適用於UNIX、Linux這樣的作業系統。

  快取 I/O

  快取 I/O 又被稱作標準 I/O,大多數文件系統的默認 I/O 操作都是快取 I/O。

  在 Linux 的快取 I/O 機制中,作業系統會將 I/O 的數據快取在文件系統的頁快取( page cache )中。

 數據會先被拷貝到作業系統內核的緩衝區中,然後才會從作業系統內核的緩衝區拷貝到應用程式的地址空間。

快取 I/O 的缺點:

  數據在傳輸過程中需要在應用程式地址空間和內核進行多次數據拷貝操作,這些數據拷貝操作所帶來的 CPU 以及記憶體開銷是非常大的。

  對於一次IO訪問(以read舉例),數據會先被拷貝到作業系統內核的緩衝區中,然後才會從作業系統內核的緩衝區拷貝到應用程式的地址空間。

  一個IO(如read)操作會經歷以下兩個階段:

  1. 等待數據準備 (Waiting for the data to be ready)

  2. 將數據從內核拷貝到進程中 (Copying the data from the kernel to the process)

  因為有了這兩個階段,linux系統產生了下面五種網路模式的方案。

  1.阻塞 I/O(blocking IO)

  2.非阻塞 I/O(nonblocking IO)

  3.I/O 多路復用( IO multiplexing)

  4.訊號驅動 I/O( signal driven IO)

  5.非同步 I/O(asynchronous IO)

  由於signal driven IO(訊號驅動)在實際中並不常用,所以 里只提及剩下的四種IO Model。

阻塞 I/O(blocking IO)

  在linux中,默認情況下所有的socket都是blocking,一個典型的讀操作流程大概是這樣:

  當用戶進程調用了recvfrom這個系統調用,kernel就開始了IO的第一個階段:準備數據(對於網路IO來說,很多時候數據在一開始還沒有到達。比如,還沒有收到一個完整的UDP包。這個時候kernel就要等待足夠的數據到來)。這個過程需要等待,也就是說數據被拷貝到作業系統內核的緩衝區中是需要一個過程的。而在用戶進程這邊,整個進程會被阻塞(當然,是進程自己選擇的阻塞)。當kernel一直等到數據準備好了,它就會將數據從kernel中拷貝到用戶記憶體,然後kernel返回結果,用戶進程才解除block的狀態,重新運行起來。

  所以,blocking IO的特點就是在IO執行的兩個階段都被block了。

  非阻塞 I/O(nonblocking IO)

  linux下,可通過設置socket使其變為非阻塞IO。當對一個non-blocking socket執行讀操作時,流程是這個樣子:

當用戶進程發出read操作時,如果kernel中的數據還沒有準備好,那麼它並不會block用戶進程,而是立刻返回一個error。

  從用戶進程角度講 ,它發起一個read操作後,並不需要等待,而是馬上就得到了一個結果。用戶進程判斷結果是一個error時,它就知道數據還沒有準備好,於是它可以再次發送read操作。一旦kernel中的數據準備好了,並且又再次收到了用戶進程的system call,那麼它馬上就將數據拷貝到了用戶記憶體,然後返回。

  所以,nonblocking IO的特點是用戶進程需要不斷的主動詢問kernel數據好了沒有。

 I/O 多路復用( IO multiplexing)

  IO multiplexing就是我們說的select,poll,epoll,有些地方也稱這種IO方式為event driven IO。

  select/epoll的好處就在於單個process就可以同時處理多個網路連接的IO。

  它的基本原理就是select,poll,epoll這個function會不斷的輪詢所負責的所有socket

  當某個socket有數據到達了,就通知用戶進程。

  當用戶進程調用了select,那麼整個進程會被block,而同時,kernel會「監視」所有select負責的socket,當任何一個socket中的數據準備好了,select就會返回。這個時候用戶進程再調用read操作,將數據從kernel拷貝到用戶進程。

  所以,I/O 多路復用的特點是通過一種機制使一個進程能同時等待多個文件描述符,而這些文件描述符(套接字描述符)其中的任意一個進入讀就緒狀態,select()函數就可以返回。

  IO多路復用和阻塞IO其實並沒有太大的不同,事實上,還更差一些。因為這裡需要使用兩個system call (select 和 recvfrom),而阻塞IO只調用了一個system call (recvfrom)。但是,用select的優勢在於它可以同時處理多個連接。

  如果處理的連接數不是很高的話,使用select/epoll的web server不一定比使用多執行緒+阻塞IO的web server性能更好,可能延遲還更大。

  select/epoll的優勢並不是對於單個連接能處理得更快,而是在於能處理更多的連接。

  在IO multiplexing Model中,實際中,對於每一個socket,一般都設置成為non-blocking

  但是,如上圖所示,整個用戶的process其實是一直被block的。只不過process是被select這個函數block,而不是被socket IO給block。

非同步 I/O(asynchronous IO)

用戶進程發起read操作之後,立刻就可以開始去做其它的事。而另一方面,從kernel的角度,當它受到一個asynchronous read之後,首先它會立刻返回,所以不會對用戶進程產生任何block。

  然後,kernel會等待數據準備完成,然後將數據拷貝到用戶記憶體,當這一切都完成之後,kernel會給用戶進程發送一個signal,告訴它read操作完成了。

  blocking和non-blocking的區別

    調用blocking IO會一直block住對應的進程直到操作完成

    調用non-blocking IO在kernel還準備數據的情況下會立刻返回

  synchronous IO和asynchronous IO的區別

  A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;

    An asynchronous I/O operation does not cause the requesting process to be blocked;

    兩者的區別就在於synchronous IO做」IO operation」的時候會將process阻塞。

    之前所說的blocking IO,non-blocking IO,IO multiplexing都屬於synchronous IO。

  有人會說,non-blocking IO並沒有被block啊。 這裡需要格外注意,定義中所指的」IO operation」是指真實的IO操作,就是例子中的recvfrom這個system call。non-blocking IO在執行recvfrom這個system call的時候,如果kernel的數據沒有準備好,這時候不會block進程。但是,當kernel中數據準備好的時候,recvfrom會將數據從kernel拷貝到用戶記憶體中,這個時候進程是被block了,在這段時間內,進程是被block的。

  而asynchronous IO則不一樣,當進程發起IO 操作之後,就直接返回再也不理睬了,直到kernel發送一個訊號,告訴進程說IO完成。在這整個過程中,進程完全沒有被block。

  各個IO Model的比較如圖所示:

通過上面的圖片,可以發現non-blocking IO和asynchronous IO的區別還是很明顯的。

  在non-blocking IO中,雖然進程大部分時間都不會被block,但是它仍然要求進程去主動的check,並且當數據準備完成以後,也需要進程主動的再次調用recvfrom來將數據拷貝到用戶記憶體。

  而asynchronous IO則完全不同。它就像是用戶進程將整個IO操作交給了他人(kernel)完成,然後他人做完後發訊號通知。在此期間,用戶進程不需要去檢查IO操作的狀態,也不需要主動的去拷貝數據。

I/O 多路復用之select、poll、epoll詳解請往這走