copy_{to, from}_user()的思考

2019 年 10 月 4 日
筆記

引言

我們對copy_{to,from}_user()介面的使用應該是再熟悉不過吧。基本Linux書籍都會介紹它的作用。畢竟它是kernel space和user space溝通的橋樑。所有的數據交互都應該使用類似這種介面。所以，我們沒有理由不知道介面的作用。但是，我也曾經有過以下疑問。

為什麼需要copy_{to,from}_user()，它究竟在背後為我們做了什麼？
copy_{to,from}_user()和memcpy()的區別是什麼，直接使用memcpy()可以嗎？
memcpy()替代copy_{to,from}_user()是不是一定會有問題？

一下子找回了當年困惑的自己。我所提出的每個問題，曾經我也思考過。還不止一次的思考，每一次都有不同的想法。當然是因為從一開始就我就沒有完全理解。現在又重新回到這個沉重的話題，繼續思考這曾經的問題。

溫馨提示：文章程式碼分析基於Linux-4.18.0，部分架構相關程式碼以ARM64為代表。

百家爭鳴

對於我的Linux查閱結果來說，觀點主要分成以下兩種：

copy_{to,from}_user()比memcpy()多了傳入地址合法性校驗。例如是否屬於用戶空間地址範圍。理論上說，內核空間可以直接使用用戶空間傳過來的指針，即使要做數據拷貝的動作，也可以直接使用memcpy()，事實上在沒有MMU的體系架構上，copy_{to,from}_user()最終的實現就是利用了mencpy()。但是對於大多數有MMU的平台，情況就有了些變化：用戶空間傳過來的指針是在虛擬地址空間上的，它所指向的虛擬地址空間很可能還沒有真正映射到實際的物理頁面上。但是這又能怎樣呢？缺頁導致的異常會很透明地被內核予以修復（為缺頁的地址空間提交新的物理頁面），訪問到缺頁的指令會繼續運行彷彿什麼都沒有發生一樣。但這只是用戶空間缺頁異常的行為，在內核空間這種缺頁異常必須被顯式地修復，這是由內核提供的缺頁異常處理函數的設計模式決定的。其背後的思想是：在內核態，如果程式試圖訪問一個尚未被提交物理頁面的用戶空間地址，內核必須對此保持警惕而不能像用戶空間那樣毫無察覺。
如果我們確保用戶態傳遞的指針的正確性，我們完全可以用memcpy()函數替代copy_{to,from}_user()。經過一些試驗測試，發現使用memcpy()，程式的運行上並沒有問題。因此在確保用戶態指針安全的情況下，二者可以替換。

從各家部落格上，觀點主要集中在第一點。看起來第一點受到大家的廣泛認可。但是，注重實踐的人又得出了第二種觀點，畢竟是實踐出真知。真理究竟是是掌握在少數人手裡呢？還是群眾的眼睛是雪亮的呢？當然，我不否定以上任何一種觀點。也不能向你保證哪種觀點正確。因為，我相信即使是曾經無懈可擊的理論，隨著時間的推移或者特定情況的改變理論也可能不再正確。比如，牛頓的經典力學理論（好像扯得有點遠）。如果要我說人話，就是：隨著時間的推移，Linux的程式碼在不斷的變化。或許以上的觀點在曾經正確。當然，也可能現在還正確。下面的分析就是我的觀點了。同樣，大家也是需要保持懷疑的態度。下面我就拋磚引玉。

拋磚引玉

首先我們看下memcpy()和copy_{to,from}_user()的函數定義。參數幾乎沒有差別，都包含目的地址，源地址和需要複製的位元組size。

static __always_inline unsigned long __must_check  copy_to_user(void __user *to, const void *from, unsigned long n);    static __always_inline unsigned long __must_check  copy_from_user(void *to, const void __user *from, unsigned long n);    void *memcpy(void *dest, const void *src, size_t len);

但是，有一點我們肯定是知道的。那就是memcpy()沒有傳入地址合法性校驗。而copy_{to,from}_user()針對傳入地址進行類似下面的合法性校驗（簡單說點，更多校驗詳情可以參考程式碼）。

如果從用戶空間copy數據到內核空間，用戶空間地址to及to加上copy的位元組長度n必須位於用戶空間地址空間。
如果從內核空間copy數據到用戶空間，當然也需要檢查地址的合法性。例如，是否越界訪問或者是不是程式碼段的數據等等。總之一切不合法地操作都需要立刻杜絕。

經過簡單的對比之後，我們再看看其他的差異以及一起探討下上面提出的2個觀點。我們先從第2個觀點說起。涉及實踐，我還是有點相信實踐出真知。從我測試的結果來說，實現結果分成兩種情況。

第一種情況的結果是：使用memcpy()測試，沒有出現問題，程式碼正常運行。測試程式碼如下（僅僅展示proc文件系統下file_operations對應的read介面函數）：

static ssize_t test_read(struct file *file, char __user *buf,                           size_t len, loff_t *offset)  {          memcpy(buf, "testn", 5);    /* copy_to_user(buf, "testn", 5) */            return 5;  }

我們使用cat命令讀取文件內容，cat會通過系統調用read調用test_read，並且傳遞的buf大小是4k。測試很順利，結果很喜人。成功地讀到了「test」字元串。看起來，第2點觀點是沒毛病的。但是，我們還需要繼續驗證和探究下去。因為第1個觀點提到，「在內核空間這種缺頁異常必須被顯式地修復」。因此我們還需要驗證的情況是：如果buf在用戶空間已經分配虛擬地址空間，但是並沒有建立和物理記憶體的具體映射關係，這種情況下會出現內核態page fault。我們首先需要創建這種條件，找到符合的buf，然後測試。這裡我當然沒測啦。因為有測試結論（主要是因為我懶，構造這個條件我覺得比較麻煩）。這個測試是我的一個朋友，人稱宋老師的「阿助教」阿克曼大牛。他曾經做個這個實驗，並且得到的結論是：即使是沒有建立和物理記憶體的具體映射關係的buf，程式碼也可以正常運行。在內核態發生page fault，並被其修復（分配具體物理記憶體，填充頁表，建立映射關係）。同時，我從程式碼的角度分析，結論也是如此。

經過上面的分析，看起來好像是memcpy()也可以正常使用，鑒於安全地考慮建議使用copy_{to,from}_user()等介面。

第二種情況的結果是：以上的測試程式碼並沒有正常運行，並且會觸發kernel oops。當然本次測試和上次測試的kernel配置選項是不一樣的。這個配置項是 CONFIG_ARM64_SW_TTBR0_PAN或者 CONFIG_ARM64_PAN（針對ARM64平台）。兩個配置選項的功能都是阻止內核態直接訪問用戶地址空間。只不過CONFIG_ARM64_SW_TTBR0_PAN是軟體模擬實現這種功能，而CONFIG_ARM64_PAN是硬體實現功能（ARMv8.1擴展功能）。我們以CONFIG_ARM64_SW_TTBR0_PAN作為分析對象（軟體模擬才有程式碼提供分析）。BTW，如果硬體不支援，即使配置CONFIG_ARM64_PAN也沒用，只能使用軟體模擬的方法。如果需要訪問用戶空間地址需要通過類似copy_{to,from}_user()的介面，否則會導致kernel oops。

在打開CONFIG_ARM64_SW_TTBR0_PAN的選項後，測試以上程式碼就會導致kernel oops。原因就是內核態直接訪問了用戶空間地址。因此，在這種情況我們就不可以使用memcpy()。我們別無選擇，只能使用copy_{to,from}_user()。

為什麼我們需要PAN（Privileged Access Never）功能呢？原因可能是用戶空間和內核空間數據交互上容易引入安全問題，所以我們就不讓內核空間輕易訪問用戶空間，如果非要這麼做，就必須通過特定的介面關閉PAN。另一方面，PAN功能可以更加規範化內核態和用戶態數據交互的介面使用。在使能PAN功能的情況下，可以迫使內核或者驅動開發者使用copy_{to,from}_user()等安全介面，提升系統的安全性。類似memcpy()非規範操作，kernel就oops給你看。

由於編程的不規範而引入安全漏洞。例如：Linux內核漏洞CVE-2017-5123可以提升許可權。該漏洞的引入原因就是是缺少access_ok()檢查用戶傳遞地址的合法性。因此，為了避免自己編寫的程式碼引入安全問題，針對內核空間和用戶空間數據交互上，我們要格外當心。

刨根問底

既然提到了CONFIG_ARM64_SW_TTBR0_PAN的配置選項。當然我也希望了解其背後設計的原理。由於ARM64的硬體特殊設計，我們使用兩個頁表基地址暫存器ttbr0_el1和ttbr1_el1。處理器根據64 bit地址的高16 bit判斷訪問的地址屬於用戶空間還是內核空間。如果是用戶空間地址則使用ttbr0_el1，反之使用ttbr1_el1。因此，ARM64進程切換的時候，只需要改變ttbr0_el1的值即可。ttbr1_el1可以選擇不需要改變，因為所有的進程共享相同的內核空間地址。

當進程切換到內核態（中斷，異常，系統調用等）後，如何才能避免內核態訪問用戶態地址空間呢？其實不難想出，改變ttbr0_el1的值即可，指向一段非法的映射即可。因此，我們為此準備了一份特殊的頁表，該頁表大小4k記憶體，其值全是0。當進程切換到內核態後，修改ttbr0_el1的值為該頁表的地址即可保證訪問用戶空間地址是非法訪問。因為頁表的值是非法的。這個特殊的頁表記憶體通過鏈接腳本分配。

#define RESERVED_TTBR0_SIZE    (PAGE_SIZE)    SECTIONS  {          reserved_ttbr0 = .;          . += RESERVED_TTBR0_SIZE;          swapper_pg_dir = .;          . += SWAPPER_DIR_SIZE;          swapper_pg_end = .;  }

這個特殊的頁表和內核頁表在一起。和swapper_pg_dir僅僅差4k大小。reserved_ttbr0地址開始的4k記憶體空間的內容會被清零。

當我們進入內核態後會通過__uaccess_ttbr0_disable切換ttbr0_el1以關閉用戶空間地址訪問，在需要訪問的時候通過_uaccess_ttbr0_enable打開用戶空間地址訪問。這兩個宏定義也不複雜，就以_uaccess_ttbr0_disable為例說明原理。其定義如下：

.macro    __uaccess_ttbr0_disable, tmp1      mrs    tmp1, ttbr1_el1                        // swapper_pg_dir (1)      bic    tmp1, tmp1, #TTBR_ASID_MASK      sub    tmp1, tmp1, #RESERVED_TTBR0_SIZE      // reserved_ttbr0 just before                                                  // swapper_pg_dir (2)      msr    ttbr0_el1, tmp1                        // set reserved TTBR0_EL1 (3)      isb      add    tmp1, tmp1, #RESERVED_TTBR0_SIZE      msr    ttbr1_el1, tmp1                       // set reserved ASID      isb  .endm

ttbr1_el1存儲的是內核頁表基地址，因此其值就是swapper_pg_dir。
swapper_pg_dir減去RESERVED_TTBR0_SIZE就是上面描述的特殊頁表。
將ttbr0_el1修改指向這個特殊的頁表基地址，當然可以保證後續訪問用戶地址都是非法的。

__uaccess_ttbr0_disable對應的C語言實現可以參考這裡。如何允許內核態訪問用戶空間地址呢？也很簡單，就是__uaccess_ttbr0_disable的反操作，給ttbr0_el1賦予合法的頁表基地址。這裡就不必重複了。我們現在需要知道的事實就是，在配置CONFIG_ARM64_SW_TTBR0_PAN的情況下，copy_{to,from}_user()介面會在copy之前允許內核態訪問用戶空間，並在copy結束之後關閉內核態訪問用戶空間的能力。因此，使用copy_{to,from}_user()才是正統做法。主要體現在安全性檢查及安全訪問處理。這裡是其比memcpy()多的第一個特性，後面還會介紹另一個重要特性。

現在我們可以解答上一節中遺留的問題。怎樣才能繼續使用memcpy()？現在就很簡單了，在memcpy()調用之前通過uaccess_enable_not_uao()允許內核態訪問用戶空間地址，調用memcpy()，最後通過uaccess_disable_not_uao()關閉內核態訪問用戶空間的能力。

未雨綢繆

以上的測試用例都是建立在用戶空間傳遞合法地址的基礎上測試的，何為合法的用戶空間地址？用戶空間通過系統調用申請的虛擬地址空間包含的地址範圍，即是合法的地址（不論是否分配物理頁面建立映射關係）。既然要寫一個介面程式，當然也要考慮程式的健壯性，我們不能假設所有的用戶傳遞的參數都是合法的。我們應該預判非法傳參情況的發生，並提前做好準備，這就是未雨綢繆。

我們首先使用memcpy()的測試用例，隨機傳遞一個非法的地址。經過測試發現：會觸發kernel oops。繼續使用copy_{to,from}_user()替代memcpy()測試。測試發現：read()僅僅是返回錯誤，但不會觸發kernel oops。這才是我們想要的結果。畢竟，一個應用程式不應該觸發kernel oops。這種機制的實現原理是什麼呢？

我們以copy_to_user()為例分析。函數調用流程是：

copy_to_user()->_copy_to_user()->raw_copy_to_user()->__arch_copy_to_user()

_arch_copy_to_user()在ARM64平台是彙編程式碼實現，這部分程式碼很關鍵。

end    .req    x5  ENTRY(__arch_copy_to_user)          uaccess_enable_not_uao x3, x4, x5          add    end, x0, x2  #include "copy_template.S"          uaccess_disable_not_uao x3, x4          mov    x0, #0          ret  ENDPROC(__arch_copy_to_user)            .section .fixup,"ax"          .align    2  9998:    sub x0, end, dst            // bytes not copied          ret          .previous

uaccess_enable_not_uao和uaccess_disable_not_uao是上面說到的內核態訪問用戶空間的開關。
copy_template.S文件是彙編實現的memcpy()的功能，稍後看看memcpy()的實現程式碼就清楚了。
.section.fixup,「ax」定義一個section，名為「.fixup」，許可權是ax（『a』可重定位的段，『x』可執行段）。 9998標號處的指令就是「未雨綢繆」的善後處理工作。還記得copy_{to,from}_user()返回值的意義嗎？返回0代表copy成功，否則返回剩餘沒有copy的位元組數。這行程式碼就是計算剩餘沒有copy的位元組數。當我們訪問非法的用戶空間地址的時候，就一定會觸發page fault。這種情況下，內核態發生的page fault並返回的時候並沒有修復異常，所以肯定不能返回發生異常的地址繼續運行。所以，系統可以有2個選擇：第1個選擇是kernel oops，並給當前進程發送SIGSEGV訊號；第2個選擇是不返回出現異常的地址運行，而是選擇一個已經修復的地址返回。如果使用的是memcpy()就只有第1個選擇。但是copy_{to,from}_user()可以有第2個選擇。 .fixup段就是為了實現這個修復功能。當copy過程中出現訪問非法用戶空間地址的時候，do_page_fault()返回的地址變成 9998標號處，此時可以計算剩餘未copy的位元組長度，程式還可以繼續執行。

對比前面分析的結果，其實_arch_copy_to_user()可以近似等效如下關係。

uaccess_enable_not_uao();  memcpy(ubuf, kbuf, size);      ==     __arch_copy_to_user(ubuf, kbuf, size);  uaccess_disable_not_uao();

先插播一條消息，解釋copy_template.S為何是memcpy()。memcpy()在ARM64平台是由彙編程式碼實現。其定義在arch/arm64/lib/memcpy.S文件。

.weak memcpy  ENTRY(__memcpy)  ENTRY(memcpy)  #include "copy_template.S"          ret  ENDPIPROC(memcpy)  ENDPROC(__memcpy)

所以很明顯，memcpy()和__memcpy()函數定義是一樣的。並且memcpy()函數聲明是weak，因此可以重寫memcpy()函數（扯得有點遠）。再扯一點，為何使用彙編呢？為何不使用lib/string.c文件的memcpy()函數呢？當然是為了優化memcpy() 的執行速度。lib/string.c文件的memcpy()函數是按照位元組為單位進行copy（再好的硬體也會被粗糙的程式碼毀掉）。但是現在的處理器基本都是32或者64位，完全可以4 bytes或者8 bytes甚至16 bytes copy（考慮地址對齊的情況下）。可以明顯提升執行速度。所以，ARM64平台使用彙編實現。這部分知識可以參考這篇部落格《ARM64 的 memcpy 優化與實現》。

下面繼續進入正題，再重複一遍：內核態訪問用戶空間地址，如果觸發page fault，只要用戶空間地址合法，內核態也會像什麼也沒有發生一樣修復異常（分配物理記憶體，建立頁表映射關係）。但是如果訪問非法用戶空間地址，就選擇第2條路，嘗試救贖自己。這條路就是利用 .fixup和 __ex_table段。如果無力回天只能給當前進程發送SIGSEGV訊號。並且，輕則kernel oops，重則panic（取決於kernel配置選項CONFIG_PANIC_ON_OOPS）。在內核態訪問非法用戶空間地址的情況下，do_page_fault()最終會跳轉 no_context標號處的do_kernel_fault()。

static void __do_kernel_fault(unsigned long addr, unsigned int esr,                                struct pt_regs *regs)  {          /*           * Are we prepared to handle this kernel fault?           * We are almost certainly not prepared to handle instruction faults.           */          if (!is_el1_instruction_abort(esr) && fixup_exception(regs))                  return;          /* ... */  }

fixup_exception()繼續調用search_exception_tables()，其通過查找_extable段。__extable段存儲exception table，每個entry存儲著異常地址及其對應修復的地址。例如上述的 9998:subx0,end,dst指令的地址就會被找到並修改do_page_fault()函數的返回地址，以達到跳轉修復的功能。其實查找過程是根據出問題的地址addr，查找_extable段（exception table）是否有對應的exception table entry，如果有就代表可以被修復。由於32位處理器和64位處理器實現方式有差別，因此我們先從32位處理器異常表的實現原理說起。

_extable段的首尾地址分別是 __start___ex_table和 __stop___ex_table（定義在include/asm-generic/vmlinux.lds.h。這段記憶體可以看作是一個數組，數組的每個元素都是 struct exception_table_entry類型，其記錄著異常發生地址及其對應的修復地址。

exception tables  __start___ex_table --> +---------------+                         |     entry     |                         +---------------+                         |     entry     |                         +---------------+                         |      ...      |                         +---------------+                         |     entry     |                         +---------------+                         |     entry     |  __stop___ex_table  --> +---------------+

在32位處理器上，struct exception_table_entry定義如下：

struct exception_table_entry {          unsigned long insn, fixup;  };

有一點需要明確，在32位處理器上，unsigned long是4 bytes。insn和fixup分別存儲異常發生地址及其對應的修復地址。根據異常地址ex_addr查找對應的修復地址（未找到返回0），其示意程式碼如下：

unsigned long search_fixup_addr32(unsigned long ex_addr)  {          const struct exception_table_entry *e;            for (e = __start___ex_table; e < __stop___ex_table; e++)                  if (ex_addr == e->insn)                          return e->fixup;            return 0;  }

在32位處理器上，創建exception table entry相對簡單。針對copy{to,from}user()彙編程式碼中每一處用戶空間地址訪問的指令都會創建一個entry，並且insn存儲當前指令對應的地址，fixup存儲修復指令對應的地址。

當64位處理器開始發展起來，如果我們繼續使用這種方式，勢必需要2倍於32位處理器的記憶體存儲exception table（因為存儲一個地址需要8 bytes）。所以，kernel換用另一種方式實現。在64處理器上，struct exception_table_entry定義如下：

struct exception_table_entry {          int insn, fixup;  };

每個exception table entry佔用的記憶體和32位處理器情況一樣，因此記憶體佔用不變。但是insn和fixup的意義發生變化。insn和fixup分別存儲著異常發生地址及修復地址相對於當前結構體成員地址的偏移（有點拗口）。例如，根據異常地址ex_addr查找對應的修復地址（未找到返回0），其示意程式碼如下：

unsigned long search_fixup_addr64(unsigned long ex_addr)  {          const struct exception_table_entry *e;            for (e = __start___ex_table; e < __stop___ex_table; e++)                  if (ex_addr == (unsigned long)&e->insn + e->insn)                          return (unsigned long)&e->fixup + e->fixup;            return 0;  }

因此，我們的關注點就是如何去構建exception_table_entry。我們針對每個用戶空間地址的記憶體訪問都需要創建一個exception table entry，並插入_extable段。例如下面的彙編指令（彙編指令對應的地址是隨意寫的，不用糾結對錯。理解原理才是王道）。

0xffff000000000000: ldr x1, [x0]  0xffff000000000004: add x1, x1, #0x10  0xffff000000000008: ldr x2, [x0, #0x10]  /* ... */  0xffff000040000000: mov x0, #0xfffffffffffffff2    // -14  0xffff000040000004: ret

假設x0暫存器保存著用戶空間地址，因此我們需要對0xffff000000000000地址的彙編指令創建一個exception table entry，並且我們期望當x0是非法用戶空間地址時，跳轉返回的修復地址是0xffff000040000000。為了計算簡單，假設這是創建第一個entry， __start___ex_table值是0xffff000080000000。那麼第一個exception table entry的insn和fixup成員的值分別是：0x80000000和0xbffffffc（這兩個值都是負數）。因此，針對copy{to,from}user()彙編程式碼中每一處用戶空間地址訪問的指令都會創建一個entry。所以0xffff000000000008地址處的彙編指令也需要創建一個exception table entry。

所以，如果內核態訪問非法用戶空間地址究竟發生了什麼？上面的分析流程可以總結如下：

訪問非法用戶空間地址： 0xffff000000000000:ldr x1,[x0]
MMU觸發異常
CPU調用do_page_fault()
do_page_fault()調用search_exception_table()（regs->pc == 0xffff000000000000）
查看_extable段，尋找0xffff000000000000 並且返回修復地址0xffff000040000000
do_page_fault()修改函數返回地址（regs->pc = 0xffff000040000000）並返回
程式繼續執行，處理出錯情況
修改函數返回值x0 = -EFAULT (-14) 並返回（ARM64通過x0傳遞函數返回值）

總結

到了回顧總結的時候，copy_{to,from}_user()的思考也到此結束。我們來個總結結束此文。

無論是內核態還是用戶態訪問合法的用戶空間地址，當虛擬地址並未建立物理地址的映射關係的時候，page fault的流程幾乎一樣，都會幫助我們申請物理記憶體並創建映射關係。所以這種情況下memcpy()和copy_{to,from}_user()是類似的。
當內核態訪問非法用戶空間地址的時候，根據異常地址查找修復地址。這種修復異常的方法並不是建立地址映射關係，而是修改do_page_fault()返回地址。而memcpy()無法做到這點。
在使能 CONFIG_ARM64_SW_TTBR0_PAN或者 CONFIG_ARM64_PAN（硬體支援的情況下才有效）的時候，我們只能使用copy_{to,from}_user()這種介面，直接使用memcpy()是不行的。

最後，我想說，即使在某些情況下memcpy()可以正常工作。但是，這也是不推薦的，不是良好的編程習慣。在用戶空間和內核空間數據交互上，我們必須使用類似copy_{to,from}_user()的介面。為什麼類似呢？因為還有其他的介面用於內核空間和用戶空間數據交互，只是沒有copy_{to,from}_user()出名。例如：{get,put}_user()。

本文轉載自蝸窩科技:

http://www.wowotech.net/memory_management/454.html

（完）

copy_{to, from}_user()的思考

引言

百家爭鳴

拋磚引玉

刨根問底

未雨綢繆

總結

VirMach 便宜 VPS

QNews

copy_{to, from}_user()的思考

引言

百家爭鳴

拋磚引玉

刨根問底

未雨綢繆

總結

分享此文：

Related Posts

Android – Handler原理

十大排序演算法詳解

機器學習與深度學習中的數學知識點匯總

23種設計模式之建造者模式

VirMach 便宜 VPS

QNews

熱門搜尋