Linux內核調試的方式以及工具集錦【轉】

2019 年 10 月 10 日
筆記

轉自：https://blog.csdn.net/gatieme/article/details/68948080

本作品採用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議進行許可, 轉載請註明出處, 謝謝合作因本人技術水平和知識面有限, 內容如有紕漏或者需要修正的地方, 歡迎大家指正, 也歡迎大家提供一些其他好的調試工具以供收錄, 鄙人在此謝謝啦

"調試難度本來就是寫程式碼的兩倍. 因此, 如果你寫程式碼的時候聰明用盡, 根據定義, 你就沒有能耐去調試它了." –Brian Kernighan 1 2 1 內核調試以及工具總結內核總是那麼捉摸不透, 內核也會犯錯, 但是調試卻不能像用戶空間程式那樣, 為此內核開發者為我們提供了一系列的工具和系統來支援內核的調試.

內核的調試, 其本質是內核空間與用戶空間的數據交換, 內核開發者們提供了多樣的形式來完成這一功能.

工具描述 debugfs等文件系統提供了 procfs, sysfs, debugfs以及 relayfs 來與用戶空間進行數據交互, 尤其是 debugfs, 這是內核開發者們實現的專門用來調試的文件系統介面. 其他的工具或者介面, 多數都依賴於 debugfs. printk 強大的輸出系統, 沒有什麼邏輯上的bug是用PRINT解決不了的 ftrace以及其前端工具trace-cmd等內核提供了 ftrace 工具來實現檢查點, 事件等的檢測, 這一框架依賴於 debugfs, 他在 debugfs 中的 tracing 子系統中為用戶提供了豐富的操作介面, 我們可以通過該系統對內核實現檢測和分析. 功能雖然強大, 但是其操作並不是很簡單, 因此使用者們為實現了 trace-cmd 等前端工具, 簡化了 ftrace 的使用. kprobe以及更強大的systemtap 內核中實現的 krpobe 通過類似與程式碼劫持一樣的技巧, 在內核的程式碼或者函數執行前後, 強制加上某些調試資訊, 可以很巧妙的完成調試工作, 這是一項先進的調試技術, 但是仍然有覺得它不夠好, 劫持程式碼需要用驅動的方式編譯並載入, 能不能通過腳本的方式自動生成劫持程式碼並自動載入和收集數據, 於是systemtap 出現了. 通過 systemtap 用戶只需要編寫腳本, 就可以完成調試並動態分析內核 kgdb && kgtp KGDB 是大名鼎鼎的內核調試工具, KGTP則通過驅動的方式強化了 gdb的功能, 諸如tracepoint, 列印內核變數等. perf erf Event是一款隨 inux內核程式碼一同發布和維護的性能診斷工具, 核社區維護和發展. Perf 不僅可以用於應用程式的性能統計分析, 也可以應用於內核程式碼的性能統計和分析. 得益於其優秀的體系結構設計, 越來越多的新功能被加入 Perf, 使其已經成為一個多功能的性能統計工具集 LTTng LTTng 是一個 Linux 平台開源的跟蹤工具, 是一套軟體組件, 可允許跟蹤 Linux 內核和用戶程式, 並控制跟蹤會話(開始/停止跟蹤、啟動/停止事件等等). 2 用戶空間與內核空間數據交換的文件系統內核中有三個常用的偽文件系統: procfs, debugfs和sysfs.

文件系統描述 procfs The proc filesystem is a pseudo-filesystem which provides an interface to kernel data structures. sysfs The filesystem for exporting kernel objects. debugfs Debugfs exists as a simple way for kernel developers to make information available to user space. relayfs A significantly streamlined version of relayfs was recently accepted into the -mm kernel tree. 它們都用於Linux內核和用戶空間的數據交換, 但是適用的場景有所差異：

procfs 歷史最早, 最初就是用來跟內核交互的唯一方式, 用來獲取處理器、記憶體、設備驅動、進程等各種資訊.

sysfs 跟 kobject 框架緊密聯繫, 而 kobject 是為設備驅動模型而存在的, 所以 sysfs 是為設備驅動服務的.

debugfs 從名字來看就是為 debug 而生, 所以更加靈活.

relayfs 是一個快速的轉發 (relay) 數據的文件系統, 它以其功能而得名. 它為那些需要從內核空間轉發大量數據到用戶空間的工具和應用提供了快速有效的轉發機制.

在 Linux 下用戶空間與內核空間數據交換的方式, 第 2 部分: procfs、seq_file、debugfs和relayfs

Linux 文件系統：procfs, sysfs, debugfs 用法簡介

2.1 procfs文件系統 ProcFs 介紹` procfs 是比較老的一種用戶態與內核態的數據交換方式, 內核的很多數據都是通過這種方式出口給用戶的, 內核的很多參數也是通過這種方式來讓用戶方便設置的. 除了 sysctl 出口到 /proc 下的參數, procfs 提供的大部分內核參數是只讀的. 實際上, 很多應用嚴重地依賴於procfs, 因此它幾乎是必不可少的組件. 前面部分的幾個例子實際上已經使用它來出口內核數據, 但是並沒有講解如何使用, 本節將講解如何使用procfs.

參考資料用戶空間與內核空間數據交換的方式(2)——procfs

2.2 sysfs文件系統內核子系統或設備驅動可以直接編譯到內核, 也可以編譯成模組, 編譯到內核, 使用前一節介紹的方法通過內核啟動參數來向它們傳遞參數, 如果編譯成模組, 則可以通過命令行在插入模組時傳遞參數, 或者在運行時, 通過 sysfs 來設置或讀取模組數據.

Sysfs 是一個基於記憶體的文件系統, 實際上它基於ramfs, sysfs 提供了一種把內核數據結構, 它們的屬性以及屬性與數據結構的聯繫開放給用戶態的方式, 它與 kobject 子系統緊密地結合在一起, 因此內核開發者不需要直接使用它, 而是內核的各個子系統使用它. 用戶要想使用 sysfs 讀取和設置內核參數, 僅需裝載 sysfs 就可以通過文件操作應用來讀取和設置內核通過 sysfs 開放給用戶的各個參數：

mkdir -p /sysfs mount -t sysfs sysfs /sysfs 1 2 注意, 不要把 sysfs 和 sysctl 混淆, sysctl 是內核的一些控制參數, 其目的是方便用戶對內核的行為進行控制, 而 sysfs 僅僅是把內核的 kobject 對象的層次關係與屬性開放給用戶查看, 因此 sysfs 的絕大部分是只讀的, 模組作為一個 kobject 也被出口到 sysfs, 模組參數則是作為模組屬性出口的, 內核實現者為模組的使用提供了更靈活的方式, 允許用戶設置模組參數在 sysfs 的可見性並允許用戶在編寫模組時設置這些參數在 sysfs 下的訪問許可權, 然後用戶就可以通過 sysfs 來查看和設置模組參數, 從而使得用戶能在模組運行時控制模組行為.

用戶空間與內核空間數據交換的方式(6)——模組參數與sysfs

2.3 debugfs文件系統內核開發者經常需要向用戶空間應用輸出一些調試資訊, 在穩定的系統中可能根本不需要這些調試資訊, 但是在開發過程中, 為了搞清楚內核的行為, 調試資訊非常必要, printk可能是用的最多的, 但它並不是最好的, 調試資訊只是在開發中用於調試, 而 printk 將一直輸出, 因此開發完畢後需要清除不必要的 printk 語句, 另外如果開發者希望用戶空間應用能夠改變內核行為時, printk 就無法實現.

因此, 需要一種新的機制, 那只有在需要的時候使用, 它在需要時通過在一個虛擬文件系統中創建一個或多個文件來向用戶空間應用提供調試資訊.

有幾種方式可以實現上述要求：

使用 procfs, 在 /proc 創建文件輸出調試資訊, 但是 procfs 對於大於一個記憶體頁(對於 x86 是 4K)的輸出比較麻煩, 而且速度慢, 有時回出現一些意想不到的問題.

使用 sysfs( 2.6 內核引入的新的虛擬文件系統), 在很多情況下, 調試資訊可以存放在那裡, 但是sysfs主要用於系統管理，它希望每一個文件對應內核的一個變數，如果使用它輸出複雜的數據結構或調試資訊是非常困難的.

使用 libfs 創建一個新的文件系統, 該方法極其靈活, 開發者可以為新文件系統設置一些規則, 使用 libfs 使得創建新文件系統更加簡單, 但是仍然超出了一個開發者的想像.

為了使得開發者更加容易使用這樣的機制, Greg Kroah-Hartman 開發了 debugfs(在 2.6.11 中第一次引入), 它是一個虛擬文件系統, 專門用於輸出調試資訊, 該文件系統非常小, 很容易使用, 可以在配置內核時選擇是否構件到內核中, 在不選擇它的情況下, 使用它提供的API的內核部分不需要做任何改動.

用戶空間與內核空間數據交換的方式(1)——debugfs

Linux內核里的DebugFS

Linux驅動調試的Debugfs的使用簡介

Linux Debugfs文件系統介紹及使用

Linux內核里的DebugFS

Debugging the Linux Kernel with debugfs

debugfs-seq_file

Linux Debugfs文件系統介紹及使用

Linux 文件系統：procfs, sysfs, debugfs 用法簡介

用戶空間與內核空間數據交換的方式(1)——debugfs

Linux 運用debugfs調試方法

2.4 relayfs文件系統 relayfs 是一個快速的轉發(relay)數據的文件系統, 它以其功能而得名. 它為那些需要從內核空間轉發大量數據到用戶空間的工具和應用提供了快速有效的轉發機制.

Channel 是 relayfs 文件系統定義的一個主要概念, 每一個 channel 由一組內核快取組成, 每一個 CPU 有一個對應於該 channel 的內核快取, 每一個內核快取用一個在 relayfs 文件系統中的文件文件表示, 內核使用 relayfs 提供的寫函數把需要轉發給用戶空間的數據快速地寫入當前 CPU 上的 channel 內核快取, 用戶空間應用通過標準的文件 I/ O函數在對應的 channel 文件中可以快速地取得這些被轉發出的數據 mmap 來. 寫入到 channel 中的數據的格式完全取決於內核中創建channel 的模組或子系統.

relayfs 的用戶空間API :

relayfs 實現了四個標準的文件 I/O 函數, open、mmap、poll和close

函數描述 open 打開一個 channel 在某一個 CPU 上的快取對應的文件. mmap 把打開的 channel 快取映射到調用者進程的記憶體空間. read 讀取 channel 快取, 隨後的讀操作將看不到被該函數消耗的位元組, 如果 channel 的操作模式為非覆蓋寫, 那麼用戶空間應用在有內核模組寫時仍可以讀取, 但是如 channel 的操作模式為覆蓋式, 那麼在讀操作期間如果有內核模組進行寫，結果將無法預知, 因此對於覆蓋式寫的 channel, 用戶應當在確認在 channel 的寫完全結束後再進行讀. poll 用於通知用戶空間應用轉發數據跨越了子快取的邊界, 支援的輪詢標誌有 POLLIN、POLLRDNORM 和 POLLERR close 關閉 open 函數返回的文件描述符, 如果沒有進程或內核模組打開該 channel 快取, close 函數將釋放該channel 快取注意 : 用戶態應用在使用上述 API 時必須保證已經掛載了 relayfs 文件系統, 但內核在創建和使用 channel時不需要relayfs 已經掛載. 下面命令將把 relayfs 文件系統掛載到 /mnt/relay.

用戶空間與內核空間數據交換的方式(4)——relayfs

Relay：一種內核到用戶空間的高效數據傳輸技術

2.5 seq_file 一般地, 內核通過在 procfs 文件系統下建立文件來向用戶空間提供輸出資訊, 用戶空間可以通過任何文本閱讀應用查看該文件資訊, 但是 procfs 有一個缺陷, 如果輸出內容大於1個記憶體頁, 需要多次讀, 因此處理起來很難, 另外, 如果輸出太大, 速度比較慢, 有時會出現一些意想不到的情況, Alexander Viro 實現了一套新的功能, 使得內核輸出大文件資訊更容易, 該功能出現在 2.4.15(包括 2.4.15)以後的所有 2.4 內核以及 2.6 內核中, 尤其是在 2.6 內核中，已經大量地使用了該功能

用戶空間與內核空間數據交換的方式(3)——seq_file

內核proc文件系統與seq介面（4）—seq_file介面編程淺析

Linux內核中的seq操作

seq_file源碼分析

用序列文件(seq_file)介面導出常用數據結構

seq_file機制

3 printk 在內核調試技術之中, 最簡單的就是 printk 的使用了, 它的用法和C語言應用程式中的 printf 使用類似, 在應用程式中依靠的是 stdio.h 中的庫, 而在 linux 內核中沒有這個庫, 所以在 linux 內核中, 實現了自己的一套庫函數, printk 就是標準的輸出函數

linux內核調試技術之printk

調整內核printk的列印級別

linux設備驅動學習筆記–內核調試方法之printk

4 ftrace && trace-cmd 4.1 trace && ftrace Linux當前版本中, 功能最強大的調試、跟蹤手段. 其最基本的功能是提供了動態和靜態探測點, 用於探測內核中指定位置上的相關資訊.

靜態探測點, 是在內核程式碼中調用 ftrace 提供的相應介面實現, 稱之為靜態是因為, 是在內核程式碼中寫死的, 靜態編譯到內核程式碼中的, 在內核編譯後, 就不能再動態修改. 在開啟 ftrace 相關的內核配置選項後, 內核中已經在一些關鍵的地方設置了靜態探測點, 需要使用時, 即可查看到相應的資訊.

動態探測點, 基本原理為 : 利用 mcount 機制, 在內核編譯時, 在每個函數入口保留數個位元組, 然後在使用 ftrace時, 將保留的位元組替換為需要的指令, 比如跳轉到需要的執行探測操作的程式碼。

ftrace 的作用是幫助開發人員了解 Linux 內核的運行時行為, 以便進行故障調試或性能分析.

最早 ftrace 是一個 function tracer, 僅能夠記錄內核的函數調用流程. 如今 ftrace 已經成為一個 framework, 採用 plugin 的方式支援開發人員添加更多種類的 trace 功能.

Ftrace 由 RedHat 的 Steve Rostedt 負責維護. 到 2.6.30 為止, 已經支援的 tracer 包括 :

Tracer 描述 Function tracer 和 Function graph tracer 跟蹤函數調用 Schedule switch tracer 跟蹤進程調度情況 Wakeup tracer 跟蹤進程的調度延遲, 即高優先順序進程從進入 ready 狀態到獲得 CPU 的延遲時間. 該 tracer 只針對實時進程 Irqsoff tracer 當中斷被禁止時, 系統無法相應外部事件, 比如鍵盤和滑鼠, 時鐘也無法產生 tick 中斷. 這意味著系統響應延遲, irqsoff 這個 tracer 能夠跟蹤並記錄內核中哪些函數禁止了中斷, 對於其中中斷禁止時間最長的, irqsoff 將在 log 文件的第一行標示出來, 從而使開發人員可以迅速定位造成響應延遲的罪魁禍首. Preemptoff tracer 和前一個 tracer 類似, preemptoff tracer 跟蹤並記錄禁止內核搶佔的函數, 並清晰地顯示出禁止搶佔時間最長的內核函數. Preemptirqsoff tracer 同上, 跟蹤和記錄禁止中斷或者禁止搶佔的內核函數, 以及禁止時間最長的函數. Branch tracer 跟蹤內核程式中的 likely/unlikely 分支預測命中率情況. Branch tracer 能夠記錄這些分支語句有多少次預測成功. 從而為優化程式提供線索. Hardware branch tracer 利用處理器的分支跟蹤能力, 實現硬體級別的指令跳轉記錄. 在 x86 上, 主要利用了 BTS 這個特性. Initcall tracer 記錄系統在 boot 階段所調用的 init call. Mmiotrace tracer 記錄 memory map IO 的相關資訊. Power tracer 記錄系統電源管理相關的資訊 Sysprof tracer 預設情況下, sysprof tracer 每隔 1 msec 對內核進行一次取樣，記錄函數調用和堆棧資訊. Kernel memory tracer 記憶體 tracer 主要用來跟蹤 slab allocator 的分配情況. 包括 kfree, kmem_cache_alloc 等 API 的調用情況, 用戶程式可以根據 tracer 收集到的資訊分析內部碎片情況, 找出記憶體分配最頻繁的程式碼片斷, 等等. Workqueue statistical tracer 這是一個 statistic tracer, 統計系統中所有的 workqueue 的工作情況, 比如有多少個 work 被插入 workqueue, 多少個已經被執行等. 開發人員可以以此來決定具體的 workqueue 實現, 比如是使用 single threaded workqueue 還是 per cpu workqueue. Event tracer 跟蹤系統事件, 比如 timer, 系統調用, 中斷等. 這裡還沒有列出所有的 tracer, ftrace 是目前非常活躍的開發領域, 新的 tracer 將不斷被加入內核。

ftrace和它的前端工具trace-cmd(深入了解Linux系統的利器)

ftrace 簡介

內核性能調試–ftrace

使用 ftrace 調試 Linux 內核，第 1 部分

ftrace的使用

[轉]Linux內核跟蹤之trace框架分析

Linux trace使用入門

4.2 ftrace前端工具trace-cmd trace-cmd 介紹 trace-cmd 和開源的 kernelshark 均是內核Ftrace 的前段工具, 用於分分析核性能.

他們相當於是一個 /sys/kernel/debug/tracing 中文件系統介面的封裝, 為用戶提供了更加直接和方便的操作.

使用 # 收集資訊 sudo trace-cmd reord subsystem:tracing

# 解析結果 #sudo trace-cmd report 1 2 3 4 5 trace-cmd: A front-end for Ftrace

其本質就是對/sys/kernel/debug/tracing/events 下各個模組進行操作, 收集數據並解析

5 Kprobe && systemtap 5.1 內核kprobe機制 kprobe 是 linux 內核的一個重要特性, 是一個輕量級的內核調試工具, 同時它又是其他一些更高級的內核調試工具(比如 perf 和 systemtap)的「基礎設施」, 4.0版本的內核中, 強大的 eBPF 特性也寄生於 kprobe 之上, 所以 kprobe 在內核中的地位就可見一斑了.

Kprobes 提供了一個強行進入任何內核常式並從中斷處理器無干擾地收集資訊的介面. 使用 Kprobes 可以收集處理器暫存器和全局數據結構等調試資訊。開發者甚至可以使用 Kprobes 來修改暫存器值和全局數據結構的值.

如何高效地調試內核?

printk 是一種方法, 但是 printk 終歸是毫無選擇地全量輸出, 某些場景下不實用, 於是你可以試一下tracepoint, 我使能 tracepoint 機制的時候才輸出. 對於傻傻地放置 printk 來輸出資訊的方式, tracepoint 是個進步, 但是 tracepoint 只是內核在某些特定行為(比如進程切換)上部署的一些靜態錨點, 這些錨點並不一定是你需要的, 所以你仍然需要自己部署tracepoint, 重新編譯內核. 那麼 kprobe 的出現就很有必要了, 它可以在運行的內核中動態插入探測點, 執行你預定義的操作.

它的基本工作機制是 : 用戶指定一個探測點, 並把一個用戶定義的處理函數關聯到該探測點, 當內核執行到該探測點時, 相應的關聯函數被執行，然後繼續執行正常的程式碼路徑.

kprobe 實現了三種類型的探測點 : kprobes, jprobes和 kretprobes(也叫返回探測點). kprobes 是可以被插入到內核的任何指令位置的探測點, jprobes 則只能被插入到一個內核函數的入口, 而 kretprobes 則是在指定的內核函數返回時才被執行.

kprobe工作原理

隨想錄(強大的kprobe)

kprobe原理解析（一）

5.2 前端工具systemtap SystemTap 是監控和跟蹤運行中的 Linux 內核的操作的動態方法. 這句話的關鍵詞是動態, 因為 SystemTap 沒有使用工具構建一個特殊的內核, 而是允許您在運行時動態地安裝該工具. 它通過一個 Kprobes 的應用編程介面 (API) 來實現該目的.

SystemTap 與一種名為 DTrace 的老技術相似，該技術源於 Sun Solaris 作業系統. 在 DTrace 中, 開發人員可以用 D 程式語言(C 語言的子集, 但修改為支援跟蹤行為)編寫腳本. DTrace 腳本包含許多探針和相關聯的操作, 這些操作在探針「觸發」時發生. 例如, 探針可以表示簡單的系統調用，也可以表示更加複雜的交互，比如執行特定的程式碼行

DTrace 是 Solaris 最引人注目的部分, 所以在其他作業系統中開發它並不奇怪. DTrace 是在 Common Development and Distribution License (CDDL) 之下發行的, 並且被移植到 FreeBSD 作業系統中.

另一個非常有用的內核跟蹤工具是 ProbeVue, 它是 IBM 為 IBM® AIX® 作業系統 6.1 開發的. 您可以使用 ProbeVue 探查系統的行為和性能, 以及提供特定進程的詳細資訊. 這個工具使用一個標準的內核以動態的方式進行跟蹤.

考慮到 DTrace 和 ProbeVue 在各自的作業系統中的巨大作用, 為 Linux 作業系統策劃一個實現該功能的開源項目是勢不可擋的. SystemTap 從 2005 年開始開發, 它提供與 DTrace 和 ProbeVue 類似的功能. 許多社區還進一步完善了它, 包括 Red Hat、Intel、Hitachi 和 IBM 等.

這些解決方案在功能上都是類似的, 在觸發探針時使用探針和相關聯的操作腳本.

SystemTap 學習筆記 – 安裝篇

Linux 自檢和 SystemTap 用於動態內核分析的介面和語言

Brendan』s blog Using SystemTap

內核調試神器SystemTap — 簡介與使用（一）

內核探測工具systemtap簡介

SystemTap Beginner

使用systemtap調試linux內核

Ubuntu Kernel Debuginfo

Linux 下的一個全新的性能測量和調式診斷工具 Systemtap, 第 3 部分: Systemtap

6 kgdb && kgtp 6.1 kgdb KDB 和 KGDB 合併, 並進入內核 KGDB 是大名鼎鼎的內核調試工具, 他是由 KDB 和 KGDB 項目合併而來.

kdb 是一個Linux系統的內核調試器, 它是由SGI公司開發的遵循GPL許可證的開放源碼調試工具. kdb 嵌入在Linux 內核中. 為內核&&驅動程式設計師提供調試手段. 它適合於調試內核空間的程式程式碼. 譬如進行設備驅動程式調試. 內核模組的調試等.

kgdb 和 kdb 現在已經合併了. 對於一個正在運行的kgdb 而言, 可以使用 gdbmonitor 命令來使用 kdb 命令. 比如

(gdb)gdb monitor ps -A 1 就可以運行 kdb 的 ps 命令了.

分析一下 kdb 修補程式和合入主線的 kdb 有啥不同

kdb跟 kgdb 合併之後, 也可以使用 kgdb 的IO 驅動(比如鍵盤), 但是同時也 kdb也喪失了一些功能. 合併之後的kdb不在支援彙編級的源碼調試. 因此它現在也是平台獨立的.

kdump和kexec已經被移除。

從/proc/meninfo中獲取的資訊比以前少了。

bt命令現在使用的是內核的backtracer，而不是kdb原來使用的反彙編。

合併之後的kdb不在具有原來的反彙編（id命令）

總結一下 : kdb 和 kgdb 合併之後，系統中對這兩種調試方式幾乎沒有了明顯的界限，比如通過串口進行遠程訪問的時候，可以使用 kgdb 命令, 也可以使用 kdb 命令（使用gdb monitor實現）

6.2 KGTP KGTP 是一個實時輕量級 Linux 調試器和跟蹤器. 使用 KGTP

使用 KGTP 不需要在 Linux 內核上打 PATCH 或者重新編譯, 只要編譯KGTP模組並 insmod 就可以.

其讓 Linux 內核提供一個遠程 GDB 調試介面, 於是在本地或者遠程的主機上的GDB可以在不需要停止內核的情況下用 GDB tracepoint 和其他一些功能調試和跟蹤 Linux.

即使板子上沒有 GDB 而且其沒有可用的遠程介面, KGTP 也可以用離線調試的功能調試內核（見http://code.google.com/p/kgtp/wiki/HOWTOCN#/sys/kernel/debug/gtpframe和離線調試）。

KGTP支援 X86-32 ， X86-64 ， MIPS 和 ARM 。 KGTP在Linux內核 2.6.18到upstream 上都被測試過。而且還可以用在 Android 上(見 HowToUseKGTPinAndroid)

github-KGTP

KGTP內核調試使用

KGTP中增加對GDB命令「set trace-buffer-size」的支援 – Week 5

7 perf Perf 是用來進行軟體性能分析的工具。通過它, 應用程式可以利用 PMU, tracepoint 和內核中的特殊計數器來進行性能統計. 它不但可以分析指定應用程式的性能問題 (per thread). 也可以用來分析內核的性能問題, 當然也可以同時分析應用程式碼和內核，從而全面理解應用程式中的性能瓶頸.

最初的時候, 它叫做 Performance counter, 在 2.6.31 中第一次亮相. 此後他成為內核開發最為活躍的一個領域. 在 2.6.32 中它正式改名為 Performance Event, 因為 perf 已不再僅僅作為 PMU 的抽象, 而是能夠處理所有的性能相關的事件.

使用 perf, 您可以分析程式運行期間發生的硬體事件，比如 instructions retired , processor clock cycles 等; 您也可以分析軟體事件, 比如 Page Fault 和進程切換。這使得 Perf 擁有了眾多的性能分析能力, 舉例來說，使用 Perf 可以計算每個時鐘周期內的指令數, 稱為 IPC, IPC 偏低表明程式碼沒有很好地利用 CPU.

Perf 還可以對程式進行函數級別的取樣, 從而了解程式的性能瓶頸究竟在哪裡等等. Perf 還可以替代 strace, 可以添加動態內核 probe 點. 還可以做 benchmark 衡量調度器的好壞.

人們或許會稱它為進行性能分析的」瑞士軍刀」, 但我不喜歡這個比喻, 我覺得 perf 應該是一把世間少有的倚天劍. 金庸筆下的很多人都有對寶刀的癖好, 即便本領低微不配擁有, 但是喜歡, 便無可奈何. 我恐怕正如這些人一樣, 因此進了酒館客棧, 見到相熟或者不相熟的人, 就要興沖沖地要講講那倚天劍的故事.

Perf – Linux下的系統性能調優工具，第 1 部分

perf Examples

改進版的perf, Performance analysis tools based on Linux perf_events (aka perf) and ftrace

Perf使用教程

linux下的內核測試工具——perf使用簡介

perf 移植

8 其他Tracer工具 8.1 LTTng LTTng 是一個 Linux 平台開源的跟蹤工具, 是一套軟體組件, 可允許跟蹤 Linux 內核和用戶程式, 並控制跟蹤會話(開始/停止跟蹤、啟動/停止事件等等). 這些組件被綁定如下三個包 :

包描述 LTTng-tools 庫和用於跟蹤會話的命令行介面 LTTng-modules 允許用 LTTng 跟蹤 Linux 的 Linux 內核模組 LTTng-UST 用戶空間跟蹤庫

Linux 平台開源的跟蹤工具：LTTng

用 lttng 跟蹤內核

LTTng and LTTng project

8.2 eBPF extended Berkeley Packet Filter（eBPF）是一個可以在事件上運行程式的高效內核虛擬機（JIT）。它可能最終會提供 ftrace 和 perf_events 的內核編程，並強化其他的 tracer。這是 Alexei Starovoitov 目前正在開發的，還沒有完全集成，但是從4.1開始已經對一些優秀的工具有足夠的內核支援了，如塊設備I/O的延遲熱圖。可參考其主要作者 Alexei Starovoitov 的BPF slides和eBPF samples。

8.3 Ktap ktap 在過去是一款前景很好的 tracer，它使用內核中的 lua 虛擬機處理，在沒有調試資訊的情況下在嵌入式設備上運行的很好。它分為幾個步驟，並在有一段時間似乎超過了 Linux 上所有的追蹤器。然後 eBPF 開始進行內核集成，而 ktap 的集成在它可以使用 eBPF 替代它自己的虛擬機後才開始。因為 eBPF 仍將持續集成幾個月，ktap 開發者要繼續等上一段時間。我希??今年晚些時候它能重新開發。

8.4 dtrace4linux dtrace4linux 主要是 Paul Fox 一個人在業餘時間完成的，它是 Sun DTrace 的 Linux 版本。它引入矚目，還有一些 provider 可以運行，但是從某種程度上來說還不完整，更多的是一種實驗性的工具（不安全）。我認為，顧忌到許可問題，人們會小心翼翼的為 dtrace4linux 貢獻程式碼：由於當年 Sun 開源DTrace 使用的是 CDDL 協議，而 dtrace4linux 也不大可能最終進入 Linux kernel。Paul 的方法很可能會使其成為一個 add-on。我很樂意看到 Linux 平台上的 DTrace 和這個項目的完成，我認為當我加入 Netflix 後將會花些時間來協助完成這個項目。然而，我還是要繼續使用內置的 tracers，如 ftrace 和 perf_events。

8.5 OL DTrace Oracle Linux DTrace為了將 DTrace 引入 Linux，特別是 Oracle Linux，做出了很大的努力。這些年來發布的多個版本表明了它的穩定進展。開發者們以一種對這個項目的前景看好的態度談論著改進 DTrace 測試套件。很多有用的 provider 已經完成了，如：syscall, profile, sdt, proc, sched 以及 USDT。我很期待 fbt（function boundary tracing, 用於內核動態跟蹤）的完成，它是 Linux 內核上非常棒的 provider。OL DTrace 最終的成功將取決於人們對運行 Oracle Linux（為技術支援付費）有多大興趣，另一方面取決於它是否完全開源：它的內核元件是開源的，而我沒有看到它的用戶級別程式碼。

8.6 sysdig sysdig是一個使用類tcpdump語法來作業系統事件的新tracer，它使用lua提交進程。它很優秀，它見證了系統跟蹤領域的變革。它的局限性在於它只在當前進行系統調用，在提交進行時將所有事件轉儲為用戶級別。你可以使用系統調用做很多事情，然而我還是很希望它能支援跟蹤點、kprobe和uprobe。我還期待它能支援eBPF做內核摘要。目前，sysdig開發者正在增加容器支援。留意這些內容。

本作品採用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議進行許可, 轉載請註明出處, 謝謝合作. 因本人技術水平和知識面有限, 內容如有紕漏或者需要修正的地方, 歡迎大家指正, 也歡迎大家提供一些其他好的調試工具以供收錄, 鄙人在此謝謝啦 ———————————————— 版權聲明：本文為CSDN部落客「JeanCheng」的原創文章，遵循 CC 4.0 BY-SA 版權協議，轉載請附上原文出處鏈接及本聲明。原文鏈接：https://blog.csdn.net/gatieme/article/details/68948080

Linux內核調試的方式以及工具集錦【轉】

VirMach 便宜 VPS

QNews

Linux內核調試的方式以及工具集錦【轉】

分享此文：

Related Posts

11gR2 RAC添加和刪除節點步驟–刪除節點

我的設計模式之旅 ⑦ 觀察者模式

【DB筆試面試580】在Oracle中，什麼是High Version Count？

【DB筆試面試581】在Oracle中，綁定變數是什麼？綁定變數有什麼優缺點？

VirMach 便宜 VPS

QNews

熱門搜尋