Linux 核心調試器(KDB)允許您調試 Linux 核心。這個恰如其名的工具實質上是核心代碼的更新檔,它允許高手通路核心記憶體和資料結構。KDB 的主要優點之一就是它不需要用另一台機器進行調試:您可以調試正在運作的核心。
在本文中,我們将從有關下載下傳 KDB 更新檔、打更新檔、(重新)編譯核心以及啟動 KDB 方面的資訊着手。然後我們将了解 KDB 指令并研究一些較常用的指令。最後,我們将研究一下有關設定和顯示選項方面的一些詳細資訊。
<a>入門</a>
這裡所提供的所有示例都是針對 i386 體系結構和 2.4.20 核心的。您将需要根據您的機器和核心版本進行适當的更改。您還需要擁有 root 許可權以執行這些操作。
将檔案複制到 /usr/src/linux 目錄中并從用 bzip2 壓縮的檔案解壓縮更新檔檔案:
#bzip2 -d kdb-v4.2-2.4.20-common-1.bz2
#bzip2 -d kdb-v4.2-2.4.20-i386-1.bz2
您将獲得 kdb-v4.2-2.4.20-common-1 和 kdb-v4.2-2.4-i386-1 檔案。
現在,應用這些更新檔:
#patch -p1
這些更新檔應該幹淨利落地加以應用。查找任何以 .rej 結尾的檔案。這個擴充名表明這些是失敗的更新檔。如果核心樹沒問題,那麼更新檔的應用就不會有任何問題。
接下來,需要建構核心以支援 KDB。第一步是設定 CONFIG_KDB 選項。使用您喜歡的配置機制(xconfig 和 menuconfig 等)來完成這一步。轉到結尾處的“Kernel hacking”部分并選擇“Built-in Kernel Debugger support”選項。
您還可以根據自己的偏好選擇其它兩個選項。選擇“Compile the kernel with frame pointers”選項(如果有的話)則設定CONFIG_FRAME_POINTER 标志。這将産生更好的堆棧回溯,因為幀指針寄存器被用作幀指針而不是通用寄存器。您還可以選擇“KDB off by default”選項。這将設定 CONFIG_KDB_OFF 标志,并且在預設情況下将關閉 KDB。我們将在後面一節中對此進行詳細介紹。
儲存配置,然後退出。重新編譯核心。建議在建構核心之前執行“make clean”。用常用方式安裝核心并引導它。
<a href="http://www.ibm.com/developerworks/cn/linux/l-kdbug/index.html#ibm-pcon" target="_blank">回頁首</a>
<a>初始化并設定環境變量</a>
您可以定義将在 KDB 初始化期間執行的 KDB 指令。需要在純文字檔案 kdb_cmds 中定義這些指令,該檔案位于 Linux 源代碼樹(當然是在打了更新檔之後)的 KDB 目錄中。該檔案還可以用來定義設定顯示和列印選項的環境變量。檔案開頭的注釋提供了編輯檔案方面的幫助。使用這個檔案的缺點是,在您更改了檔案之後需要重新建構并重新安裝核心。
<a>激活 KDB</a>
如果編譯期間沒有選中 CONFIG_KDB_OFF ,那麼在預設情況下 KDB 是活動的。否則,您需要顯式地激活它 - 通過在引導期間将 kdb=on 标志傳遞給核心或者通過在挂裝了 /proc 之後執行該工作:
#echo "1" >/proc/sys/kernel/kdb
倒過來執行上述步驟則會取消激活 KDB。也就是說,如果預設情況下 KDB 是打開的,那麼将 kdb=off 标志傳遞給核心或者執行下面這個操作将會取消激活 KDB:
#echo "0" >/proc/sys/kernel/kdb
在引導期間還可以将另一個标志傳遞給核心。 kdb=early 标志将導緻在引導過程的初始階段就把控制權傳遞給 KDB。如果您需要在引導過程初始階段進行調試,那麼這将有所幫助。
<a>KDB 指令</a>
KDB 是一個功能非常強大的工具,它允許進行幾個操作,比如記憶體和寄存器修改、應用斷點和堆棧跟蹤。根據這些,可以将 KDB 指令分成幾個類别。下面是有關每一類中最常用指令的詳細資訊。
<a>記憶體顯示和修改</a>
這一類别中最常用的指令是 md 、 mdr 、 mm 和 mmW 。
md 指令以一個位址/符号和行計數為參數,顯示從該位址開始的 line-count 行的記憶體。如果沒有指定 line-count ,那麼就使用環境變量所指定的預設值。如果沒有指定位址,那麼 md 就從上一次列印的位址繼續。位址列印在開頭,字元轉換列印在結尾。
mdr 指令帶有位址/符号以及位元組計數,顯示從指定的位址開始的 byte-count 位元組數的初始記憶體内容。它本質上和 md 一樣,但是它不顯示起始位址并且不在結尾顯示字元轉換。 mdr 指令較少使用。
mm 指令修改記憶體内容。它以位址/符号和新内容作為參數,用 new-contents 替換位址處的内容。
mmW 指令更改從位址開始的 W 個位元組。請注意, mm 更改一個機器字。
示例
<a><b>顯示從 0xc000000 開始的 15 行記憶體:</b></a>
[0]kdb> md 0xc000000 15
<a><b>将記憶體位置為 0xc000000 上的内容更改為 0x10:</b></a>
[0]kdb> mm 0xc000000 0x10
<a>寄存器顯示和修改</a>
這一類别中的指令有 rd 、 rm 和 ef 。
rd 指令(不帶任何參數)顯示處理器寄存器的内容。它可以有選擇地帶三個參數。如果傳遞了 c 參數,則 rd 顯示處理器的控制寄存器;如果帶有 d 參數,那麼它就顯示調試寄存器;如果帶有 u 參數,則顯示上一次進入核心的目前任務的寄存器組。
rm 指令修改寄存器的内容。它以寄存器名稱和 new-contents 作為參數,用 new-contents 修改寄存器。寄存器名稱與特定的體系結構有關。目前,不能修改控制寄存器。
ef 指令以一個位址作為參數,它顯示指定位址處的異常幀。
<a><b>顯示通用寄存器組:</b></a>
[0]kdb> rd
<a><b></b></a>
[0]kdb> rm %ebx 0x25
<a>斷點</a>
常用的斷點指令有 bp 、 bc 、 bd 、 be 和 bl 。
bp 指令以一個位址/符号作為參數,它在位址處應用斷點。當遇到該斷點時則停止執行并将控制權交予 KDB。該指令有幾個有用的變體。 bpa 指令對 SMP 系統中的所有處理器應用斷點。 bph 指令強制在支援硬體寄存器的系統上使用它。 bpha 指令類似于 bpa 指令,差别在于它強制使用硬體寄存器。
bd 指令禁用特殊斷點。它接收斷點号作為參數。該指令不是從斷點表中除去斷點,而隻是禁用它。斷點号從 0 開始,根據可用性順序配置設定給斷點。
be 指令啟用斷點。該指令的參數也是斷點号。
bl 指令列出目前的斷點集。它包含了啟用的和禁用的斷點。
bc 指令從斷點表中除去斷點。它以具體的斷點号或 * 作為參數,在後一種情況下它将除去所有斷點。
<a><b>示例</b></a>
對函數 sys_write() 設定斷點:
[0]kdb> bp sys_write
<a><b>列出斷點表中的所有斷點:</b></a>
[0]kdb> bl
<a><b>清除斷點号 1:</b></a>
[0]kdb> bc 1
<a>>堆棧跟蹤</a>
主要的堆棧跟蹤指令有 bt 、 btp 、 btc 和 bta 。
bt 指令設法提供有關目前線程的堆棧的資訊。它可以有選擇地将堆棧幀位址作為參數。如果沒有提供位址,那麼它采用目前寄存器來回溯堆棧。否則,它假定所提供的位址是有效的堆棧幀起始位址并設法進行回溯。如果核心編譯期間設定了CONFIG_FRAME_POINTER 選項,那麼就用幀指針寄存器來維護堆棧,進而就可以正确地執行堆棧回溯。如果沒有設定CONFIG_FRAME_POINTER ,那麼 bt 指令可能會産生錯誤的結果。
btp 指令将程序辨別作為參數,并對這個特定程序進行堆棧回溯。
btc 指令對每個活動 CPU 上正在運作的程序執行堆棧回溯。它從第一個活動 CPU 開始執行 bt ,然後切換到下一個活動 CPU,以此類推。
bta 指令對處于某種特定狀态的所有程序執行回溯。若不帶任何參數,它就對所有程序執行回溯。可以有選擇地将各種參數傳遞給該指令。将根據參數處理處于特定狀态的程序。選項以及相應的狀态如下:
D:不可中斷狀态
R:正運作
S:可中斷休眠
T:已跟蹤或已停止
Z:僵死
U:不可運作
<a><b>跟蹤目前活動線程的堆棧:</b></a>
[0]kdb> bt
<a><b>跟蹤辨別為 575 的程序的堆棧:</b></a>
[0]kdb> btp 575
<a>其它指令</a>
下面是在核心調試過程中非常有用的其它幾個 KDB 指令。
id 指令以一個位址/符号作為參數,它對從該位址開始的指令進行反彙編。環境變量 IDCOUNT 确定要顯示多少行輸出。
ss 指令單步執行指令然後将控制傳回給 KDB。該指令的一個變體是 ssb ,它執行從目前指令指針位址開始的指令(在螢幕上列印指令),直到它遇到将引起分支轉移的指令為止。分支轉移指令的典型示例有 call 、 return 和 jump 。
go 指令讓系統繼續正常執行。一直執行到遇到斷點為止(如果已應用了一個斷點的話)。
reboot 指令立刻重新開機系統。它并沒有徹底關閉系統,是以結果是不可預測的。
ll 指令以位址、偏移量和另一個 KDB 指令作為參數。它對連結清單中的每個元素反複執行作為參數的這個指令。所執行的指令以清單中目前元素的位址作為參數。
<a><b>反彙編從例程 schedule 開始的指令。所顯示的行數取決于環境變量 IDCOUNT : </b></a>
[0]kdb> id schedule
<a><b>執行指令直到它遇到分支轉移條件(在本例中為指令 jne )為止: </b></a>
[0]kdb> ssb
0xc0105355 default_idle+0x25: cli
0xc0105356 default_idle+0x26: mov 0x14(%edx),%eax
0xc0105359 default_idle+0x29: test %eax, %eax
0xc010535b default_idle+0x2b: jne 0xc0105361 default_idle+0x31
<a>技巧和訣竅</a>
調試一個問題涉及到:使用調試器(或任何其它工具)找到問題的根源以及使用源代碼來跟蹤導緻問題的根源。單單使用源代碼來确定問題是極其困難的,隻有老練的核心黑客才有可能做得到。相反,大多數的新手往往要過多地依靠調試器來修正錯誤。這種方法可能會産生不正确的問題解決方案。我們擔心的是這種方法隻會修正表面症狀而不能解決真正的問題。此類錯誤的典型示例是添加錯誤處理代碼以處理 NULL 指針或錯誤的引用,卻沒有查出無效引用的真正原因。
結合研究代碼和使用調試工具這兩種方法是識别和修正問題的最佳方案。
調試器的主要用途是找到錯誤的位置、确認症狀(在某些情況下還有起因)、确定變量的值,以及确定程式是如何出現這種情況的(即,建立調用堆棧)。有經驗的黑客會知道對于某種特定的問題應使用哪一個調試器,并且能迅速地根據調試擷取必要的資訊,然後繼續分析代碼以識别起因。
是以,這裡為您介紹了一些技巧,以便您能使用 KDB 快速地取得上述結果。當然,要記住,調試的速度和精确度來自經驗、實踐和良好的系統知識(硬體和核心内部機理等)。
<a>技巧 #1</a>
在 KDB 中,在提示處輸入位址将傳回與之最為比對的符号。這在堆棧分析以及确定全局資料的位址/值和函數位址方面極其有用。同樣,輸入符号名則傳回其虛拟位址。
<a><b>表明函數 sys_read 從位址 0xc013db4c 開始: </b></a>
[0]kdb> 0xc013db4c
0xc013db4c = 0xc013db4c (sys_read)
同樣,
<a><b>同樣,表明 sys_write 位于位址 0xc013dcc8: </b></a>
[0]kdb> sys_write
sys_write = 0xc013dcc8 (sys_write)
這些有助于在分析堆棧時找到全局資料和函數位址。
<a>技巧 #2</a>
在編譯帶 KDB 的核心時,隻要 CONFIG_FRAME_POINTER 選項出現就使用該選項。為此,需要在配置核心時選擇“Kernel hacking”部分下面的“Compile the kernel with frame pointers”選項。這確定了幀指針寄存器将被用作幀指針,進而産生正确的回溯。實際上,您可以手工轉儲幀指針寄存器的内容并跟蹤整個堆棧。例如,在 i386 機器上,%ebp 寄存器可以用來回溯整個堆棧。
例如,在函數 rmqueue() 上執行第一個指令後,堆棧看上去類似于下面這樣:
[0]kdb> md %ebp
0xc74c9f38 c74c9f60 c0136c40 000001f0 00000000
0xc74c9f48 08053328 c0425238 c04253a8 00000000
0xc74c9f58 000001f0 00000246 c74c9f6c c0136a25
0xc74c9f68 c74c8000 c74c9f74 c0136d6d c74c9fbc
0xc74c9f78 c014fe45 c74c8000 00000000 08053328
[0]kdb> 0xc0136c40
0xc0136c40 = 0xc0136c40 (__alloc_pages +0x44)
[0]kdb> 0xc0136a25
0xc0136a25 = 0xc0136a25 (_alloc_pages +0x19)
[0]kdb> 0xc0136d6d
0xc0136d6d = 0xc0136d6d (__get_free_pages +0xd)
我們可以看到 rmqueue() 被 __alloc_pages 調用,後者接下來又被 _alloc_pages 調用,以此類推。
每一幀的第一個雙字(double word)指向下一幀,這後面緊跟着調用函數的位址。是以,跟蹤堆棧就變成一件輕松的工作了。
<a>技巧 #3</a>
go 指令可以有選擇地以一個位址作為參數。如果您想在某個特定位址處繼續執行,則可以提供該位址作為參數。另一個辦法是使用 rm 指令修改指令指針寄存器,然後隻要輸入 go 。如果您想跳過似乎會引起問題的某個特定指令或一組指令,這就會很有用。但是,請注意,該指令使用不慎會造成嚴重的問題,系統可能會嚴重崩潰。
<a>技巧 #4</a>
您可以利用一個名為 defcmd 的有用指令來定義自己的指令集。例如,每當遇到斷點時,您可能希望能同時檢查某個特殊變量、檢查某些寄存器的内容并轉儲堆棧。通常,您必須要輸入一系列指令,以便能同時執行所有這些工作。 defcmd 允許您定義自己的指令,該指令可以包含一個或多個預定義的 KDB 指令。然後隻需要用一個指令就可以完成所有這三項工作。其文法如下:
[0]kdb> defcmd name "usage" "help"
[0]kdb> [defcmd] type the commands here
[0]kdb> [defcmd] endefcmd
例如,可以定義一個(簡單的)新指令 hari ,它顯示從位址 0xc000000 開始的一行記憶體、顯示寄存器的内容并轉儲堆棧:
[0]kdb> defcmd hari "" "no arguments needed"
[0]kdb> [defcmd] md 0xc000000 1
[0]kdb> [defcmd] rd
[0]kdb> [defcmd] md %ebp 1
該指令的輸出會是:
[0]kdb> hari
[hari]kdb> md 0xc000000 1
0xc000000 00000001 f000e816 f000e2c3 f000e816
[hari]kdb> rd
eax = 0x00000000 ebx = 0xc0105330 ecx = 0xc0466000 edx = 0xc0466000
....
...
[hari]kdb> md %ebp 1
0xc0467fbc c0467fd0 c01053d2 00000002 000a0200
[0]kdb>
<a>技巧 #5</a>
可以使用 bph 和 bpha 指令(假如體系結構支援使用硬體寄存器)來應用讀寫斷點。這意味着每當從某個特定位址讀取資料或将資料寫入該位址時,我們都可以對此進行控制。當調試資料/記憶體毀壞問題時這可能會極其友善,在這種情況中您可以用它來識别毀壞的代碼/程序。
<a><b>每當将四個位元組寫入位址 0xc0204060 時就進入核心調試器:</b></a>
[0]kdb> bph 0xc0204060 dataw 4
<a><b>在讀取從 0xc000000 開始的至少兩個位元組的資料時進入核心調試器:</b></a>
[0]kdb> bph 0xc000000 datar 2
<a>結束語</a>
對于執行核心調試,KDB 是一個友善的且功能強大的工具。它提供了各種選項,并且使我們能夠分析記憶體内容和資料結構。最妙的是,它不需要用另一台機器來執行調試。
<a>參考資料</a>
請在 Documentation/kdb 目錄中查找 KDB 手冊頁。
有關設定串行控制台的資訊,請查找 Documentation 目錄中的 serial-console.txt。
<a>關于作者</a>