?? linux_asm.txt
字號:
ald>; break 0x08048088
Breakpoint 1 set for 0x08048088
斷點設置好后,使用 run 命令開始執行程序。ALD 在遇到斷點時將自動暫停程序的運行,同時會顯示所有寄存器的當前值:
ald>; run
Starting program: hello
Breakpoint 1 encountered at 0x08048088
eax = 0x00000004 ebx = 0x00000001 ecx = 0x08049098 edx = 0x0000000F
esp = 0xBFFFF6C0 ebp = 0x00000000 esi = 0x00000000 edi = 0x00000000
ds = 0x0000002B es = 0x0000002B fs = 0x00000000 gs = 0x00000000
ss = 0x0000002B cs = 0x00000023 eip = 0x08048088 eflags = 0x00000246
Flags: PF ZF IF
08048088 CD80 int 0x80
如果需要對匯編代碼進行單步調試,可以使用 next 命令:
ald>; next
Hello, world!
eax = 0x0000000F ebx = 0x00000000 ecx = 0x08049098 edx = 0x0000000F
esp = 0xBFFFF6C0 ebp = 0x00000000 esi = 0x00000000 edi = 0x00000000
ds = 0x0000002B es = 0x0000002B fs = 0x00000000 gs = 0x00000000
ss = 0x0000002B cs = 0x00000023 eip = 0x0804808F eflags = 0x00000346
Flags: PF ZF TF IF
0804808F B801000000 mov eax, 0x1
若想獲得 ALD 支持的所有調試命令的詳細列表,可以使用 help 命令:
ald>; help
Commands may be abbreviated.
If a blank command is entered, the last command is repeated.
Type `help <command>;' for more specific information on <command>;.
General commands
attach clear continue detach disassemble
enter examine file help load
next quit register run set
step unload window write
Breakpoint related commands
break delete disable enable ignore
lbreak tbreak
五、系統調用
即便是最簡單的匯編程序,也難免要用到諸如輸入、輸出以及退出等操作,而要進行這些操作則需要調用操作系統所提供的服務,也就是系統調用。除非你的程序只完成加減乘除等數學運算,否則將很難避免使用系統調用,事實上除了系統調用不同之外,各種操作系統的匯編編程往往都是很類似的。
在 Linux 平臺下有兩種方式來使用系統調用:利用封裝后的 C 庫(libc)或者通過匯編直接調用。其中通過匯編語言來直接調用系統調用,是最高效地使用 Linux 內核服務的方法,因為最終生成的程序不需要與任何庫進行鏈接,而是直接和內核通信。
和 DOS 一樣,Linux 下的系統調用也是通過中斷(int 0x80)來實現的。在執行 int 80 指令時,寄存器 eax 中存放的是系統調用的功能號,而傳給系統調用的參數則必須按順序放到寄存器 ebx,ecx,edx,esi,edi 中,當系統調用完成之后,返回值可以在寄存器 eax 中獲得。
所有的系統調用功能號都可以在文件 /usr/include/bits/syscall.h 中找到,為了便于使用,它們是用 SYS_<name>; 這樣的宏來定義的,如 SYS_write、SYS_exit 等。例如,經常用到的 write 函數是如下定義的:
ssize_t write(int fd, const void *buf, size_t count);
該函數的功能最終是通過 SYS_write 這一系統調用來實現的。根據上面的約定,參數 fb、buf 和 count 分別存在寄存器 ebx、ecx 和 edx 中,而系統調用號 SYS_write 則放在寄存器 eax 中,當 int 0x80 指令執行完畢后,返回值可以從寄存器 eax 中獲得。
或許你已經發現,在進行系統調用時至多只有 5 個寄存器能夠用來保存參數,難道所有系統調用的參數個數都不超過 5 嗎?當然不是,例如 mmap 函數就有 6 個參數,這些參數最后都需要傳遞給系統調用 SYS_mmap:
void * mmap(void *start, size_t length, int prot , int flags, int fd, off_t offset);
當一個系統調用所需的參數個數大于 5 時,執行int 0x80 指令時仍需將系統調用功能號保存在寄存器 eax 中,所不同的只是全部參數應該依次放在一塊連續的內存區域里,同時在寄存器 ebx 中保存指向該內存區域的指針。系統調用完成之后,返回值仍將保存在寄存器 eax 中。
由于只是需要一塊連續的內存區域來保存系統調用的參數,因此完全可以像普通的函數調用一樣使用棧(stack)來傳遞系統調用所需的參數。但要注意一點,Linux 采用的是 C 語言的調用模式,這就意味著所有參數必須以相反的順序進棧,即最后一個參數先入棧,而第一個參數則最后入棧。如果采用棧來傳遞系統調用所需的參數,在執行int 0x80 指令時還應該將棧指針的當前值復制到寄存器 ebx中。
六、命令行參數
在 Linux 操作系統中,當一個可執行程序通過命令行啟動時,其所需的參數將被保存到棧中:首先是 argc,然后是指向各個命令行參數的指針數組 argv,最后是指向環境變量的指針數據 envp。在編寫匯編語言程序時,很多時候需要對這些參數進行處理,下面的代碼示范了如何在匯編代碼中進行命令行參數的處理:
例3. 處理命令行參數
# args.s
.text
.globl _start
_start:
popl %ecx # argc
vnext:
popl %ecx # argv
test %ecx, %ecx # 空指針表明結束
jz exit
movl %ecx, %ebx
xorl %edx, %edx
strlen:
movb (%ebx), %al
inc %edx
inc %ebx
test %al, %al
jnz strlen
movb $10, -1(%ebx)
movl $4, %eax # 系統調用號(sys_write)
movl $1, %ebx # 文件描述符(stdout)
int $0x80
jmp vnext
exit:
movl $1,%eax # 系統調用號(sys_exit)
xorl %ebx, %ebx # 退出代碼
int $0x80
ret
七、GCC 內聯匯編
用匯編編寫的程序雖然運行速度快,但開發速度非常慢,效率也很低。如果只是想對關鍵代碼段進行優化,或許更好的辦法是將匯編指令嵌入到 C 語言程序中,從而充分利用高級語言和匯編語言各自的特點。但一般來講,在 C 代碼中嵌入匯編語句要比"純粹"的匯編語言代碼復雜得多,因為需要解決如何分配寄存器,以及如何與C代碼中的變量相結合等問題。
GCC 提供了很好的內聯匯編支持,最基本的格式是:
__asm__("asm statements";
例如:
__asm__("nop";
如果需要同時執行多條匯編語句,則應該用"\\n\\t"將各個語句分隔開,例如:
__asm__( "pushl %%eax \\n\\t"
"movl $0, %%eax \\n\\t"
"popl %eax";
通常嵌入到 C 代碼中的匯編語句很難做到與其它部分沒有任何關系,因此更多時候需要用到完整的內聯匯編格式:
__asm__("asm statements" : outputs : inputs : registers-modified);
插入到 C 代碼中的匯編語句是以":"分隔的四個部分,其中第一部分就是匯編代碼本身,通常稱為指令部,其格式和在匯編語言中使用的格式基本相同。指令部分是必須的,而其它部分則可以根據實際情況而省略。
在將匯編語句嵌入到C代碼中時,操作數如何與C代碼中的變量相結合是個很大的問題。GCC采用如下方法來解決這個問題:程序員提供具體的指令,而對寄存器的使用則只需給出"樣板"和約束條件就可以了,具體如何將寄存器與變量結合起來完全由GCC和GAS來負責。
在GCC內聯匯編語句的指令部中,加上前綴'%'的數字(如%0,%1)表示的就是需要使用寄存器的"樣板"操作數。指令部中使用了幾個樣板操作數,就表明有幾個變量需要與寄存器相結合,這樣GCC和GAS在編譯和匯編時會根據后面給定的約束條件進行恰當的處理。由于樣板操作數也使用'%'作為前綴,因此在涉及到具體的寄存器時,寄存器名前面應該加上兩個'%',以免產生混淆。
緊跟在指令部后面的是輸出部,是規定輸出變量如何與樣板操作數進行結合的條件,每個條件稱為一個"約束",必要時可以包含多個約束,相互之間用逗號分隔開就可以了。每個輸出約束都以'='號開始,然后緊跟一個對操作數類型進行說明的字后,最后是如何與變量相結合的約束。凡是與輸出部中說明的操作數相結合的寄存器或操作數本身,在執行完嵌入的匯編代碼后均不保留執行之前的內容,這是GCC在調度寄存器時所使用的依據。
輸出部后面是輸入部,輸入約束的格式和輸出約束相似,但不帶'='號。如果一個輸入約束要求使用寄存器,則GCC在預處理時就會為之分配一個寄存器,并插入必要的指令將操作數裝入該寄存器。與輸入部中說明的操作數結合的寄存器或操作數本身,在執行完嵌入的匯編代碼后也不保留執行之前的內容。
有時在進行某些操作時,除了要用到進行數據輸入和輸出的寄存器外,還要使用多個寄存器來保存中間計算結果,這樣就難免會破壞原有寄存器的內容。在GCC內聯匯編格式中的最后一個部分中,可以對將產生副作用的寄存器進行說明,以便GCC能夠采用相應的措施。
下面是一個內聯匯編的簡單例子:
例4.內聯匯編
/* inline.c */
int main()
{
int a = 10, b = 0;
__asm__ __volatile__("movl %1, %%eax;\\n\\r"
"movl %%eax, %0;"
:"=r"(b) /* 輸出 */
:"r"(a) /* 輸入 */
:"%eax"; /* 不受影響的寄存器 */
printf("Result: %d, %d\\n", a, b);
}
上面的程序完成將變量a的值賦予變量b,有幾點需要說明:
變量b是輸出操作數,通過%0來引用,而變量a是輸入操作數,通過%1來引用。
輸入操作數和輸出操作數都使用r進行約束,表示將變量a和變量b存儲在寄存器中。輸入約束和輸出約束的不同點在于輸出約束多一個約束修飾符'='。
在內聯匯編語句中使用寄存器eax時,寄存器名前應該加兩個'%',即%%eax。內聯匯編中使用%0、%1等來標識變量,任何只帶一個'%'的標識符都看成是操作數,而不是寄存器。
內聯匯編語句的最后一個部分告訴GCC它將改變寄存器eax中的值,GCC在處理時不應使用該寄存器來存儲任何其它的值。
由于變量b被指定成輸出操作數,當內聯匯編語句執行完畢后,它所保存的值將被更新。
在內聯匯編中用到的操作數從輸出部的第一個約束開始編號,序號從0開始,每個約束記數一次,指令部要引用這些操作數時,只需在序號前加上'%'作為前綴就可以了。需要注意的是,內聯匯編語句的指令部在引用一個操作數時總是將其作為32位的長字使用,但實際情況可能需要的是字或字節,因此應該在約束中指明正確的限定符:
限定符 意義
"m"、"v"、"o" 內存單元
"r" 任何寄存器
"q" 寄存器eax、ebx、ecx、edx之一
"i"、"h" 直接操作數
"E"和"F" 浮點數
"g" 任意
"a"、"b"、"c"、"d" 分別表示寄存器eax、ebx、ecx和edx
"S"和"D" 寄存器esi、edi
"I" 常數(0至31)
八、小結
Linux操作系統是用C語言編寫的,匯編只在必要的時候才被人們想到,但它卻是減少代碼尺寸和優化代碼性能的一種非常重要的手段,特別是在與硬件直接交互的時候,匯編可以說是最佳的選擇。Linux提供了非常優秀的工具來支持匯編程序的開發,使用GCC的內聯匯編能夠充分地發揮C語言和匯編語言各自的優點。
九、參考資料
在網站http://linuxassembly.org上可以找到大量的Linux匯編資源。
軟件包binutils提供了as和ld等實用工具,其相關信息可以在網站http://sources.redhat.com/binutils/上找到。
NASM是Intel格式的匯編器,其相關信息可以在網站http://nasm.sourceforge.net上找到。
ALD是一個短小精悍的匯編調試器,其相關信息可以在網站http://dunx1.irt.drexel.edu/~psa22/ald.html上找到。
intel2gas是一個能夠將Intel匯編格式轉換成AT&T匯編格式的小工具,其相關信息可以在網站http://www.niksula.cs.hut.fi/~mtiihone/intel2gas/上找到。
IBM developerWorks上有一篇介紹GCC內聯匯編的文章(http://www-900.ibm.com/developerworks/cn/linux/sdk/assemble/inline/index_eng.shtml)。
本文代碼下載:代碼。
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -