?? unix系統開發-編譯過程概述.txt
字號:
UNIX系統開發-編譯過程概述
編譯過程概述
了解一些編譯知識的讀者都知道,所謂編譯,就是在編譯程序讀取源程序(字符流),對之進行詞法和語法的分析,將高級語言指令轉換為功能等效的匯編代碼,再由匯編程序轉換為機器語言,并且按照操作系統對可執行文件格式的要求鏈接生成可執行程序。
UNIX環境下的C編譯系統所遵循的也是這么一個一般的過程。值得注意的是這個過程并不是有某個單個程序完成的,而是有多個分別完成某一方面工作的程序組合完成的。這一設計思想同我們最初提到的UNIX系統軟件功能專一的特點是相符的。
歸納起來,可以將UNIX環境下C編譯系統的工作過程下圖所示。
C源程序頭文件-->預編譯處理(cpp)-->編譯程序本身-->優化程序-->匯編程序-->鏈接程序-->可執行文件
一般我們用cc命令來完成對源程序的編譯工作。此cc命令并不是一個二進制的可執行程序,而是一個shell命令文件。它的工作就是依次調用我們上面所列出的各個完成某部分工作的具體程序,將指定的c源程序轉換成可執行的代碼。
1.編譯預處理
在此階段,預編譯程序讀取c源程序,對其中的偽指令(以#開頭的指令)和特殊符號進行處理。C語言中的偽指令主要包括以下四個方面
(1)宏定義指令,如# define Name TokenString,#undef等。對于前一個偽指令,預編譯所要作得的是將程序中的所有Name用TokenString替換,但作為字符串常量的Name則不被替換。對于后者,則將取消對某個宏的定義,使以后該串的出現不再被替換。
(2)條件編譯指令,如#ifdef,#ifndef,#else,#elif,#endif,等等。這些偽指令的引入使得程序員可以通過定義不同的宏來決定編譯程序對哪些代碼進行處理。預編譯程序將根據有關的文件,將那些不必要的代碼過濾掉
(3)頭文件包含指令,如#include "FileName"或者#include <FileName>等。在頭文件中一般用偽指令#define定義了大量的宏(最常見的是字符常量),同時包含有各種外部符號的聲明。采用頭文件的目的主要是為了使某些定義可以供多個不同的C源程序使用。因為在需要用到這些定義的C源程序中,只需加上一條#include語句即可,而不必再在此文件中將這些定義重復一遍。預編譯程序將把頭文件中的定義統統都加入到它所產生的輸出文件中,以供編譯程序對之進行處理。
包含到c源程序中的頭文件可以是系統提供的,這些頭文件一般被放在/usr/include目錄下。在程序中#include它們要使用尖括號(<>)。另外開發人員也可以定義自己的頭文件,這些文件一般與c源程序放在同一目錄下,此時在#include中要用雙引號("")。關于預編譯程序如何搜索頭文件,后面我們將要介紹。
(4)特殊符號,預編譯程序可以識別一些特殊的符號。例如在源程序中出現的LINE標識將被解釋為當前行號(十進制數),FILE則被解釋為當前被編譯的C源程序的名稱。預編譯程序對于在源程序中出現的這些串將用合適的值進行替換。
從上述過程我們可以看到,預編譯程序所完成的基本上是對源程序的"替代"工作。經過此種替代,生成一個沒有宏定義、沒有條件編譯指令、沒有特殊符號的輸出文件。這個文件的含義同沒有經過預處理的源文件是相同的,但內容有所不同。下一步,此輸出文件將作為編譯程序的輸出而被翻譯成為機器指令。
2.編譯階段
經過預編譯得到的輸出文件中,將只有常量。如數字、字符串、變量的定義,以及C語言的關鍵字,如main,if,else,for,while,{,},+,-,*,\,等等。預編譯程序所要作得工作就是通過詞法分析和語法分析,在確認所有的指令都符合語法規則之后,將其翻譯成等價的中間代碼表示或匯編代碼。
這種等價的中間代碼表示或匯編代碼由于是編譯程序按照一種比較固定的、相對而言比較機械的方法轉換得到的。自然我們不能指望它具有比較高的效率。但一般情況下,我們在這方面的要求也不是很高,這樣得到的代碼也就基本上可以了。但特殊情況下還要對此種程序進行優化,以期產生效率比較高的代碼。
3.優化階段
優化處理是編譯系統中一項比較艱深的技術。它涉及到的問題不僅同編譯技術本身有關,而且同機器的硬件環境也有很大的關系。優化一部分是對中間代碼的優化。這種優化不依賴于具體的計算機。另一種優化則主要針對目標代碼的生成而進行的。上圖中,我們將優化階段放在編譯程序的后面,這是一種比較籠統的表示。
對于前一種優化,主要的工作是刪除公共表達式、循環優化(代碼外提、強度削弱、變換循環控制條件、已知量的合并等)、復寫傳播,以及無用賦值的刪除,等等。
后一種類型的優化同機器的硬件結構密切相關,最主要的是考慮是如何充分利用機器的各個硬件寄存器存放的有關變量的值,以減少對于內存的訪問次數。另外,如何根據機器硬件執行指令的特點(如流水線、RISC、CISC、VLIW等)而對指令進行一些調整使目標代碼比較短,執行的效率比較高,也是一個重要的研究課題。
經過優化得到的匯編代碼必須經過匯編程序的匯編轉換成相應的機器指令,方可能被機器執行。
4.匯編過程
匯編過程實際上指把匯編語言代碼翻譯成目標機器指令的過程。對于被翻譯系統處理的每一個C語言源程序,都將最終經過這一處理而得到相應的目標文件。目標文件中所存放的也就是與源程序等效的目標的機器語言代碼。
目標文件由段組成。通常一個目標文件中至少有兩個段:
代碼段
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -