在 《漫畫解說內存映射》一文中介紹過 虛擬內存 與 物理內存 映射的原理與過程,虛擬內存與物理內存進行映射的過程被稱為 內存映射。內存映射是硬件(內存管理單元)級別的功能,必須按照硬件的規范設置好內存映射的關系,進程才能正常運行。
但內存映射并不能區分內存的用途,比如我們想知道虛擬內存區間 0 ~ 2MB 是用作存儲數據還是存儲指令,這就很難從內存映射中獲取到相關信息。所以,Linux 根據功能上的差異,來對虛擬內存空間進行管理。
今天,我們來介紹一下 Linux 對虛擬內存空間管理的細節。
段
之前我們說過,在 32 位的操作系統中,每個進程都擁有 4GB 的虛擬內存空間。Linux 根據功能上的差異,把整個虛擬內存空間劃分為多個不同區間,稱為 段。
我們先來看看 Linux 進程虛擬內存空間的布局圖,如圖 1 所示:

上圖展示了 Linux 進程的虛擬內存空間布局情況,我們只關注 用戶空間 的布局。
從上圖可以看出,進程的用戶空間大小為 3GB。Linux 按照功能上的差異,把一個進程的用戶空間劃分為多個段,下面介紹一下各個段的作用:
代碼段:用于存放程序中可執行代碼的段。數據段:用于存放已經初始化的全局變量或靜態變量的段。如在 C 語言中,使用語句int global = 10;定義的全局變量。未初始化數據段:用于存放未初始化的全局變量或靜態變量的段。如在 C 語言中,使用語句int global;定義的全局變量。堆:用于存放使用malloc函數申請的內存。mmap區:用于存放使用mmap函數映射的內存區。棧:用于存放函數局部變量和函數參數。
虛擬內存區
從上面的介紹可知,Linux 按照功能上的差異,把虛擬內存空間劃分為多個 段。那么在內核中,是通過什么結構來管理這些段的呢?
答案就是:vm_area_struct。
內核通過 vm_area_struct 結構(虛擬內存區)來管理各個 段,其定義如下:
1struct vm_area_struct {
2 struct mm_struct *vm_mm; /* The address space we belong to. */
3 unsigned long vm_start; /* Our start address within vm_mm. */
4 unsigned long vm_end; /* The first byte after our end address within vm_mm. */
5
6 /* linked list of VM areas per task, sorted by address */
7 struct vm_area_struct *vm_next;
8
9 pgprot_t vm_page_prot; /* Access permissions of this VMA. */
10 unsigned long vm_flags; /* Flags, see mm.h. */
11 struct rb_node vm_rb;
12 ...
13 /* Function pointers to deal with this struct. */
14 const struct vm_operations_struct *vm_ops;
15 ...
16};
下面介紹一下各個字段的作用:
vm_mm:指向進程的內存管理對象,每個進程都有一個類型為mm_struct的內存管理對象,用于管理進程的虛擬內存空間和內存映射等。vm_start:虛擬內存區的起始虛擬內存地址。vm_end:虛擬內存區的結束虛擬內存地址。vm_next:Linux 會通過鏈表把進程的所有虛擬內存區連接起來,這個字段用于指向下一個虛擬內存區。vm_page_prot:主要用于保存當前虛擬內存區所映射的物理內存頁的讀寫權限。vm_flags:標識當前虛擬內存區的功能特性。vm_rb:某些場景中需要通過虛擬內存地址查找對應的虛擬內存區,為了加速查找過程,內核以虛擬內存地址作為key,把進程所有的虛擬內存區保存到一棵紅黑樹中,而這個字段就是紅黑樹的節點結構。vm_ops:每個虛擬內存區都可以自定義一套操作接口,通過操作接口,能夠讓虛擬內存區實現一些特定的功能,比如:把虛擬內存區映射到文件。而vm_ops字段就是虛擬內存區的操作接口集,一般在創建虛擬內存區時指定。
我們通過圖 2 來展示內核是怎么通過 vm_area_struct 結構來管理進程中的所有 段:

從上圖可以看出,內核通過一個鏈表和一棵紅黑樹來管理進程中所有的 段。mm_struct 結構的 mmap 字段就是鏈表的頭節點,而 mm_rb 字段就是紅黑樹的根節點。
加載程序鏡像
前面我們介紹了 Linux 會把虛擬內存地址劃分為多個 段,并且使用 vm_area_struct 結構來管理這些段。那么,這些虛擬內存區是怎么建立起來的呢?
在介紹進程虛擬內存區建立的過程前,我們先來簡單介紹一下 ELF文件格式。
1. ELF文件
ELF 全稱 Executable and Linkable Format,即可執行可鏈接文件格式。在 Linux 系統中,就是使用這種文件格式來存儲一個可執行的應用程序。讓我們來看一下 ELF 文件格式由哪些結構組成:
一般一個 ELF 文件由以下三部分組成:
ELF 頭(ELF header):描述應用程序的類型、CPU架構、入口地址、程序頭表偏移和節頭表偏移等等;
程序頭表(Program header table):列舉了所有有效的段(segments)和他們的屬性,程序頭表需要加載器將文件中的段加載到虛擬內存段中;
節頭表(Section header table):包含對節(sections)的描述。
ELF 文件的結構大概如圖3所示:

當內核加載一個應用程序時,就是通過讀取 ELF 文件的信息,然后把文件中所有的段加載到虛擬內存的段中。ELF 文件通過 程序頭表 來描述應用程序中所有的段,表中的每一個項都描述一個段的信息。我們先來看看 程序頭表 項的結構定義:
1typedef struct elf64_phdr {
2 Elf64_Word p_type; // 段的類型
3 Elf64_Word p_flags; // 可讀寫標志
4 Elf64_Off p_offset; // 段在ELF文件中的偏移量
5 Elf64_Addr p_vaddr; // 段的虛擬內存地址
6 Elf64_Addr p_paddr; // 段的物理內存地址
7 Elf64_Xword p_filesz; // 段占用文件的大小
8 Elf64_Xword p_memsz; // 段占用內存的大小
9 Elf64_Xword p_align; // 內存對齊
10} Elf64_Phdr;
所以,程序加載器可以通過 ELF 頭中獲取到程序頭表的偏移量,然后通過程序頭表的偏移量讀取到程序頭表的數據,再通過程序頭表來獲取到所有段的信息。
我們可以通過 readelf -S file 命令來查看 ELF 文件的段(節)信息,如下圖所示:

上面列出了 代碼段、數據段、未初始化數據段 和 注釋段 的信息。
2. 加載過程
要加載一個程序,需要調用 execve 系統調用來完成。我們來看看 execve 系統調用的調用棧:
1sys_execve
2└→ do_execve
3 └→ do_execveat_common
4 └→ __do_execve_file
5 └→ exec_binprm
6 └→ search_binary_handler
7 └→ load_elf_binary
從上面的調用者可以看出,execve 系統調用最終會調用 load_elf_binary 函數來加載程序的 ELF 文件。
由于 load_elf_binary 函數的實現比較復雜,所以我們分段來解說:
(1)讀取并檢查ELF頭
1static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs)
2{
3 ...
4 struct {
5 struct elfhdr elf_ex;
6 struct elfhdr interp_elf_ex;
7 } *loc;
8
9 loc = kmalloc(sizeof(*loc), GFP_KERNEL);
10 if (!loc) {
11 retval = -ENOMEM;
12 goto out_ret;
13 }
14
15 // 1. 獲取ELF頭
16 loc->elf_ex = *((struct elfhdr *)bprm->buf);
17
18 retval = -ENOEXEC;
19 // 2. 檢查ELF簽名是否正確
20 if (memcmp(loc->elf_ex.e_ident, ELFMAG, SELFMAG) != 0)
21 goto out;
22
23 // 3. 是否是可執行文件或者動態庫
24 if (loc->elf_ex.e_type != ET_EXEC && loc->elf_ex.e_type != ET_DYN)
25 goto out;
26
27 // 4. 檢查系統架構是否正確
28 if (!elf_check_arch(&loc->elf_ex))
29 goto out;
30 ...
上面這段代碼主要是讀取應用程序的 ELF 頭,然后檢查 ELF 頭信息是否合法。
(2)讀取程序頭表
1 size = loc->elf_ex.e_phnum * sizeof(struct elf_phdr); // 程序頭表的大小
2 retval = -ENOMEM;
3
4 elf_phdata = kmalloc(size, GFP_KERNEL); // 申請一塊內存來保存程序頭表
5 if (!elf_phdata)
6 goto out;
7
8// 從ELF文件中讀取程序頭表的數據, 并且保存到 elf_phdata 變量中
9 retval = kernel_read(bprm->file, loc->elf_ex.e_phoff, (char *)elf_phdata, size);
10 if (retval != size) {
11 if (retval >= 0)
12 retval = -EIO;
13 goto out_free_ph;
14 }
15 ...
上面的代碼主要完成以下幾個工作:
從 ELF 頭的信息中獲取到程序頭表的大小。
調用
kmalloc函數申請一塊內存來保存程序頭表。調用
kernel_read函數從 ELF 文件中讀取程序頭表的數據,保存到elf_phdata變量中,程序頭表的偏移量可以通過 ELF 頭的e_phoff字段獲取。
(3)加載段到虛擬內存
1 // 遍歷程序頭表所有的段
2 for (i = 0, elf_ppnt = elf_phdata; i < loc->elf_ex.e_phnum; i++, elf_ppnt++) {
3 int elf_prot = 0, elf_flags;
4 unsigned long k, vaddr;
5
6 if (elf_ppnt->p_type != PT_LOAD) // 判斷段是否需要加載
7 continue;
8 ...
9 // 段的可讀寫權限
10 if (elf_ppnt->p_flags & PF_R)
11 elf_prot |= PROT_READ;
12 if (elf_ppnt->p_flags & PF_W)
13 elf_prot |= PROT_WRITE;
14 if (elf_ppnt->p_flags & PF_X)
15 elf_prot |= PROT_EXEC;
16
17 elf_flags = MAP_PRIVATE | MAP_DENYWRITE | MAP_EXECUTABLE;
18
19 vaddr = elf_ppnt->p_vaddr; // 獲取段的虛擬內存地址
20 ...
21 // 把段加載到虛擬內存
22 error = elf_map(bprm->file, load_bias + vaddr, elf_ppnt, elf_prot, elf_flags, 0);
23 ...
24 }
上面這段代碼主要完成的工作是:
遍歷程序頭表所有的段。
判斷段是否需要加載。
獲取段的可讀寫權限和段的虛擬內存地址。
調用
elf_map函數把段加載到虛擬內存。
所以,把段加載到虛擬內存主要通過 elf_map 函數完成。我們來看看 elf_map 函數的調用棧:
1elf_map
2└→ do_mmap
3 └→ do_mmap_pgoff
4 └→ mmap_region
從上面的調用者可以看出,elf_map 函數最終會調用 mmap_region 來完成加載段到虛擬內存。我們分析一下 mmap_region 函數的實現:
1unsigned long
2mmap_region(struct file *file, unsigned long addr, unsigned long len,
3 unsigned long flags, unsigned int vm_flags, unsigned long pgoff)
4{
5 struct mm_struct *mm = current->mm;
6 struct vm_area_struct *vma, *prev;
7 ...
8 // 申請一個 vm_area_struct 結構
9 vma = kmem_cache_zalloc(vm_area_cachep, GFP_KERNEL);
10 if (!vma) {
11 error = -ENOMEM;
12 goto unacct_error;
13 }
14
15 // 設置 vm_area_struct 結構各個字段的值
16 vma->vm_mm = mm;
17 vma->vm_start = addr; // 段的開始虛擬內存地址
18 vma->vm_end = addr + len; // 段的結束虛擬內存地址
19 vma->vm_flags = vm_flags; // 段的功能特性
20 vma->vm_page_prot = vm_get_page_prot(vm_flags);
21 vma->vm_pgoff = pgoff;
22
23 ...
24 // 把 vm_area_struct 結構連接到虛擬內存區鏈表和紅黑樹中
25 vma_link(mm, vma, prev, rb_link, rb_parent);
26 ...
27
28 return addr;
29}
上面代碼對 mmap_region 函數進行了精簡,精簡后的工作主要有:
調用
kmem_cache_zalloc函數申請一個vm_area_struct(虛擬內存區)結構。設置
vm_area_struct結構各個字段的值。調用
vma_link函數把vm_area_struct結構連接到虛擬內存區鏈表和紅黑樹中。
通過上面的過程,內核就把應用程序的所有段加載到虛擬內存中。
總結
本文主要介紹了 Linux 內核是怎么加載應用程序,并且在虛擬內存中建立各個段的布局。本文主要關注的是虛擬內存布局的建立過程,但加載應用程序的很多細節都忽略了(如怎么設置進程入口),有興趣可以自行查閱相關的資料和書籍。