天天看点

现代操作系统中程序为什么要分段

  现在PC平台的文件格式,主要是Windows下的PE和Linux的ELF,它们都是COFF格式的变种。COFF在目标文件里引入了段机制,不同的目标文件可以拥有不同数量及不同类型的段。

关于段式内存管理的分段:

Linux已经基本弃用了段式内存管理,段描述符表所有段基址都为0,大小为整个虚拟空间,直接把整个虚拟内存看成一整个段。也就是说,此处的内存分段只是用于糊弄CPU,与程序被映射到虚拟内存时划分的数据段、代码段等虚拟内存区域已经没有关系了。那么编译后的目标文件中分段的意义是什么。

主要有以下几个原因:

  • 数据和指令被划分到两个虚拟内存区域,方便进行访问权限控制,防止程序指令被有意无意的改写。
  • 对于现代CPU来说,有着极为强大的缓存体系,一般CPU的缓存被设计成数据缓存和指令缓存分离,所以分段有助于提高缓存命中率。
  • 当系统运行着多个该程序的副本时,只需要保存一份指令部分。可以通过共享指令节省大量内存。

可执行文件与进程的虚拟空间的映射关系:

现代操作系统中程序为什么要分段

  这种映射关系只是保存在操作系统内部的一个数据结构。Linux中将进程虚拟空间中的一个段叫做虚拟内存区域(VMA);在Windows中将这个叫做虚拟段(Virtual Section),其实他们都是同一个概念。

关于段寄存器:

8086CPU有4个16位的段寄存器:CS、DS、SS、ES,分别用于存放可执行代码的代码段、数据段、堆栈段和其他段的基地址。访问内存时,由段寄存器存储的地址*16加上一个相对地址得到一个20位内存地址。地址空间为2的20次方共1M。这种CPU工作模式被称为实模式。

后来,由于16位的段寄存器无法存放更大的段基址以及内存变大等原因。CPU引入了保护模式,段寄存器存放的不再是某个段的基地址,而是某个段的下标即控制信息。段基址存放在描述符表中,描述符表分成了全局描述符表GDT和局部描述符表LDT。

Intel设计的本意是,一些全局的段描述符,就放在“全局段描述符表(GDT)”中,一些局部的,例如每个进程自己的,就放在所谓的“局部段描述符表(LDT)”中。那究竟什么时候该用GDT,什么时候该用LDT呢?这是由段选择符中的T1字段表示的,=0,表示用GDT,=1表示用LDT。

Linux中,绝大部份进程并不例用LDT,除非使用Wine,仿真Windows程序的时候。

ELF中Section和Segment的区别:

  ELF可执行文件引入了一个概念Segment,一个Segment包含一个或多个属性类似的Section。很多时候Section也被翻译成段,并没有严格区分,但从链接的角度来看ELF文件是按照Section存储的;从装载的角度来看ELF文件可以按照Segment划分。系统按照代码段、数据段这种属性类似的Segment来映射可执行文件的。ELF可执行文件中有个数据结构叫程序头表(Program Header Table)用来保存Segment信息。

参考文献:

《程序员的自我修养》 俞甲子 石凡 潘爱民

继续阅读