转载

LINUX系统编程 LINUX 虚拟内存

LINUX 虚拟内存
以32位操作系统为例子,因为64位系统虚拟地址过大为2^64,32位仅仅为2^32=4G更利于描述,但是原理东西都一样

这首先要从程序和进程之间的关系开始,我们一般写好一段C/C++代码编译后仅仅为可执行文件假设为a.out,我们
运行a.out的时候,这个才叫进程,进程是OS级别抽象的实体(PCB task_struct结构体),为程序运行进行各种检查和
系统资源分配,一个PCB包含部分信息如下:
(摘至刑文鹏LINUX系统编程讲义)
* 进程id。系统中每个进程有唯一的id,在C语言中用pid_t类型表示,其实就是一个非
负整数。
* 进程的状态,有运行、挂起、停止、僵尸等状态。
* 进程切换时需要保存和恢复的一些CPU寄存器。
* 描述虚拟地址空间的信息。
* 描述控制终端的信息。
* 当前工作目录(Current Working Directory)。
* umask掩码。
* 文件描述符表,包含很多指向file结构体的指针。
* 和信号相关的信息。
* 用户id和组id。
* 控制终端、Session和进程组。
* 进程可以使用的资源上限(Resource Limit)

每个进程分配的内存包含很多称之为段的部分组成并且放到0-3G用户态虚拟地址空间中,3-4G为kernel太虚拟地址(注意我们以32位为列),
PCB就存放在我们的kernel态中。
下面描述0-3G用户态虚拟内存段
由下向上分别是
1、代码段,是程序运行的机器代码,一个程序代码可以多个程序
   同时运行,那么这个代码段可以同时存在于不同进程的不同
   虚拟内存地址中,等会用图说明
2、初始化数据段,这个就是C/C++已经初始化的全局变量和静态变量
   我们知道静态变量是存在于程序结束,而全局变量(非静态)的作用
   域也是全部代码块,那么这些变量需要放到一个非栈空间中
   (关于静态变量可以查看如下链接
  http://blog.itpub.net/7728585/viewspace-2119670/
   )
3、未初始化数据段,为初始化的全局变量和静态变量,未初始化本
   段的内容初始化为0
4、堆(heap)段,是在运行的时候动态进程分配的内存区域,比如malloc
下面以一段简单代码说明,目的仅仅在于说明上面说的:
(未分配虚拟内存地址)
5、栈(stack)段,我们知道栈是一个后进先出的数据结构,用于存储局部
   变量,实参和返回值。它由栈帧组成(stack frames),每次新的函数调用
   都会分配一个新的栈帧比如下面的getv rev都在main函数栈帧里面。
    而没有使用到局部变量t 则在add函数栈帧里面

6、argc,environ 数组信息,固定大小


点击(此处)折叠或打开

  1. #include<stdio.h>
  2. #include<stdlib.h>
  3. #include<string.h>

  4. typedef unsigned int uint;

  5. static uint step=1024;//全局初始化静态变量,初始化数据段
  6. uint iniv=1; //全局初始化非静态变量,可以使用extern访问,初始化数据段

  7. static uint zero;//全局未初始化静态变量,未初始化数据段


  8. uint add(uint inv) //值传递 栈 for add funcation stack frame
  9. {
  10.      int t; // 栈 for add funcation stack frames
  11.      return inv*step+zero; //for add funcation stack frames
  12. }


  13. int main(void)
  14. {
  15.         uint getv = 10; //for main funcation stack frame
  16.         uint rev; //for main funcation stack frames

  17.         char* p; //for main funcation stack frames

  18.         rev = add(getv);
  19.         p = calloc(6,1); //
  20.         strcpy(p,"test:");
  21.         printf("%s%u/n",p,rev);
  22.         return 0;
  23. }
本来很多图像自己画,但是发现比较麻烦,并且效果可能并不如原图好,所以直接
摘录.
关于进程各段组织如下(摘自UNIX/LINUX系统编程手册)
LINUX系统编程 LINUX 虚拟内存

关于进程用户态和内核态的关系如下(摘自刑文鹏LINUX系统编程讲义)

LINUX系统编程 LINUX 虚拟内存


为了方便管理LINUX将内存分为叫做页帧的单元(我们熟悉的4K),然后内核中就需要保存一份进程虚拟地址到实际地址的映射表,如果访问的数据不再物理内存
中就发生page fault,将磁盘中的数据复制到物理内存,建立虚拟地址到物理内存的映射关系,一个进程访问数据是通过虚拟地址进行访问,然后通过映射表对应
到实际的物理内存。
由于64位系统需要管理的内存页非常巨大在LINUX中使用三级或者四级(内核2.6.11以上使用四级)映射表,关于映射表实际实现这里没有过多讨论,因为这个属于
LINUX内核原理的东西,我也没有能力研究。
(实际是虚拟地址--》线性地址--》物理地址,但是LINUX中虚拟地址和线性地址是相同的。)


映射表直观图(摘自UNIX/LINUX系统编程手册)
LINUX系统编程 LINUX 虚拟内存
四级映射表(摘自pdf内存寻址)
LINUX系统编程 LINUX 虚拟内存

最后我们需要牢牢的记住的就是每个进程都有0-4G的虚拟地址空间可供分配,当然没有分配就是未使用的,进程访问的是内存虚拟地址,虚拟地址空间的数据可能并不
在实际内存中,当进程访问到虚拟地址的数据并不在内存中,那么发生page fault,将磁盘中的数据复制到物理内存,建立虚拟地址到物理内存的映射关系,如果在实际内存不足的情况下启用swap做为物理内存的补充,将部分曾经使用过的数据而当前没有使用的数据拷贝到SWAP中。而数据的过期处理一般为用户程序自己控制比如LRU链表。
(这也是为什么某些数据库比如ORACLE MYSQL,在一台64G的内存的机器上同时跑2个实例都分配64G左右内存能够起来,但是过一段时间可能报内存不足的原因)


某些观点为作者自己观点如果有误请指出
参考资料:
1、UNIX/LINUX系统编程手册
2、LINUX操作系统原理与应用
3、刑文鹏LINUX系统编程讲义
4、pdf内存寻址
正文到此结束
Loading...