LINUX 虚拟内存
以32位操作系统为例子,因为64位系统虚拟地址过大为2^64,32位仅仅为2^32=4G更利于描述,但是原理东西都一样
这首先要从程序和进程之间的关系开始,我们一般写好一段C/C++代码编译后仅仅为可执行文件假设为a.out,我们
运行a.out的时候,这个才叫进程,进程是OS级别抽象的实体(PCB task_struct结构体),为程序运行进行各种检查和
系统资源分配,一个PCB包含部分信息如下:
(摘至刑文鹏LINUX系统编程讲义)
* 进程id。系统中每个进程有唯一的id,在C语言中用pid_t类型表示,其实就是一个非
负整数。
* 进程的状态,有运行、挂起、停止、僵尸等状态。
* 进程切换时需要保存和恢复的一些CPU寄存器。
* 描述虚拟地址空间的信息。
* 描述控制终端的信息。
* 当前工作目录(Current Working Directory)。
* umask掩码。
* 文件描述符表,包含很多指向file结构体的指针。
* 和信号相关的信息。
* 用户id和组id。
* 控制终端、Session和进程组。
* 进程可以使用的资源上限(Resource Limit)
每个进程分配的内存包含很多称之为段的部分组成并且放到0-3G用户态虚拟地址空间中,3-4G为kernel太虚拟地址(注意我们以32位为列),
PCB就存放在我们的kernel态中。
下面描述0-3G用户态虚拟内存段
由下向上分别是
1、代码段,是程序运行的机器代码,一个程序代码可以多个程序
同时运行,那么这个代码段可以同时存在于不同进程的不同
虚拟内存地址中,等会用图说明
2、初始化数据段,这个就是C/C++已经初始化的全局变量和静态变量
我们知道静态变量是存在于程序结束,而全局变量(非静态)的作用
域也是全部代码块,那么这些变量需要放到一个非栈空间中
(关于静态变量可以查看如下链接
http://blog.itpub.net/7728585/viewspace-2119670/
)
3、未初始化数据段,为初始化的全局变量和静态变量,未初始化本
段的内容初始化为0
4
、堆(heap)段,是在运行的时候动态进程分配的内存区域,比如malloc
下面以一段简单代码说明,目的仅仅在于说明上面说的:
(未分配虚拟内存地址)
5、栈(stack)段,我们知道栈是一个后进先出的数据结构,用于存储局部
变量,实参和返回值。它由栈帧组成(stack frames),
每次新的函数调用
都会分配一个新的栈帧比如下面的getv rev都在main函数栈帧里面。
而没有使用到局部变量t 则在add函数栈帧里面
6、argc,environ 数组信息,固定大小
-
#include<stdio.h>
-
#include<stdlib.h>
-
#include<string.h>
-
-
typedef unsigned int uint;
-
-
static uint step=1024;//全局初始化静态变量,初始化数据段
-
uint iniv=1; //全局初始化非静态变量,可以使用extern访问,初始化数据段
-
-
static uint zero;//全局未初始化静态变量,未初始化数据段
-
-
-
uint add(uint inv) //值传递 栈 for add funcation stack frame
-
{
-
int t; // 栈 for add funcation stack frames
-
return inv*step+zero; //栈 for add funcation stack frames
-
}
-
-
-
int main(void)
-
{
-
uint getv = 10; //栈 for main funcation stack frame
-
uint rev; //栈 for main funcation stack frames
-
-
char* p; //栈 for main funcation stack frames
-
-
rev = add(getv);
-
p = calloc(6,1); //堆
-
strcpy(p,"test:");
-
printf("%s%u/n",p,rev);
-
return 0;
-
}
本来很多图像自己画,但是发现比较麻烦,并且效果可能并不如原图好,所以直接
摘录.
关于进程各段组织如下(摘自UNIX/LINUX系统编程手册)
关于进程用户态和内核态的关系如下(摘自刑文鹏LINUX系统编程讲义)
为了方便管理LINUX将内存分为叫做页帧的单元(我们熟悉的4K),然后内核中就需要保存一份进程虚拟地址到实际地址的映射表,如果访问的数据不再物理内存
中就发生page fault,将磁盘中的数据复制到物理内存,建立虚拟地址到物理内存的映射关系,一个进程访问数据是通过虚拟地址进行访问,然后通过映射表对应
到实际的物理内存。
由于64位系统需要管理的内存页非常巨大在LINUX中使用三级或者四级(内核2.6.11以上使用四级)映射表,关于映射表实际实现这里没有过多讨论,因为这个属于
LINUX内核原理的东西,我也没有能力研究。
(实际是虚拟地址--》线性地址--》物理地址,但是LINUX中虚拟地址和线性地址是相同的。)
映射表直观图(摘自UNIX/LINUX系统编程手册)
四级映射表(摘自pdf内存寻址)
最后我们需要牢牢的记住的就是每个进程都有0-4G的虚拟地址空间可供分配,当然没有分配就是未使用的,进程访问的是内存虚拟地址,虚拟地址空间的数据可能并不
在实际内存中,当进程访问到虚拟地址的数据并不在内存中,那么发生page fault,将磁盘中的数据复制到物理内存,建立虚拟地址到物理内存的映射关系,如果在实际内存不足的情况下启用swap做为物理内存的补充,将部分曾经使用过的数据而当前没有使用的数据拷贝到SWAP中。而数据的过期处理一般为用户程序自己控制比如LRU链表。
(这也是为什么某些数据库比如ORACLE MYSQL,在一台64G的内存的机器上同时跑2个实例都分配64G左右内存能够起来,但是过一段时间可能报内存不足的原因)
某些观点为作者自己观点如果有误请指出
参考资料:
1、UNIX/LINUX系统编程手册
2、LINUX操作系统原理与应用
3、刑文鹏LINUX系统编程讲义
4、pdf内存寻址