转载

LINUX系统编程 LINUX 虚拟内存

LINUX 虚拟内存
以32位操作系统为例子，因为64位系统虚拟地址过大为2^64,32位仅仅为2^32=4G更利于描述，但是原理东西都一样

这首先要从程序和进程之间的关系开始，我们一般写好一段C/C++代码编译后仅仅为可执行文件假设为a.out，我们
运行a.out的时候，这个才叫进程，进程是OS级别抽象的实体(PCB task_struct结构体),为程序运行进行各种检查和
系统资源分配，一个PCB包含部分信息如下：
(摘至刑文鹏LINUX系统编程讲义)
* 进程id。系统中每个进程有唯一的id，在C语言中用pid_t类型表示，其实就是一个非
负整数。
* 进程的状态，有运行、挂起、停止、僵尸等状态。
* 进程切换时需要保存和恢复的一些CPU寄存器。
* 描述虚拟地址空间的信息。
* 描述控制终端的信息。
* 当前工作目录（Current Working Directory）。
* umask掩码。
* 文件描述符表，包含很多指向file结构体的指针。
* 和信号相关的信息。
* 用户id和组id。
* 控制终端、Session和进程组。
* 进程可以使用的资源上限（Resource Limit）

每个进程分配的内存包含很多称之为段的部分组成并且放到0-3G用户态虚拟地址空间中，3-4G为kernel太虚拟地址(注意我们以32位为列)，
PCB就存放在我们的kernel态中。
下面描述0-3G用户态虚拟内存段
由下向上分别是
1、代码段，是程序运行的机器代码，一个程序代码可以多个程序
同时运行，那么这个代码段可以同时存在于不同进程的不同
虚拟内存地址中，等会用图说明
2、初始化数据段，这个就是C/C++已经初始化的全局变量和静态变量
我们知道静态变量是存在于程序结束，而全局变量(非静态)的作用
域也是全部代码块，那么这些变量需要放到一个非栈空间中
(关于静态变量可以查看如下链接
http://blog.itpub.net/7728585/viewspace-2119670/
)
3、未初始化数据段，为初始化的全局变量和静态变量，未初始化本
段的内容初始化为0
4、堆(heap)段，是在运行的时候动态进程分配的内存区域，比如malloc
下面以一段简单代码说明，目的仅仅在于说明上面说的：
(未分配虚拟内存地址)
5、栈(stack)段，我们知道栈是一个后进先出的数据结构，用于存储局部
变量，实参和返回值。它由栈帧组成(stack frames),每次新的函数调用
都会分配一个新的栈帧比如下面的getv rev都在main函数栈帧里面。
而没有使用到局部变量t 则在add函数栈帧里面
6、argc,environ 数组信息，固定大小

点击(此处)折叠或打开

#include<stdio.h>
#include<stdlib.h>
#include<string.h>
typedef unsigned int uint;
static uint step=1024;//全局初始化静态变量,初始化数据段
uint iniv=1; //全局初始化非静态变量，可以使用extern访问，初始化数据段
static uint zero;//全局未初始化静态变量，未初始化数据段
uint add(uint inv) //值传递栈 for add funcation stack frame
{
int t; // 栈 for add funcation stack frames
return inv*step+zero; //栈 for add funcation stack frames
}
int main(void)
{
uint getv = 10; //栈 for main funcation stack frame
uint rev; //栈 for main funcation stack frames
char* p; //栈 for main funcation stack frames
rev = add(getv);
p = calloc(6,1); //堆
strcpy(p,"test:");
printf("%s%u/n",p,rev);
return 0;
}

本来很多图像自己画，但是发现比较麻烦，并且效果可能并不如原图好，所以直接
摘录.
关于进程各段组织如下(摘自UNIX/LINUX系统编程手册)
LINUX系统编程 LINUX 虚拟内存

关于进程用户态和内核态的关系如下(摘自刑文鹏LINUX系统编程讲义)

LINUX系统编程 LINUX 虚拟内存

为了方便管理LINUX将内存分为叫做页帧的单元(我们熟悉的4K)，然后内核中就需要保存一份进程虚拟地址到实际地址的映射表，如果访问的数据不再物理内存
中就发生page fault，将磁盘中的数据复制到物理内存，建立虚拟地址到物理内存的映射关系，一个进程访问数据是通过虚拟地址进行访问，然后通过映射表对应
到实际的物理内存。
由于64位系统需要管理的内存页非常巨大在LINUX中使用三级或者四级(内核2.6.11以上使用四级)映射表，关于映射表实际实现这里没有过多讨论，因为这个属于
LINUX内核原理的东西，我也没有能力研究。
(实际是虚拟地址--》线性地址--》物理地址，但是LINUX中虚拟地址和线性地址是相同的。)

映射表直观图(摘自UNIX/LINUX系统编程手册)
LINUX系统编程 LINUX 虚拟内存

四级映射表(摘自pdf内存寻址)
LINUX系统编程 LINUX 虚拟内存

最后我们需要牢牢的记住的就是每个进程都有0-4G的虚拟地址空间可供分配，当然没有分配就是未使用的，进程访问的是内存虚拟地址，虚拟地址空间的数据可能并不
在实际内存中，当进程访问到虚拟地址的数据并不在内存中，那么发生page fault，将磁盘中的数据复制到物理内存，建立虚拟地址到物理内存的映射关系，如果在实际内存不足的情况下启用swap做为物理内存的补充，将部分曾经使用过的数据而当前没有使用的数据拷贝到SWAP中。而数据的过期处理一般为用户程序自己控制比如LRU链表。
(这也是为什么某些数据库比如ORACLE MYSQL，在一台64G的内存的机器上同时跑2个实例都分配64G左右内存能够起来，但是过一段时间可能报内存不足的原因)

某些观点为作者自己观点如果有误请指出
参考资料：
1、UNIX/LINUX系统编程手册
2、LINUX操作系统原理与应用
3、刑文鹏LINUX系统编程讲义
4、pdf内存寻址

正文到此结束