Linux进程地址空间

简介: Linux进程地址空间

引入—从语言层面过渡到系统层面

在学习C/C++时,我们知道地址空间的大概布局图如下:

通过以下代码我们可以根据对应变量的地址空间来感受对应区域:

#include<stdio.h>
#include<stdlib.h>
int un_gval;
int init_gval=100;
struct s
{
    int a;
    int b;
    int c;
};
int main(int argc, char* argv[], char* env[])
{
  printf("code addr: %p\n", main);
  char* str = "hello linux";
  printf("read only char addr: %p\n", str);
  printf("init global value addr: %p\n", &init_gval);
  printf("uninit global value addr: %p\n", &un_gval);
  char* heap1 = (char*)malloc(100);
  char* heap2 = (char*)malloc(100);
  char* heap3 = (char*)malloc(100);
  char* heap4 = (char*)malloc(100);
  static int a = 0;
  printf("heap1 addr : %p\n", heap1);
  printf("heap2 addr : %p\n", heap2);
  printf("heap3 addr : %p\n", heap3);
  printf("heap4 addr : %p\n", heap4);
  printf("stack addr : %p\n", &str);
  printf("stack addr : %p\n", &heap1);
  printf("stack addr : %p\n", &heap2);
  printf("stack addr : %p\n", &heap3);
  printf("stack addr : %p\n", &heap4);
  printf("a addr : %p\n", &a);
  int i = 0;
  for (; argv[i]; i++)
  {
    printf("argv[%d]: %p\n", i, argv[i]);
  }
  for (i = 0; env[i]; i++)
  {
    printf("env[%d]: %p\n", i, env[i]);
  }
  return 0;
}

       在感受到语言层面的地址空间后,请再看下面这段代码:

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int g_val = 0;
int main()
{
pid_t id = fork();
if(id < 0){
perror("fork");
return 0;
}
else if(id == 0){ //child,子进程肯定先跑完,也就是子进程先修改,完成之后,父进程再读取
g_val=100;
printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
}else{ //parent
sleep(3);
printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
}
sleep(1);
return 0;
}
child[23349]: 100 : 0x601058
parent[23348]: 0 : 0x601058

我们发现,父子进程,输出地址是一致的,但是变量内容不一样!能得出如下结论:

变量内容不一样,所以父子进程输出的变量绝对不是同一个变量

但地址值是一样的,说明,该地址绝对不是物理地址!

在Linux地址下,这种地址叫做 虚拟地址我们在用C/C++语言所看到的地址,全部都是虚拟地址!

物理地址,用户一概看不到,由OS统一管理OS必须负责将 虚拟地址 转化成 物理地址 。


  对此我们称之前在语言层面所看到地址空间为进程地址空间,不是实际的物理空间。实际的空间如下:为进程地址空间(也就是进程地址空间+页表(页表是一个映射表,它将虚拟地址转换为物理地址)+物理内存)。对于g_val值改变原因的理解,在g_val没有被子进程改变时,实际上父进程和子进程的虚拟地址映射的是同一块的物理地址。我们都知道父进程fork()后才会生成子进程,这个过程会让子进程拷贝一份父进程的PCB等等,对此对于页表也是会拷贝的,这个过程我们可以理解为C++中的浅拷贝。而在g_val被子进程改变后,这时子进程就不能与父进程指向同一块物理地址了,这个系统会给子进程开辟一块新的物理空间,而子进程的页表会更新这个新的物理地址。这个过程可以理解为C++中的深拷贝。如下:


什么是地址空间?

       无论如何,地址空间也要被OS管理起来,每一个进程都要有地址空间,系统中,一定要对地址空间做管理!在了解地址空间前我们先了解一个概念—区域划分。

区域划分

在地址空间中的结构体定义了这样的一些变量用于区域划分:

unsigned long hiwater_rss;  /* High-watermark of RSS usage */
unsigned long hiwater_vm; /* High-water virtual memory usage */
unsigned long total_vm, locked_vm, shared_vm, exec_vm;
unsigned long stack_vm, reserved_vm, def_flags, nr_ptes;
unsigned long start_code, end_code, start_data, end_data;
unsigned long start_brk, brk, start_stack;
unsigned long arg_start, arg_end, env_start, env_end;

由此可见,地址空间中的区域划分对于每一个区块是通过两个变量start、end来控制的,其中对应的地址可以被我们直接使用,而由于是用变量来管理的,对此我们很容易对空间进行区域的管理—比如堆栈相对而生。

       对于什么是地址空间:地址空间在Linux内核中其实就是一个结构体。是一个内核数据结构。在Linux内核中是一个叫struct mm_struct的结构体,他最后会被struct task_struct也就是PCB用指针所指向:


为什么要有地址空间?

       1、让进程以统一的视角看待内存,所以任意一个进程,可以通过地址空间+页表将乱序的内存数据变成有序,分门别类的规划好

       2、存在虚拟地址空间,可以有效的进行进程访问内存的安全检查!页表存在访问权限字段,可以根据字段防止非法读写。例如以下的代码:我们都知道字符常量区不能被修改,这是因为访问权限字段为只读。实际上,内存是可以随意读写的,有对应的限制是因为页表对应字段的控制,因此有相应的权限。

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int main()
{
    char *str = "hello Linux";
    *str = 'H'; 
    return 0;
}

3、因为有页表的存在,地址空间可以将进程管理和内存管理解耦。通过页表,让进程映射到不同的物理内存处,从而实现进程的独立性!


对地址空间学习的拓展

       1、每一个进程都有页表。

       2、OS中有个CR3寄存器用于保存页表的地址(物理地址),用于进程的切换(联系PCB和数据的切换,页表也会跟着切换)。

       3、页表中除了虚拟地址到物理地址的映射、访问权限字段外还有一个字段对应的物理地址是否分配和是否有内容。这就联系到了挂起的概念,如果系统中查页表发现该字段可以间接的判断该进程是否被挂起。

       4、实际上在地址空间中的结构体中还定义了几个结构体指针变量进一步的控制地址空间的子区域划分,如果当前的地址空间也就是上面通过分别通过两个变量控制的地址空间不满足我们的需求了,而这时堆栈见还存在大量的空间,我们需要一小段的区域单独进行特定的映射,我们可以进行申请vm_area_struct的结构体对象:

  struct vm_area_struct * mmap;   /* list of VMAs */
  struct rb_root mm_rb;
  struct vm_area_struct * mmap_cache; /* last find_vma result */

而进一步挖掘他的结构体指针我们会发现这不就是上面所提到的根据两个变量进行一个区域的划分吗?注意下面还有个结构体指针,这说明在地址空间中,这个区域划分是一个链表,每一块划分都会根据链表连接,表头在地址空间中(由上面的代码可知):

  struct mm_struct * vm_mm; /* The address space we belong to. */
  unsigned long vm_start;   /* Our start address within vm_mm. */
  unsigned long vm_end;   /* The first byte after our end address
             within vm_mm. */
  /* linked list of VM areas per task, sorted by address */
  struct vm_area_struct *vm_next;

   大致的结果如下,这才是完整的地址空间:


 感谢你耐心的看到这里ღ( ´・ᴗ・` )比心,如有哪里有错误请踢一脚作者o(╥﹏╥)o! 

相关文章
|
1天前
|
运维 监控 Linux
Linux操作系统的守护进程与服务管理深度剖析####
本文作为一篇技术性文章,旨在深入探讨Linux操作系统中守护进程与服务管理的机制、工具及实践策略。不同于传统的摘要概述,本文将以“守护进程的生命周期”为核心线索,串联起Linux服务管理的各个方面,从守护进程的定义与特性出发,逐步深入到Systemd的工作原理、服务单元文件编写、服务状态管理以及故障排查技巧,为读者呈现一幅Linux服务管理的全景图。 ####
|
26天前
|
缓存 监控 Linux
linux进程管理万字详解!!!
本文档介绍了Linux系统中进程管理、系统负载监控、内存监控和磁盘监控的基本概念和常用命令。主要内容包括: 1. **进程管理**: - **进程介绍**:程序与进程的关系、进程的生命周期、查看进程号和父进程号的方法。 - **进程监控命令**:`ps`、`pstree`、`pidof`、`top`、`htop`、`lsof`等命令的使用方法和案例。 - **进程管理命令**:控制信号、`kill`、`pkill`、`killall`、前台和后台运行、`screen`、`nohup`等命令的使用方法和案例。
99 4
linux进程管理万字详解!!!
|
17天前
|
存储 运维 监控
深入Linux基础:文件系统与进程管理详解
深入Linux基础:文件系统与进程管理详解
58 8
|
14天前
|
Linux
如何在 Linux 系统中查看进程占用的内存?
如何在 Linux 系统中查看进程占用的内存?
|
26天前
|
算法 Linux 定位技术
Linux内核中的进程调度算法解析####
【10月更文挑战第29天】 本文深入剖析了Linux操作系统的心脏——内核中至关重要的组成部分之一,即进程调度机制。不同于传统的摘要概述,我们将通过一段引人入胜的故事线来揭开进程调度算法的神秘面纱,展现其背后的精妙设计与复杂逻辑,让读者仿佛跟随一位虚拟的“进程侦探”,一步步探索Linux如何高效、公平地管理众多进程,确保系统资源的最优分配与利用。 ####
66 4
|
27天前
|
缓存 负载均衡 算法
Linux内核中的进程调度算法解析####
本文深入探讨了Linux操作系统核心组件之一——进程调度器,着重分析了其采用的CFS(完全公平调度器)算法。不同于传统摘要对研究背景、方法、结果和结论的概述,本文摘要将直接揭示CFS算法的核心优势及其在现代多核处理器环境下如何实现高效、公平的资源分配,同时简要提及该算法如何优化系统响应时间和吞吐量,为读者快速构建对Linux进程调度机制的认知框架。 ####
|
28天前
|
消息中间件 存储 Linux
|
2月前
|
运维 Linux
Linux查找占用的端口,并杀死进程的简单方法
通过上述步骤和命令,您能够迅速识别并根据实际情况管理Linux系统中占用特定端口的进程。为了获得更全面的服务器管理技巧和解决方案,提供了丰富的资源和专业服务,是您提升运维技能的理想选择。
49 1
|
2月前
|
算法 Linux 调度
深入理解Linux操作系统的进程管理
【10月更文挑战第9天】本文将深入浅出地介绍Linux系统中的进程管理机制,包括进程的概念、状态、调度以及如何在Linux环境下进行进程控制。我们将通过直观的语言和生动的比喻,让读者轻松掌握这一核心概念。文章不仅适合初学者构建基础,也能帮助有经验的用户加深对进程管理的理解。
27 1
|
2月前
|
消息中间件 Linux API
Linux c/c++之IPC进程间通信
这篇文章详细介绍了Linux下C/C++进程间通信(IPC)的三种主要技术:共享内存、消息队列和信号量,包括它们的编程模型、API函数原型、优势与缺点,并通过示例代码展示了它们的创建、使用和管理方法。
34 0
Linux c/c++之IPC进程间通信