Linux进程概念

开源Linux

共 8798字,需浏览 18分钟

 · 2022-07-26

冯诺依曼体系结构

生活中大部分的计算机,服务器都遵守冯诺依曼体系。

  • 目前所认识的计算机,都是有一个个的硬件组件组成
  • 输入单元:包括键盘, 鼠标,扫描仪, 写板等
  • 中央处理器(CPU):含有运算器和控制器等
  • 输出单元:显示器,打印机等
  • 冯诺依曼体系结构:
    1. 这里的存储器指的是内存
    2. 不考虑缓存情况,这里的CPU能且只能对内存进行读写,不能访问外设(输入或输出设备)
    3. 外设(输入或输出设备)要输入或者输出数据,也只能写入内存或者从内存中读取。
    4. 所有设备都只能直接和内存打交道。

注:

  • 输入设备:键盘、网卡、磁盘、话筒……
  • CPU:运算器和控制器
  • 输出设备:显示器、网卡、磁盘、音响……
  • 输出设备和输入设备统称为外设
  • 存储器:CPU和所有外设的缓存
  • 冯诺依曼规定了硬件层面上的数据流向
  • 可执行程序运行时必须先加载到内存(冯诺依曼规定)
  • 在数据层面:CPU并不和外设打交道,外设只和内存打交道
  • QQ中传递文件:输入:磁盘、输出:网卡 、输入:网卡、输出:磁盘
  • QQ中聊天:输入:键盘、输出:网卡 、输入:网卡、输出:显示器

操作系统(Operator System)

任何计算机系统都包含一个基本的程序集合,称为操作系统(OS)。

操作系统包括:

  • 内核(进程管理,内存管理,文件管理,驱动管理)
  • 其他程序(例如函数库,shell程序等等)

操作系统是进行软硬件资源管理的软件

操作系统:

  • 可以减少用户使用计算机的成本
  • 对下管理好所有的软硬件,对上给用户提供一个稳定高效的运行环境(软件:进程管理、文件管理、驱动管理…… 硬件:磁盘、网卡、显卡、内存……)
  • 在整个计算机软硬件架构中,操作系统的定位是:一款纯正的“搞管理”的软件

注:

  • 硬件部分遵守冯诺依曼体系
  • OS不信任任何用户,任何对系统硬件或者软件访问,都必须通过OS的手
  • 计算机体系是一个层状结构,任何访问硬件或者软件的行为,都必须通过OS接口,贯穿OS进行访问
  • 库函数:语言或者第三方库(第一方:系统的、第二方:自己的,其余是第三方的)给我们提供的接口
  • 系统调用:OS提供的接口
    总结:
  • 计算机管理硬件:
    1. 描述起来,用struct结构体
    2. 组织起来,用链表或其他高效的数据结构
  • 操作系统是进行软硬件资源管理的软件(其中管理的本质是先描述在组织(是对数据的管理)
  • 管理分为三种:管理者、执行者、被管理者(eg管理者为OS、执行者为驱动程序、被管理者为底层硬件)

补:

  • 系统调用:

    1. 系统调用把应用程序的请求传输给系统内核执行
    2. 系统调用函数的执行过程应该是由用户态变为内核态(又称系统态)
    3. 利用系统调用能够得到操作系统提供的多种服务
    4. 是操作系统提供给编程人员的接口
    5. 系统调用给用户屏蔽了设备访问的细节
    6. 系统调用保护了一些只能在内核模式执行的操作指令
  • read是系统调用不是库函数

进程

描述进程-PCB

基本概念
课本概念:程序的一个执行实例,正在执行的程序等
内核观点:担当分配系统资源(CPU时间,内存)的实体。

描述进程-PCB

  • 进程信息被放在一个叫做进程控制块的数据结构中,可以理解为进程属性的集合。称之为PCB(process control block),Linux操作系统下的PCB是: task_struct 。task_struct是PCB的一种
  • 在Linux中描述进程的结构体叫做task_struct。
  • task_struct是Linux内核的一种数据结构,它会被装载到RAM(内存)里并且包含着进程的信息

task_ struct内容分类

  • 标示符: 描述本进程的唯一标示符,用来区别其他进程。
  • 状态: 任务状态,退出代码,退出信号等。
  • 优先级: 相对于其他进程的优先级。
  • 程序计数器: 程序中即将被执行的下一条指令的地址。
  • 内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
  • 上下文数据: 进程执行时处理器的寄存器中的数据
  • I/O状态信息: 包括显示的I/O请求,分配给进程的I/O设备和被进程使用的文件列表。
  • 记账信息: 可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。
  • 其他信息

注:

  • 在编程语言中:顺序语句、判断语句、循环语句
  • CPU中有一种寄存器叫pc指针(也称EIP),它是用来记录正在执行指令的下一条指令的地址
  • CPU核心工作流程:
    1. 取指令
    2. 分析指令
    3. 执行指令
  • CPU中运行的代码都是进程的代码
  • 当一个进程在运行中,因为某些原因,需要被暂时停止执行,让出CPU,需要进程保存(保存的目的是为了恢复)自己的所有的临时数据(最重要的是进程的上下文数据
  • 在每个CPU中都有一个运行队列,其中运行队列中的进程都是处在运行状态的(CPU是选择性的调度)

总结:

  • OS可以一次跑起多个程序,并且OS要管理起来这些运行起来的程序,OS要对进程进行管理
  • 进程控制块(PCB):struct task_struct 结构体
  • OS对进程的管理转化成为了对进程信息的管理,先描述再组织,对进程的管理转化为对双链表的增删查改
  • 进程=你的程序+内核申请的数据结构(PCB)
  • 优先级的本质是在资源(CPU、网卡、显卡、磁盘……)有限的前提下,确立谁先访问资源,谁后访问的问题

补:

  • 进程放在CPU上之后,不是一直在运行直到进程运行结束,每个进程都有一个运行时间单位——时间片
  • 一般进程让出CPU:一种是来了一个优先级更高的进程(OS必须支持抢占);另一种是时间片到了
  • 单CPU,单核:跑起来多个进程,通过进程快速切换的方式,在一段时间内,让所有的进程代码都得到推进——并发
  • 多CPU,多核:任何时刻,允许多个进程同时执行——并行
  • 进程在CPU上运行时,会有很多寄存器上的临时数据——上下文数据
  • 系统感知进程的唯一实体是PBC(进程控制块)

查看进程

通过系统调用创建进程-fork

语法:

1. 创建子进程

理解fork:

  • 从程序员角度:
    1. 父子共享用户代码是只读的不可修改并且不可写入),而用户数据各自私有一份(目的是不让进程间相互干扰)(数据用的是写时拷贝)
    2. 在操作系统中,所有进程具有独立性的
    3. 进程具有独立性是操作系统所表现出来的,OS通过父子进程的用户数据各自私有一份,从而不让进程互相干扰来实现的
  • 从内核角度:
    1. 进程=我的程序+内核数据结构(PCB task_struct)
    2. 创建子进程,通常以父进程为模板其中子进程默认使用的是父进程的代码和数据(写时拷贝)

2. fork有两个返回值

注:

  • fork有两个返回值的原因是在创建子进程成功之后,子进程和父进程共享代码
  • fork:子进程的返回值是0,父进程返回值是子进程的pid,因为子进程只有一个父进程,而父进程有多个子进程,需要对每个子进程进行标识(pid),并且记住他们
  • fork中父进程的返回值是不会记录到用户数据当中的,这些只是给用户看的,便于记录子进程(pid)

总结:

  • 运行 man fork 认识fork
  • fork有两个返回值
  • 父子进程代码共享,数据各自开辟空间,私有一份(采用写时拷贝)
  • fork 之后通常要用 if 进行分流

进程状态

Linux下的内核源代码

  • R运行状态(running): 并不意味着进程一定在运行中,它表明进程要么是在运行中要么在运行队列里。

  • S睡眠状态(sleeping): 意味着进程在等待事件完成(这里的睡眠有时候也叫做可中断睡眠

  • D磁盘休眠状态(Disk sleep)有时候也叫不可中断睡眠状态(uninterruptible sleep),在这个状态的进程通常会等待IO的结束。

  • T停止状态(stopped):可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可以通过发送 SIGCONT 信号让进程继续运行。

  • X死亡状态(dead):这个状态只是一个返回状态,你不会在任务列表里看到这个状态。

  • Z(zombie)-僵尸进程:

  1. 僵死状态(Zombies)是一个比较特殊的状态。当进程退出并且父进程(使用wait()系统调用)没有读取到子进程退出的返回代码时就会产生僵死(尸)进程
  2. 僵死进程会以终止状态保持在进程表中,并且会一直在等待父进程读取退出状态代码。
  3. 只要子进程退出,父进程还在运行,但父进程没有读取子进程状态,子进程进入Z状态

R状态

S状态

T状态

Z状态

注:

  • 只要进程正常结束,就是正常死亡(X状态不太好演示)
  • D状态在云服务器上不容易实现
  • 进程是R状态,不一定是在CPU上运行,进程在运行队列中,就是R状态(进程已准备好,等待调度)
  • S状态为浅度休眠(对外部事件可以做出反应),大部分情况下都是这种状态
  • D状态为深度休眠(不可以被杀掉,即便是操作系统,只能等待D状态进程自动醒来,或者是关机重启(可能被卡死))
  • S状态和D状态称为等待状态
  • 进程退出,一般不是立刻让OS回收信息,释放进程的所有资源
  • 进程创建的目的是为了将自己退出时的相关信息,写入进程的PCB中,供OS或者父进程来进行读取,读取成功后,该进程才算真正死亡
  • 进程退出时,当OS或者父进程来未读取到子进程的信息时,这是处于Z状态

状态与状态+的区别

eg

补:
kill命令
kill 命令用于删除执行中的程序或工作
语法:kill [-s <信息名称或编号>][程序] 或 kill [-l <信息编号>]

查看进程状态

第一种:

第二种:

ps aux / ps axj 命令

补:D状态和Z状态用kill命令是杀不掉的

僵尸进程危害

  • 进程的退出状态必须被维持下去,因为OS关心进程是否完成了任务。可父进程如果一直不读取,那子进程就一直处于Z状态
  • 维护退出状态本身就是要用数据维护,也属于进程基本信息,所以保存在task_struct(PCB)中,换句话说,Z状态一直不退出,PCB一直都要维护
  • 一个父进程创建了很多子进程,就是不回收,会造成内存资源的浪费。因为数据结构对象本身就要占用内存。(在C中定义一个结构体变量(对象),是要在内存的某个位置进行开辟空间!)这样就会存在内存泄漏。

孤儿进程

父进程先退出,子进程就称之为“孤儿进程”

注:

  • 孤儿进程被1号systemd进程领养,当然要有systemd进程回收
  • 在centos7.6中1号进程是systemd,而在centos6.5中的1号进程是initd

进程优先级

进程的优先级:

  • cpu资源分配的先后顺序,就是指进程的优先权(priority)。
  • 优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用,可以改善系统性能。
  • 还可以把进程运行到指定的CPU上,这样一来,把不重要的进程安排到某个CPU,可以大大改善系统整体性能

注:

  • 优先级是在一定能得到某种资源,只是先后的问题
  • 权限是决定你能还是不能得到某种资源
  • 优先级是得到某种资源(CPU)的先后顺序,其本质是因为资源有限(CPU)

查看系统进程

  • UID : 代表执行者的身份
  • PID : 代表这个进程的代号
  • PPID :代表这个进程是由哪个进程发展衍生而来的,亦即父进程的代号
  • PRI :代表这个进程可被执行的优先级,其值越小越早被执行
  • NI :代表这个进程的nice值
  • TTY:运行该程序时的终端设备
  • CMD:命令

注:

  • Linux的优先级由pri和nice值共同确定(优先级的数值越小,优先级越高;优先级的数值越大,优先级越低)
  • nice值就是优先级的修正数据,范围是[-20,19]
  • 优先级不可能一味的高,也不可能一味的低(操作系统的调度器要适度地考虑平衡问题,避免“饥饿问题”)

PRI and NI

  • PRI是进程的优先级,或者通俗点说就是程序被CPU执行的先后顺序,此值越小
    进程的优先级别越高
  • NI就是nice值了,其表示进程可被执行的优先级的修正数值
  • PRI值越小越快被执行,PRI(new)=PRI(old)+nice
  • 当nice值为负值的时候,那么该程序将会优先级值将变小,即其优先级会变高,则其越快被执行
  • 调整进程优先级,在Linux下,就是调整进程nice值
  • nice其取值范围是-20至19,一共40个级别。
  • 进程的nice值不是进程的优先级,但是进程nice值会影响到进程的优先级变化。
  • nice值是进程优先级的修正修正数据

注:

  • nice的值的范围[-20,19],是一种可控范围,原则上OS内的调度器,要公平(不是平均)且较高效的调度
  • PRI(new)=PRI(old)+nice中的PRI(old)默认是80,因为有一个基准值,便于调整;在设计上实现起来比较方便
  • 在Linux系统中,标识一个用户,并不是通过用户名标识的(是给用户看的),而是通过用户的uid(计算机比较善于处理数据)

查看进程优先级的命令

用top命令更改已存在进程的nice:

  • top
  • 进入top后按“r”–>输入进程PID–>输入nice值

注:

  • 用top命令更改已存在进程的nice,如果输入的值大于19,NI的值就是19;如果输入的值小于-20,NI的值就是-20。
  • 无论怎么输入NI的值,最终PRI的值为[60,99]

补充概念

  • 竞争性: 系统进程数目众多,而CPU资源只有少量,甚至1个,所以进程之间是具有竞争属性的。为了高效完成任务,更合理竞争相关资源,便具有了优先级
  • 独立性: 多进程运行,需要独享各种资源,多进程运行期间互不干扰
  • 并行: 多个进程在多个CPU下分别,同时进行运行,这称之为并行
  • 并发: 多个进程在一个CPU下采用进程切换的方式,在一段时间之内,让多个进程都得以推进,称之为并发

注:

  • 进程与资源之间,进程永远是多数的
  • 竞争性和独立性是进程运行的特殊属性(或原则);并行和并发是计算机的调度特性

环境变量与命令行参数

Linux下的环境变量与命令行参数

进程地址空间(灵魂四问)

进程地址空间的分布


注:

  • 进程地址空间不是内存地址空间
  • 进程地址空间,会在进程的整个生命周期内一直存在,直到进程退出

什么是进程地址空间

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>
int g_val = 0;
int main()
{
 pid_t id = fork();
  if(id < 0)
  {
  perror("fork");
   return 0;
  }
  else if(id == 0)
  { 
   //child,子进程肯定先跑完,也就是子进程先修改,完成之后,父进程再读取
   g_val=100;
   printf("child[%d]: %d : %p\n", getpid(), g_val, &g_val);
  }
  else
  { 
   //parent
   sleep(3);
  printf("parent[%d]: %d : %p\n", getpid(), g_val, &g_val);
  }
  sleep(1);
  return 0;
}

运行结果:

child[3046]: 100 : 0x80497e8
parent[3045]: 0 : 0x80497e8

父子进程中的g_val的地址竟然是一样的

注:

  • 任何的编程语言里面的地址,绝对不是物理地址,而是虚拟地址(C++/C语言中的&得到的是虚拟地址不是物理地址)
  • 虚拟地址是操作系统提供的,数据和代码一定在物理内存上(冯诺依曼规定),因此需要将虚拟内存转化成物理内存(由OS自动完成)
  • 父子进程代码共享,而数据是各自私有一份的(写时拷贝)
  • 当所有程序运行起来之后,该程序立即变成进程

总结:

  • 地址空间本质是进程看待内存的方式,是抽象出来的一个概念,内核struct mm_struct,这样的每一个进程,都认为自己独占系统内存资源
  • 区域划分本质:将线性地址空间划分成为一个一个的area,[start,end]
  • 虚拟地址本质:在[start,end] 之间的各个地址叫做虚拟地址

为什么要存在地址空间

第一种情况:

  • 如果进程直接访问物理内存,那么所看到的地址就是物理地址,如果进行指针越界访问,那么进程间的独立性就无法保证。

  • 因为物理内存一暴露,其中就有可能有恶意程序直接通过物理地址进行内存数据篡改,并且可以读取里面的内容

第二种情况:

  • 当一个程序变为进程时,需要将可执行程序加载到内存中;当进程退出时,也需要内存知道,因此内存管理需要知道进程是运行还是终断、退出
  • 因此内存管理模块和进程模块是强耦合的
  • 内存管理只需知道哪些内存区域(page)是无效的,哪些区域是有有效的,只需将内存管理和进程管理进行解耦

第三种情况:

  • 磁盘在存储二进制可执行程序时,是进行一个个区域划分的(代码区、全局数据区、只读数据区)这些区域是以4KB为单位划分的(页帧),而物理内存是没有按照磁盘划分顺序划分的(按照页(一页是4KB)为单位划分的)
  • 如果进程想要执行代码,OS需要在物理内存中毫无章法的乱找(除非OS开辟一块连续的物理内存(不现实)),这时,虚拟地址空间是几乎是按照磁盘区域划分的,它可以经过页表的映射来找到代码的位置并顺利执行代码

注:

  • 两个不同的进程虚拟地址可以完全一样

  • 页表:

    1. 页表是完成虚拟地址到物理地址的映射
    2. 将虚拟地址到物理地址的转化
    3. 同时也可以帮系统进行合法性检测
  • 内存管理模块和进程管理模块是强耦合的

  • 操作系统:进程管理、文件管理、内存管理、驱动管理

  • 可执行程序,其本身就已经划分成为一个个的区域(.code、.data、.bss、.readonly……),这样划分便于程序链接,而代码在用编译器编译时是将数据和代码放在一起

  • 页框:页框数=物理内存大小/每一个分配内存的大小(4KB),页框以4KB位单位

  • 页帧:在磁盘一个个程序被划分成4KB大小的数据

  • 页号:页表项的序号

  • 执行顺序语句的过程:当前语句的起始地址+当前代码的长度(虚拟地址存放代码是存放在连续区域的)

  • 虚拟地址空间不存在存放地址的功能,因此需要用户必须保存起来(避免内存泄露)

  • 进程与程序的区别:

    1. 程序是静态的,进程是动态的,程序是存储在某种介质上的二进制代码,进程对应了程序的执行过程,系统不需要为一个不执行的程序创建进程,一旦进程被创建,就处于不断变化的动态过程中,对应了一个不断变化的上下文环境。
    2. 程序是永久的,进程是暂时存在的。程序的永久性是相对于进程而言的,只要不去删除它,它可以永久的存储在介质当中。

总结:

  1. 保护物理内存,不受到任何进程内的地址直接访问,方便进行合法性校验
  2. 将内存管理和进程管理进行解耦
  3. 让每个进程,以同样的方式来看待代码和数据

地址空间与物理内存之间的关系

虚拟地址和物理地址之间是通过页表完成的映射关系

回答上面代码(为什么地址一样?)的问题

  • 变量内容不一样,所以父子进程输出的变量绝对不是同一个变量
  • 但地址值是一样的,说明,该地址绝对不是物理地址
  • 在Linux地址下,这种地址叫做 虚拟地址
  • 我们在用C/C++语言所看到的地址,全部都是虚拟地址!物理地址,用户一概看不到,由OS统一管理,OS必须负责将 虚拟地址 转化成 物理地址
  • 同一个变量,地址相同,其实是虚拟地址相同(原因是fork出一个子进程,其中子进程会继承大部分父进程的信息(代码指向同一块空间,数据也指向同一块空间),因此g_val的地址也被继承了,但是当子进程试图修改g_val值时,这是需要用到写时拷贝将父进程的数据拷贝一份给子进程(开辟新的空间)并修改了子进程中的g_val的值),因此内容不同其实是被映射到了不同的物理地址!

补:

  • TCB:线程控制块

  • MMU:内存管理单元,一种负责处理中央处理器(CPU)的内存访问请求,功能包括虚拟地址到物理地址的转换(即 虚拟内存管理)、内存保护、中央处理器高速缓存的控制

  • CACHE:高速缓存

  • DMA:直接内存存取

作者:The August

https://blog.csdn.net/AI_ELF/article/details/122365391

10T 技术资源大放送!包括但不限于:Linux、虚拟化、容器、云计算、网络、Python、Go 等。在开源Linux公众号内回复「10T」,即可免费获取!

shell编程100例(附PDF下载)
IPv6技术白皮书(附PDF下载)
Linux主流发行版本配置IP总结(Ubuntu、CentOS、Redhat、Suse)
批量安装Windows系统
无人值守批量安装服务器
运维必备的《网络端口大全》,看这一份就够了。
收藏:服务器和存储知识入门
什么叫SSH?原理详解,看这一篇就够了!
Nginx面试40问(收藏吃灰)
20 个 Linux 服务器性能调优技巧
超详细!一文带你了解LVS四层负载均衡企业级实践!
收藏 | Linux系统日志位置及包含的日志内容介绍
100 道 Linux 常见面试题,建议收藏,慢慢读~
服务器12种基本故障+排查方法
IT运维管理常用工具大全,让你成为真正的高手
什么是QoS?

Linux学习指南

有收获,点个在看 

浏览 15
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报