【Linux】从硬件到软件了解进程-小浪学习网

一、冯诺依曼体系结构

我们常见的计算机结构，包括哈佛结构和冯诺依曼体系结构，我们日常使用的计算机就是基于冯诺依曼体系结构的。下图展示了这种体系的直观图。

【Linux】从硬件到软件了解进程在这里的存储器指的是内存，如果不考虑缓存的情况，CPU只能对内存进行读写，不能直接访问输入输出设备。输入输出设备要输入或输出数据，必须先写入内存或从内存中读取。也就是说，尽管CPU是中央处理器，但在冯诺依曼结构中，内存才是核心部件，所有数据必须先经过内存，然后再流向其他地方。

冯诺依曼体系结构是计算机普及的重大突破。我们知道计算机的存储速度如下图所示，寄存器是最快的存储设备，也是最昂贵的，而机械硬盘（HDD）是最慢的存储设备，也是最便宜的。如果没有冯诺依曼结构，我们的计算机要么便宜但速度慢，要么昂贵但速度快。冯诺依曼结构的原理是在CPU进行计算时，内存已经接收并存储了外部输入设备输入的数据。CPU计算完成后，将结果取出并发送到输出设备，然后将新的输入数据传递给CPU进行计算。这样，低速的输入输出设备、中速的内存和高速的CPU有机结合，形成了现代计算机的雏形。

【Linux】从硬件到软件了解进程二、操作系统任何计算机系统都包含一个基本的程序集合，这个集合被称为操作系统。我们前面提到过，操作系统由操作系统内核和命令行解释器（shell）组成。设计操作系统的目的是更好地与硬件交互、管理软件资源，并为应用程序提供一个良好的执行环境。

【Linux】从硬件到软件了解进程如上图所示，我们可以清楚地看到用户和系统软件之间的交互。我们不能直接调用操作系统，操作系统就像一只小蜗牛，它缩在壳里通过触角与你交流。除了触角，你无法触及蜗牛的身体。这里的触角就是系统调用接口。操作系统也有壳，除了通过系统调用接口，其他方式都无法间接使用操作系统。由于系统调用在使用上比较基础，对用户的要求较高，因此开发者对部分系统调用进行了适度封装，形成了库。有了这些库，程序员就可以更好地开发软件，然后这些软件再被普通用户使用。

对于硬件部分和系统软件部分的交互，我们前面提到过，操作系统负责管理。对于程序员来说，管理可以通过计算机语言中的数据结构来表示。大家不妨想想，我们在日常生活中遇到的管理问题，是不是都可以转化为数据结构的方式来解决？我是一个学生，我举一个关于学生管理的例子：一个学校有十个学院，每个学院有一位院长和一百位学生，假设我们的学校就这么简单，没有其他类似辅导员这样的职位。校长不直接管理学生，而是通过院长来管理。院长需要亲力亲为，亲自管理这些学生。学生的属性各不相同，但学生属性的类型是相同的，他们都有名字、性别、年龄、家庭住址。我们可以将学生这个群体定义为一个Struct结构体，然后不同的学生填写不同的数值，再按照学号前后以单链表的方式连接起来，这样就把每个学院的学生连接起来了。对学生的管理就是对链表的增删查改。校长想要管理某个学生时，可以通过院长执行。这里的校长就是操作系统，院长就是驱动程序，而学生就是硬件资源。一个事件可以拆分为决策和执行，操作系统负责决策，驱动程序负责执行。我们刚才的例子对于学生也就是硬件资源，就是一个先描述再组织的过程，先将个体描述出来，再将个体组织起来。

三、操作系统进程管理1、概念进程是正在执行的程序的实例，是操作系统进行资源分配和调度的基本单位。它包含了程序计数器、寄存器、内存空间、打开的文件描述符等运行上下文信息，这些信息共同构成了进程执行的环境。

进程是正在执行的程序的实例，程序本身只是存储在磁盘等介质上的一组指令和数据的集合，是静态的。只有当程序被加载到内存中，并由操作系统为其分配资源、创建相应的数据结构来管理其执行时，它才成为一个进程，即变成了一个动态的执行实体。

进程是操作系统进行资源分配的基本单位，操作系统需要为每个进程分配独立的资源，包括但不限于内存空间、CPU时间、文件描述符、网络端口等。每个进程都有自己独立的地址空间，进程在自己的地址空间内可以自由地访问和操作数据，而不会干扰其他进程的地址空间。

进程包含了程序执行时的运行上下文信息，运行上下文是指进程在执行过程中所涉及的各种状态和数据，主要包括程序计数器、寄存器状态、堆栈信息、内存管理信息等。程序计数器指示了进程下一条要执行的指令地址，寄存器用于临时存储数据和指令操作数等，堆栈用于保存函数调用的相关信息和局部变量等。这些运行上下文信息完整地描述了进程当前的执行状态。当进程被调度暂停或恢复执行时，操作系统需要保存和恢复这些上下文信息，以确保进程能够正确地继续执行。

进程是构成操作系统中并发执行环境的基本单元，操作系统通过管理和调度多个进程，实现了多个任务的并发执行，从而提高了系统资源的利用率和系统的整体性能。多个进程之间可以通过各种进程间通信机制进行数据交换和协作，共同完成复杂的系统任务。

下图是我们在windows中的进程。

【Linux】从硬件到软件了解进程进程粗略来讲就是内核PCB数据结构对象加上你自己的代码和数据。记住上面所说的先描述后组织，通过结构体描述进程的属性，然后通过链表组织多个进程。

2、PCB和task_struct进程的所有信息被存放在一个叫做进程控制块的数据结构中，它是进程属性的集合，被称为PCB。

linux操作系统下的PCB就是task_struct，它是一个结构体，被装载到RAM里。

以下是task_struct的内容分类，除了这些，还有一些其他信息。

内容意义

标示符

每个进程的标识符不同

状态

任务状态

优先级

相对于其他进程的优先级

程序计数器

程序中即将被执行的下一条指令的地址

内存指针

包括程序代码和进程相关数据的指针，还有和其他进程共享的内存块的指针

上下文数据

进程执行时处理器的寄存器中的数据

IO状态

显示的IO请求，分配给进程的IO设备和被进程使用的文件列表

记账信息

处理器时间总和或使用的时钟数总和或时间限制、记账号等

所有运行在系统里的进程都以task_struct（双向）链表的形式存在内核里。

3、查看进程写一个死循环的程序，方便我们查看进程。

【Linux】从硬件到软件了解进程 ps aux 会列出系统中所有用户的所有进程的详细信息，grep process 会在 ps aux 输出的所有行中查找包含 process 的行，并将这些行输出。grep 是要排除的模式，由于在执行 grep process 时，这个 grep 命令本身也会作为一个进程被 ps aux 列出，并且会匹配 process，为了避免将 grep process 这个进程本身显示出来，我们使用 grep -v grep 来过滤掉包含 grep 的行。

在程序执行过程中会生成一个进程，我们通过查看进程指令，其中第二列就是进程唯一标识PID，第一列是父进程唯一标识PPID，该进程没有父进程，所以第一列不显示。

【Linux】从硬件到软件了解进程进程重启对应的PID会发生变化，是由于内存重新给它分配的原因。

【Linux】从硬件到软件了解进程这里解答一下为什么我们在进行./process的时候会启动可执行文件process：在进程中有一个目录叫做cwd，意味着当前的工作目录，你可以把它想象为一个指针（其实它是一个软链接），指向这个文件所在的目录，所以一个进程在属性中就有一个是当前的工作目录。亦可以看到exe这里指向的是这里的我们正在执行的可执行程序process。

【Linux】从硬件到软件了解进程 4、通过系统调用fork创建进程（1）简述上面的进程是在执行可执行程序的时候程序自动构建的进程，这节我们要通过系统调用fork创建进程。

写一个fork创建进程的程序如下test.c，在我们现有的知识体系里，在fork函数自身不出现问题的情况下给到的id值是大于等于0的值，属于双分支结构，即id值要不然就等于0要不然就大于0，不会出现即等于0又大于0的情况，本身两种情况同时出现就是错误的。

【Linux】从硬件到软件了解进程看到结果，两个分支的程序都会执行，就是因为fork这里的原因，生成了子进程，改变了我们对该程序固有的看法，现在我们来研究fork是如何做到的。

（2）系统调用生成子进程的过程〇提出问题该过程我们可以简化为一个问题：为什么id在等于0的同时又大于0？ id值是从fork函数来的，那么进一步提出问题：fork为什么能产生两个返回值？ id为什么能承载两个返回值？

最终我们将目光移动到fork函数身上。

①fork函数fork系统调用用于从一个现有的进程创建一个新的进程，新创建的进程被称为子进程，而原来的进程被称为父进程。子进程是父进程的一个副本，它几乎继承了父进程的所有资源，包括代码段、数据段、堆、栈等，但拥有自己独立的进程控制块（PCB）和进程 ID（PID）。

在父进程中，fork返回子进程的 PID，因为父进程可能需要对多个子进程进行管理和控制，所以通过返回的 PID 来标识每个子进程。在子进程中，fork返回 0，这是因为子进程不需要知道父进程的 PID 来进行后续操作，它可以通过getppid函数来获取父进程的 PID。如果fork调用失败，将返回 – 1，并设置errno变量来表示错误原因。

②父子进程关系进程可以粗略表示为代码+数据。当父进程调用fork时，内核会为子进程分配新的 PCB，并复制父进程的大部分资源到子进程中，这包括进程的代码部分。虽然子进程最初复制了父进程的地址空间，但在实际运行中，父子进程的地址空间是相互独立的。如果其中一个进程修改了某些数据，不会影响到另一个进程中的相应区域，这是通过写时复制技术来实现的，即只有当进程试图修改某个数据时，才会真正复制该数据，以节省内存资源，就是说在不修改某些数据的情况下它们指向的是同一块位置，如果子进程或者父进程某些数据要修改，它们会重新开辟一块空间存放该进程的特有数据。fork调用完成后，父进程和子进程就开始并发执行，它们可以各自独立地执行不同的代码路径，也可以通过各种进程间通信机制进行通信和同步，这里就是从fork函数出现之后的代码我们可以把它当做两份，两份代码同时跑，但是id不同，后面执行的效果可能就不同。

并且我们可以发现上面的截图父子进程谁先运行是不确定的，这个是由调度器决定的。

③解答问题问：id为什么能承载两个返回值？答：id变量并不是同时承载两个返回值，而是在不同的执行流（父进程和子进程）中被赋予不同的值，fork函数通过这种方式让父进程和子进程能够区分彼此，并根据返回值执行不同的操作。

问：fork为什么能产生两个返回值？答：父子进程并发执行，每个执行流从fork函数的返回处继续执行，并且根据自身的角色（父进程或子进程）返回不同的值，这样就实现了一个函数调用在两个进程中产生不同返回结果的效果。

文章版权归作者所有，未经允许请勿转载。

THE END