Linux下的多进程编程初步

2008-02-23 05:06:29来源:互联网 阅读 ()

新老客户大回馈,云服务器低至5折

文章摘要:
   多线程程式设计的概念早在六十年代就被提出,但直到八十年代中期,Unix系统中才引入多线程机制,如今,由于自身的许多长处,多线程编程已得到了广泛的应用。本文我们将介绍在Linux下编写多进程和多线程程式的一些初步知识。


--------------------------------------------------------------------------------

正文:
Linux下的多进程编程初步

1 引言
   对于没有接触过Unix/Linux操作系统的人来说,fork是最难理解的概念之一:他执行一次却返回两个值。fork函数是Unix系统最杰出的成就之一,他是七十年代UNIX早期的研发者经过长期在理论和实践上的艰苦探索后取得的成果,一方面,他使操作系统在进程管理上付出了最小的代价,另一方面,又为程式员提供了一个简洁明了的多进程方法。和DOS和早期的Windows不同,Unix/Linux系统是真正实现多任务操作的系统,能够说,不使用多进程编程,就不能算是真正的Linux环境下编程。
   多线程程式设计的概念早在六十年代就被提出,但直到八十年代中期,Unix系统中才引入多线程机制,如今,由于自身的许多长处,多线程编程已得到了广泛的应用。
   下面,我们将介绍在Linux下编写多进程和多线程程式的一些初步知识。

2 多进程编程
   什么是个进程?进程这个概念是针对系统而不是针对用户的,对用户来说,他面对的概念是程式。当用户敲入命令执行一个程式的时候,对系统而言,他将启动一个进程。但和程式不同的是,在这个进程中,系统可能需要再启动一个或多个进程来完成单独的多个任务。多进程编程的主要内容包括进程控制和进程间通信,在了解这些之前,我们先要简单知道进程的结构。

  2.1 Linux下进程的结构
   Linux下一个进程在内存里有三部分的数据,就是"代码段"、"堆栈段"和"数据段"。其实学过汇编语言的人一定知道,一般的CPU都有上述三种段寄存器,以方便操作系统的运行。这三个部分也是构成一个完整的执行序列的必要的部分。
   "代码段",顾名思义,就是存放了程式代码的数据,假如机器中有数个进程运行相同的一个程式,那么他们就能够使用相同的代码段。"堆栈段"存放的就是子程式的返回地址、子程式的参数连同程式的局部变量。而数据段则存放程式的全局变量,常数连同动态数据分配的数据空间(比如用malloc之类的函数取得的空间)。这其中有许多细节问题,这里限于篇幅就不多介绍了。系统假如同时运行数个相同的程式,他们之间就不能使用同一个堆栈段和数据段。

  2.2 Linux下的进程控制
   在传统的Unix环境下,有两个基本的操作用于创建和修改进程:函数fork( )用来创建一个新的进程,该进程几乎是当前进程的一个完全拷贝;函数族exec( )用来启动另外的进程以取代当前运行的进程。Linux的进程控制和传统的Unix进程控制基本一致,只在一些细节的地方有些区别,例如在Linux系统中调用vfork和fork完全相同,而在有些版本的Unix系统中,vfork调用有不同的功能。由于这些差别几乎不影响我们大多数的编程,在这里我们不予考虑。
   2.2.1 fork( )
   fork在英文中是"分叉"的意思。为什么取这个名字呢?因为一个进程在运行中,假如使用了fork,就产生了另一个进程,于是进程就"分叉"了,所以这个名字取得很形象。下面就看看如何具体使用fork,这段程式演示了使用fork的基本框架:

void main(){
int i;
if ( fork() == 0 ) {
/* 子进程程式 */
for ( i = 1; i <1000; i ) printf("This is child process\n");
}
else {
/* 父进程程式*/
for ( i = 1; i <1000; i ) printf("This is process process\n");
}
}
   程式运行后,您就能看到屏幕上交替出现子进程和父进程各打印出的一千条信息了。假如程式还在运行中,您用ps命令就能看到系统中有两个他在运行了。
   那么调用这个fork函数时发生了什么呢?fork函数启动一个新的进程,前面我们说过,这个进程几乎是当前进程的一个拷贝:子进程和父进程使用相同的代码段;子进程复制父进程的堆栈段和数据段。这样,父进程的任何数据都能够留给子进程,但是,子进程一旦开始运行,虽然他继承了父进程的一切数据,但实际上数据却已分开,相互之间不再有影响了,也就是说,他们之间不再共享任何数据了。他们再要交互信息时,只有通过进程间通信来实现,这将是我们下面的内容。既然他们如此相象,系统如何来区分他们呢?这是由函数的返回值来决定的。对于父进程,fork函数返回了子程式的进程号,而对于子程式,fork函数则返回零。在操作系统中,我们用ps函数就能够看到不同的进程号,对父进程而言,他的进程号是由比他更低层的系统调用赋予的,而对于子进程而言,他的进程号即是fork函数对父进程的返回值。在程式设计中,父进程和子进程都要调用函数fork()下面的代码,而我们就是利用fork()函数对父子进程的不同返回值用if...else...语句来实现让父子进程完成不同的功能,正如我们上面举的例子相同。我们看到,上面例子执行时两条信息是交互无规则的打印出来的,这是父子进程单独执行的结果,虽然我们的代码似乎和串行的代码没有什么区别。
   读者也许会问,假如一个大程式在运行中,他的数据段和堆栈都很大,一次fork就要复制一次,那么fork的系统开销不是很大吗?其实UNIX自有其解决的办法,大家知道,一般CPU都是以"页"为单位来分配内存空间的,每一个页都是实际物理内存的一个映像,象INTEL的CPU,其一页在通常情况下是4086字节大小,而无论是数据段还是堆栈段都是由许多"页"构成的,fork函数复制这两个段,只是"逻辑"上的,并非"物理"上的,也就是说,实际执行fork时,物理空间上两个进程的数据段和堆栈段都还是共享着的,当有一个进程写了某个数据时,这时两个进程之间的数据才有了区别,系统就将有区别的"页"从物理上也分开。系统在空间上的开销就能够达到最小。
   下面演示一个足以"搞死"Linux的小程式,其源代码很简单:
   void main()
   {
     for( ; ; ) fork();
   }
   这个程式什么也不做,就是死循环地fork,其结果是程式不断产生进程,而这些进程又不断产生新的进程,很快,系统的进程就满了,系统就被这么多不断产生的进程"撑死了"。当然只要系统管理员预先给每个用户配置可运行的最大进程数,这个恶意的程式就完成不了企图了。

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇: C语言内核等待队列机制介绍

下一篇: Linux 的编程常识