48岁的C语言，你知道它背后的历史吗？

vlambda
2020-04-07

48岁的C语言，你知道它背后的历史吗？

C语言作为一个人尽皆知的语言，甚至没有学过编程语言的人也知道它的大名。经历沧桑岁月的它，已经陪伴我们走过了48个年头。回望当年，C语言还在襁褓之中……

贝尔实验室特别人员奖、美国计算机协会（ACM）的图灵奖、汉明勋章、计算机先驱奖、计算机历史博物馆研究员、哈罗德 · 潘德奖……这些成就全都出自一人，那就是编程界无人能超越的传奇人物也是C语言的创造者——丹尼斯·里奇。

48岁的C语言，你知道它背后的历史吗？

C语言之父：丹尼斯·里奇

计算机历史学家Paul E.Ceruzzi说：里奇不被人们之道。他的名字一点都不家喻户晓，但是如果你有一台显微镜，能在电脑里看到他的作品，你会发现处处都是他的作品。

克尼汉也曾如此评价：“牛顿说他是站在巨人的肩膀上，如今，我们都站在里奇的肩膀上。”

01
C语言的辉煌历史

1941年，丹尼斯 · 里奇出生在纽约布朗克斯区，父亲是是贝尔实验室的交换系统工程师。里奇从小成绩优异，大学顺利进入了哈佛，在受父亲的影响下，丹尼斯也走上了科学研究之路。

在哈佛读书期间，一次偶然的机会改变了里奇的一生。里奇参加了哈佛计算机系统相关的讲座，从此他开始对计算机疯狂着迷，不仅专门学了一期课程。

当时的里奇是一个主修物理的学生，因为对计算机处理的理论和实际问题十分着迷，他在毕业论文中大部分和计算机理论有关（递归函数的层次），这还远远不够，里奇开始花更多的精力在实践上面。

在那个时代，大部分计算机体积十分庞大，占用了整个房间并且还只能进行有限的拨入访问，因此攻克小型台式计算机是当时的工程师们的目标，可是这些计算机没有易于使用的操作系统，于是里奇决定自己做一个。

这一决定立即得到了麻省理工学院Honeywell和General Electric的支持。里奇负责多道处理机BCPL语言和GE650的编译器，它们都是属于GECOS系统的。同时，他还写了ALTRAN语言的代数编译器，那视符号计算机的一种语言和系统。

经过这个项目后，里奇毅然决然的放弃了本专业物理学，并决定将计算机作为他的事业。1967年，他加入了贝尔实验室（Bell Labs）。

在加入贝尔实验室后，里奇开始和实验室的一位名为Ken Thompson（肯·汤普森）的成员合作。这位Ken Thompson也是对Ritchie 职业生涯影响很大的人。

Thompson和Ritchie

20世纪70年代，汤普森和里奇在研究如何让早期小型机变得越来越受欢迎。他们认为，所需要的是各种计算机之间更简单，更可行的交互。因为老型计算机要求用户使用操作系统来复制，删除，编辑和打印数据文件，将数据从磁盘移动到屏幕到打印机并返回磁盘进行存储。除了少数专家之外，一旦没有了操作系统，任何人都无法访问计算机。

为此，他们花了几个月的时间来提出解决方案，他们完成这个解决方案时已经编写好了影响他们一生的Unix操作系统。

里奇在1999年的一次采访中表示：“我觉得Linux发展的现象令人高兴，虽然工作站和大型计算机厂商也在提供不同种类的BSD系统，但是在Unix的直接派生品中，Linux应该是最健全的了。”

C++的开发者和设计师比雅尼 · 斯特劳斯普曾说：“假如里奇决定那十年将他的精力花费在稀奇古怪的数学上，那么Unix将胎死腹中。”

事实上，里奇加入贝尔实验室后，发展了C语言和Unix系统，这在电脑工业史上都占据重要的席位。C语言在发展软件和操作系统时是一个非常常用的电脑语言，而现在的编程语言比如C++、C#、Obijective-C、Java和JavaScript拥有极大的影响。

Univac I

为了在PDP-11电脑上运行的Unix系统，1972年，美国贝尔实验室的丹尼斯·麦卡利斯泰尔·里奇(Dennis MacAlistair Ritchie)在B语言的基础上的设计了C语言。

C语言最初尝试通过向B语言中增加数据类型的想法来处理那些不同类型的数据。和大多数编程语言一样，在C语言中，每个对象都有一个类型以及一个值；类型决定了可用于值的操作的含义，以及对象占用的存储空间大小。

1973年，肯·汤普逊(Ken Thompson)和里奇合作把Unix的90%以上用C语言改写，即Unix第五版。这是C语言第一次应用在操作系统的核心编写上。随着Unix的日益广泛使用，C语言也迅速得到推广。

Unix最开始是用汇编语言编写的，里奇和汤普森重写了之后于1974年在ACM上发表，正式向外界披露Unix系统。

随着Unix的发展，C语言也得到了不断地完善。C语言是一门面向过程地、抽象化的编程语言，广泛应用于底层开发。C语言能用简易的方式编译、处理低级存储器。如此简单，简洁，几乎每个计算机制造商都转向了它，且效果显著。

为了利于C语言的全面推广，很多专家学者和硬件产商联合组成了C语言标准委员会。于是在1989年，第一个完备的C标准诞生了，简称“C89”，截至目前，最新的C语言标准为2017年发布的“C17”。

尽管C语言已经如日朝天，但里奇的职业生涯并没没有因此而结束，他于1990年成为朗讯科技计算技术研究部门的领导者。在该职位上，他编写了应用程序并管理已发布的操作系统的增长。

1975年，C语言开始移植到其他机器上使用。史蒂芬·强生(Stephen C.Johnson)实现了一套“可移植编译器”，这套编译器修改起来相对容易，并且可以为不同的机器生成代码。从那时起，C语言在大多数计算机上被使用，从最小的微型计算机到CRAY-2超级计算机。C语言很规范，即使没有一份正式的标准，也可以写出C程序，这些程序无需修改就可以运行在任何支持C语言的最小运行时环境的计算机上。

1978年，丹尼斯·里奇和布莱恩·柯林汉(Brian Wilson Kernighan)合作出版了《C程序设计语言》的第一版。书中介绍的C语言标准也被C语言程序员称作“K&R C”（柯里C），第二版的书中也包含了一些ANSI C的标准。即使在后来ANSI C标准被提出的许多年后，K&R C仍然是许多编译器的最低标准要求，许多老旧的编译仍然运行K&R C的标准。

1978年以后， C语言先后移植到大，中，小和微型计算机上。C语言便很快风靡全球，成为世界上应用最为广泛的程序设计高级语言。

C最初在小型机器上实现，并且继承了一系列小语种编程语言的特点；与功能相比，C的设计者更倾向于简单和优雅。此外，从一开始，C语言就是为系统级编程而设计，程序的运行效率至关重要，因此，C语言与真实机器能力的良好匹配也就不足为奇。例如，C语言为典型硬件所直接支持的对象：字符，整数（也许有多种大小），以及浮点数（同样可能有多种大小）提供了相应的基本数据类型。

1983年，因为发展了通用操作系统理论并实现了UNIX操作系统，里奇和汤普森二人一起获得了图灵奖。里奇的图灵奖论文题目为《对软件研究的反思》。

1989年， C语言被美国国家标准协会（ANSI）标准化，编号为ANSI X3.159-1989。这个版本又称为C89。标准化的一个目的是扩展K&R C，增加了一些新特性。

1990年，国际标准化组织（ISO）成立 ISO/IEC JTC1/SC22/WG14 工作组，来规定国际标准的C语言，通过对ANSI标准的少量修改，最终制定了 ISO 9899:1990，又称为C90。随后，ANSI亦接受国际标准C，并不再发展新的C标准。

在ANSI的标准确立后，C语言的规范在一段时间内没有大的变动，然而C++在自己的标准化创建过程中继续发展壮大。《标准修正案一》在1994年为C语言创建了一个新标准，但是只修正了一些C89标准中的细节和增加更多更广的国际字符集支持。不过，这个标准引出了1999年ISO 9899:1999的发表。它通常被称为C99。C99被ANSI于2000年3月采用。

1990年，童年，二人因“创造UNIX操作系统和C程序设计语言”而获得了IEEE颁发的IEEE汉明奖，1997年获计算机历史博物馆研究员奖，2005年，美国工业研究院授予里奇 IRI成就奖，以表彰他对计算机科学技术做出的贡献，以及UNIX操作系统对社会的广泛影响。2011年，里奇和汤普森二人共同获得了日本国际奖。

但在2011年10月12日，里奇离开了这个世界，离开了他付出一生的C语言和Unix世界，享年70岁，去往另一个地方开始了他的另一场旅行……

2011年12月8日， ISO正式发布了新的C语言的新标准C11，之前被称为C1X，官方名称为ISO/IEC 9899:2011。新的标准提高了对C++的兼容性，并增加了一些新的特性。这些新特性包括泛型宏、多线程、带边界检查的函数、匿名结构等。

C18(以前称为C17)最新标准的C语言编程，发表在2018年六月代替C11。C18在没有引入新语言功能的情况下解决了C11中的缺陷。

由于C具有语言简洁，紧凑，使用方便灵活。运算符，数据类型丰富；具有结构化的控制语句，语法限制不太严格，程序设计自由度大；C语言允许直接访问物理地址，能进行位操作，能实现汇编语言的大部分功能，可以直接对硬件进行操作；生成目标代码质量高。执行效率高，等特点。所以，尽管C语言发布至今过去很多年，但现在C语言仍然在一些领域流行。

当前，C语言编译器普遍存在于各种不同的操作系统中，例如Microsoft Windows、macOS、Linux、Unix等。C语言的设计影响了众多后来的编程语言，例如C++、Objective-C、Java、C#等。

02
C语言到底能做什么

从计算机发展以来，编程语言也是层出不穷，但是无论多少“新人”翻涌而出，都无法改变C语言在编程界中德高望重的地位。

C语言到底能做了多少事情？大家经常说的Linux操作系统的内核都是C语言写的，对应的很多嵌入式内核驱动也跑不出C语言范畴，包括大家常用的手机，机顶盒，电视机底层硬件驱动基本上都是C语言完成。

可以毫不夸张的说，如果没有C语言，就没有微软的Windows 10 和 Surface Book，也没有安卓智能手机，更没有乔布斯创造的苹果帝国各种产品MAC、iPad。

C语言最牛的地方，几乎现在所有的上层语言的底层语言绝大部分都是C语言大哥做嫁衣给铺垫完成。深刻理解上层语言底层实现，离不开C语言。而且很多大学的计算机专业都会把C语言作为学生入门编程的第一步。因此，很多程序员都把学习C语言当成程序生涯中最基本的事。

而C语言为什么能成为最重要、最流行的编程语言之一，具体来说因为以下原因：

设计特性

C语言融合了计算机科学理论和实践的控制特性。C 语言的设计理念让用户能轻松地完成自顶向下的规划、结构化编程和模块化设计。因此，用 C 语言编写的程序更易懂、更可靠。

高效性

在设计上，它充分利用了当前计算机的优势，因此 C 程序相对更紧凑，而且运行速度很快

可移植性

C 是可移植的语言。这意味着，在一种系统中编写的 C 程序稍作修改或不修改就能在其他系统运行。如需修改，也只需简单更改主程序头文件中的少许项即可。

强大而灵活

C 语言功能强大且灵活。功能强大且灵活的 UNIX 操作系统，大部分是用 C 语言写的。C 程序还可以用于解决物理学和工程学的问题，甚至可用于制作电影的动画特效。

面向程序员

C 语言是为了满足程序员的需求而设计的，程序员利用 C 可以访问硬件、操控内存中的位。C 语言有丰富的运算符，能让程序员简洁地表达自己的意图。

C语言是怎么来的

C语言是很低级的语言，很多方面都近似于汇编语言，在《Intel 32位汇编语言程序设计》一书中，甚至介绍了手工把简单的C语言翻译成汇编的方法。对于编译器这种系统软件，用C语言来编写是很自然不过的，即使是像Python这样的高级语言依然在底层依赖于C语言（举Python的例子是因为Intel的黑客正在尝试让

Python不需要操作系统就能运行——实际上是免去了BIOS上的一次性C代码）。现在的学生，学过编译原理后，只要有点编程能力的都可以实现一个功能简单的类C语言编译器。

可是问题来了，不知道你有没有想过，大家都用C语言或基于C语言的语言来写编译器，那么世界上第一个C语言编译器又是怎么编写的呢？这不是一个“鸡和蛋”的问题……

上文也有提到第一个C语言编译器的原型完全可能是用B语言或者混合B语言与PDP汇编语言编写的。

早期的C语言编译器采取了一个取巧的办法：先用汇编语言编写一个C语言的一个子集的编译器，再通过这个子集去递推完成完整的C语言编译器。详细的过程如下：

先创造一个只有C语言最基本功能的子集，记作C0语言，C0语言已经足够简单了，可以直接用汇编语言编写出C0的编译器。依靠C0已有的功能，设计比C0复杂，但仍然不完整的C语言的又一个子集C1语言，其中C0属于C1，C1属于C，用C0开发出C1语言的编译器。在C1的基础上设计C语言的又一个子集C2语言，C2语言比C1复杂，但是仍然不是完整的C语言，开发出C2语言的编译器……如此直到CN，CN已经足够强大了，这时候就足够开发出完整的C语言编译器的实现了。至于这里的N是多少，这取决于你的目标语言（这里是C语言）的复杂程度和程序员的编程能力——简单地说，如果到了某个子集阶段，可以很方便地利用现有功能实现C语言时，那么你就找到N了。下面的图说明了这个抽象过程：

C语言

CN语言

……

C0语言

汇编语言

机器语言

那么这种大胆的子集简化的方法，是怎么实现的，又有什么理论依据呢？

先介绍一个概念， “自编译”Self-Compile ，也就是对于某些具有明显自举性质的强类型（所谓强类型就是程序中的每个变量必须声明类型后才能使用，比如C语言，相反有些脚本语言则根本没有类型这一说法）编程语言，可以借助它们的一个有限小子集，通过有限次数的递推来实现对它们自身的表述，这样的语言有C、Pascal、Ada等等，至于为什么可以自编译，可以参见清华大学出版社的《编译原理》，书中实现了一个Pascal的子集的编译器。

总之，已经有计算机科学家证明了，C语言理论上是可以通过上面说的CVM的方法实现完整的编译器的，那么实际上是怎样做到简化的呢？

这张图是不是有点熟悉？对了就是在讲虚拟机的时候见到过，不过这里是CVM（C Language Virtual Machine），每种语言都是在每个虚拟层上可以独立实现编译的，并且除了C语言外，每一层的输出都将作为下一层的输入（最后一层的输出就是应用程序了），这和滚雪球是一个道理。用手（汇编语言）把一小把雪结合在一起，一点点地滚下去就形成了一个大雪球，这大概就是所谓的0生1，1生C，C生万物吧？

下面是C99的关键字：

 
   
   
 
  
    
    
  autoenum restrict unsigned
  
    
    
  breakexternreturnvoid
  
    
    
  casefloatshortvolatile
  
    
    
  charforsignedwhile
  
    
    
  constgotosizeof_Bool
  
    
    
  continueifstatic_Complex
  
    
    
  defaultinlinestruct_Imaginary
  
    
    
  dointswitch
  
    
    
  doublelongtypedef
  
    
    
  elseregisterunion
  
    
    
  //共37个

仔细看看，其实其中有很多关键字是为了帮助编译器进行优化的，还有一些是用来限定变量、函数的作用域、链接性或者生存周期（函数没有）的，这些在编译器实现的早期根本不必加上，于是可以去掉auto, restrict, extern, volatile, const, sizeof, static, inline, register, typedef，这样就形成了C的子集，C3语言，C3语言的关键字如下：

 
   
   
 
  
    
    
  enumunsigned
  
    
    
  breakreturnvoid
  
    
    
  casefloatshort
  
    
    
  charforsignedwhile
  
    
    
  goto_Bool
  
    
    
  continueif_Complex
  
    
    
  defaultstruct_Imaginary
  
    
    
  dointswitch
  
    
    
  doublelong
  
    
    
  elseunion
  
    
    
  //共27个

再想一想，发现C3中其实有很多类型和类型修饰符是没有必要一次性都加上去的，比如三种整型，只要实现int就行了，因此进一步去掉这些关键词，它们是：unsigned, float, short, char(char 是 int), signed, _Bool, _Complex, _Imaginary, long，这样就形成了我们的C2语言，C2语言关键字如下：

 
   
   
 
  
    
    
  enum
  
    
    
  breakreturnvoid
  
    
    
  case
  
    
    
  forwhile
  
    
    
  goto
  
    
    
  continueif
  
    
    
  defaultstruct
  
    
    
  dointswitch
  
    
    
  double
  
    
    
  elseunion
  
    
    
  //共18个

继续思考，即使是只有18个关键字的C2语言，依然有很多高级的地方，比如基于基本数据类型的复合数据结构，另外我们的关键字表中是没有写运算符的，在C语言中的复合赋值运算符->、运算符的++、– 等过于灵活的表达方式此时也可以完全删除掉，因此可以去掉的关键字有：enum, struct, union，这样我们可以得到C1语言的关键字：

 
   
   
 
  
    
    
  breakreturnvoid
  
    
    
  case
  
    
    
  forwhile
  
    
    
  goto
  
    
    
  continueif
  
    
    
  default
  
    
    
  dointswitch
  
    
    
  double
  
    
    
  else
  
    
    
  //共15个

接近完美了，不过最后一步手笔自然要大一点。这个时候数组和指针也要去掉了，另外C1语言其实仍然有很大的冗杂度，比如控制循环和分支的都有多种表述方法，其实都可简化成一种，具体的来说，循环语句有while循环，do…while循环和for循环，只需要保留while循环就够了；分支语句又有if…{}, if…{}…else, if…{}…else if…, switch，这四种形式，它们都可以通过两个以上的if…{}来实现，因此只需要保留if,…{}就够了。可是再一想，所谓的分支和循环不过是条件跳转语句罢了，函数调用语句也不过是一个压栈和跳转语句罢了，因此只需要goto（未限制的goto）。因此大胆去掉所有结构化关键字，连函数也没有，得到的C0语言关键字如下：

 
   
   
 
  
    
    
  breakvoid
  
    
    
  goto
  
    
    
  int
  
    
    
  double
  
    
    
  //共5个

这已经是简约的极致了。

只有5个关键字，已经完全可以用汇编语言快速的实现了。通过逆向分析我们还原了第一个C语言编译器的编写过程，也感受到了前辈科学家们的智慧和勤劳！我们都不过是巨人肩膀上的灰尘罢了！0生1，1生C，C生万物，实在巧妙！

参考资料：

【1】丹尼斯 · 里奇百度百科

https://baike.baidu.com/item/%E4%B8%B9%E5%B0%BC%E6%96%AF%C2%B7%E9%87%8C%E5%A5%87

【2】C语言百度百科

https://baike.baidu.com/item/C%E8%AF%AD%E8%A8%80

【3】Unix百度百科

https://baike.baidu.com/item/UNIX

【4】《C Primer Plus第六版》

【5】《第一个C编译器是怎样来的？》

-END-

vlambda博客
学习文章列表