C系编程语言盘点
2024-11-06 14:35:27 阿炯

C语言傲视群雄的资本还是有目共睹的,毕竟这门编程语言之所以如此霸气,是因为它是每个现代软件系统组件的创造者,业界对C语言也有着相当高的评价。开发人员用C语言制作Web服务器、数据库、操作系统、框架、编程语言、云组件和许多软件组件。尽管许多编程语言都说它们可以“取代”C语言,但这是不可能的,因为整个计算机历史都是用C语言创造的。更多计算机语言的评价可参考此处。在wikipedia上也有C系语言的介绍列表:List of C-family programming languages

但资格老的语言总是不太能跟上“现代开发”的脚步。C++语言通过实现面向对象的概念、生产语言特性和通过保持C语言的性能优先设计的标准库API,为现代开发人员改进了C语言语法。也有一些C替代方案可以解决每个C开发人员面临的问题,但设计一门实用的计算机语言又是如此之难,因此对C语言的改良就就不仅是日程的事情了,而是有相当多的落地项目:DGoZigOdin是流行的C语言替代品。


C语言于1972年11月问世,1978年美国电话电报公司(AT&T)贝尔实验室正式发布C语言,1983年由美国国家标准局(American National Standards Institute,简称ANSI)开始制定C语言标准,于1989年12月完成,并在1990年春天发布,称之为ANSI C,有时也被称为 C89 或 C90。C语言是一门通用的,模块化,程序化的编程语言,被广泛应用于操作系统和应用软件的开发。由于其高效和可移植性,适应于不同硬件和软件平台,深受开发员的青睐。

C系语言具有以下特性:
用大括号({})分隔的代码块;
分号(;)语句结束符;
用圆括号(()分隔的参数列表);
用于算术和逻辑表达式的中缀符号。

C家族语言跨越多种编程范式、概念模型和运行时环境。


C语言早期发展

1969-1973年在美国电话电报公司(AT&T)贝尔实验室开始了C语言的最初研发。根据C语言的发明者丹尼斯·里奇 (Dennis Ritchie) 说,C 语言最重要的研发时期是在1972年。

丹尼斯·里奇(Dennis Ritchie),C语言之父,UNIX之父。1978年与布莱恩·柯林汉(Brian Kernighan)一起出版了名著《C程序设计语言(The C Programming Language)》,现在此书已翻译成多种语言,成为C语言方面最权威的教材之一。2011年10月12日(北京时间为10月13日),丹尼斯·里奇去世,享年70岁。

C语言之所以命名为C,是因为C语言源自Ken Thompson发明的B语言,而B语言则源自BCPL语言。其诞生是和UNIX操作系统的开发密不可分的,原先的UNIX操作系统都是用汇编语言写的,1973年UNIX操作系统的核心用C语言改写,从此以后,C语言成为编写操作系统的主要语言。


K&R C(C89)

1978年,丹尼斯·里奇(Dennis Ritchie)和布莱恩·柯林汉(Brian Kernighan)出版了一本书,名叫《The C Programming Language》(中文译名为《C程序设计语言》)。这本书被C语言开发者们称为“K&R”,很多年来被当作C语言的非正式的标准说明,人们称这个版本的C语言为“K&R C”。

1988年丹尼斯·里奇(Dennis Ritchie)和布莱恩·柯林汉(Brian Kernighan)修改此书,出版了《The C Programming Language》第二版,涵盖了ANSI C语言标准。第二版从此成为大学计算机教育有关C语言的经典教材,多年后也没再出现过更好的版本。


ANSI C 和 ISO C的关系

1970到80年代,C语言被广泛应用,从大型主机到小型微机,也衍生了C语言的很多不同版本。为统一C语言版本,1983年美国国家标准局(American National Standards Institute,简称ANSI)成立了一个委员会,来制定C语言标准。1989年C语言标准被批准,被称为ANSI X3.159-1989 “Programming Language C”。这个版本的C语言标准通常被称为ANSI C。又由于这个版本是 89 年完成制定的,因此也被称为 C89。

后来 ANSI 把这个标准提交到 ISO(国际化标准组织),1990年被 ISO 采纳为国际标准,称为 ISO C。又因为这个版本是1990年发布的,因此也被称为C90。

ANSI C(C89) 与 ISO C(C90)内容基本相同,主要是格式组织不一样。因为 ANSI 与 ISO 的C标准内容基本相同,所以对于C标准,可以称为ANSI C,也可以说是ISO C,或者 ANSI / ISO C。

大家看到 ANSI C、ISO C、C89、C90,要知道这些标准的内容都是一样的。目前,几乎所有的开发工具都支持 ANSI / ISO C 标准。是C语言用得最广泛的一个标准版本。


C90

在1990年,ANSI C标准(带有一些小改动)被美国国家标准协会采纳为ISO/IEC9899:1990。这个版本有时候称为C90。因此,C89和C90通常指同一种语言。


C99

在ANSI C标准确立之后,C语言的规范在很长一段时间内都没有大的变动。1995年C程序设计语言工作组对C语言进行了一些修改,成为后来的1999年发布的 ISO/IEC 9899:1999标准,通常被称为C99。

这一标准在C89的基础上增加了许多新的特性,如变长数组、内联函数、限制指针等。但是各个公司对C99的支持所表现出来的兴趣不同。当GCC和其它一些商业编译器支持C99的大部分特性的时候,微软和Borland却似乎对此不感兴趣。

说明:GCC(GNU Compiler Collection,GNU编译器集合)是一套由GNU工程开发的支持多种编程语言的编译器。

综上所述,目前广泛使用的C语言版本是 ANSI / ISO C,最经典的C语言教材是《C程序设计语言(The C Programming Language) 第二版》。


C11

在2011年12月,ANSI 采纳了 ISO/IEC 9899:2011 标准。这个标准通常即C11,它是C程序语言的现行标准。该标准引入了一些新的特性,如对多线程编程的支持、增强的Unicode支持、静态断言等,并提高了语言的安全性。


C17/C18

2017年,ISO发布了C17标准,主要是对C11标准的修订和更新,旨在进一步改进语言的特性和可用性。然而,与C11相比,C17并没有引入新的语言特性或库功能。有时C17也被视为C11的一个修正版,或者称为C18。


C23

C23是C语言标准的一次重大修订,截至2024年3月,最新版本的gcc和clang实现了C23的大部分新语言功能。C23引入了许多新的特性和改进,如新增的十进制浮点数数据类型、二进制字面量、空指针关键字nullptr等。同时,C23也对一些旧特性进行了弃用或修改,以提高语言的清晰度和一致性。


C语言对其它语言的影响

很多编程语言都深受C语言的影响,比如C++(原先是C语言的一个扩展)、C#、Java、PHP、Javascript、Perl、LPC和UNIX的C Shell等在类型前置、大括号限定作用域、运算符、条件/循环语句、关键字等方面都与C语言有明显的共性。也正因为C语言的影响力,掌握C语言的人,再学其它编程语言,大多能很快上手,触类旁通,很多大学将C语言作为计算机教学的入门语言。


支持 ANSI C 的编译器

目前最流行的C语言编译器有以下几种:

GCC(GNU Compiler Collection)

概述:GCC是GNU项目的一部分,是一个开源的编译器集合,支持多种编程语言,包括C、C++、Objective-C等。

特点:GCC支持ANSI C标准以及C99的大部分特性。它不仅是一个编译器,还提供了一个完整的开发工具链,包括链接器、调试器等。

使用:GCC可以在多种操作系统和硬件平台上运行,是Linux和其他类Unix系统上的标准C编译器。通过GCC,开发人员可以确保他们的C代码在不同的系统和平台上具有良好的兼容性和可移植性。

Microsoft Visual C++(MSVC)

概述:MSVC是微软开发的C和C++编译器,是Visual Studio集成开发环境的一部分。

特点:MSVC支持ANSI C标准,并包含C90的一部分特性。然而,它并不完全支持C99标准。

使用:MSVC主要用于Windows平台的开发,提供了丰富的调试和性能分析工具。尽管它在C99支持上有所欠缺,但对于需要开发Windows应用程序的开发者来说,MSVC仍然是一个强大的选择。

ARM RealView编译器

概述:ARM RealView编译器是针对ARM处理器的嵌入式系统开发工具。

特点:该编译器支持ANSI C标准,并专为开发低功耗、高性能的嵌入式应用而设计。它确保代码在各种ARM架构处理器上具有良好的兼容性和执行效率。

使用:ARM RealView编译器主要用于嵌入式系统和移动设备的开发,如智能手机、平板电脑等。

Tiny C Compiler(TCC)

概述:TCC是一个轻量级的高速C语言编译器,适用于资源受限的环境。

特点:TCC支持ANSI C和大多数ISO99 C的新标准,具有编译速度快、内存占用小等优点。

使用:TCC适用于嵌入式系统、操作系统引导程序等需要快速编译和较小内存占用的场合。

其他编译器

Clang:基于LLVM项目的编译器前端,支持C、C++、Objective-C等语言。Clang对ANSI C有很好的支持,并且在编译速度和生成的代码质量上表现出色。

Watcom C/C++ 编译器:以编译后的exe运行高速而著称,且首个支持Intel 80386 "保护模式"的编译器。该编译器可在DOS、OS/2、Windows等操作系统上运行,并生成各种可运行的代码。

Intel C++ Compiler:美国Intel公司开发的C/C++编译器,适用于多种操作系统和处理器。它支持多种优化选项,可以生成高效的机器代码。


在2023年2月主流的编程语言中,挑选出流行的,具有历史影响力的,按时间从上往下排序,依据类型和指导思想进行聚类,根据互相的影响使用线条指向其的相互关系,并补充了一些关键性的特征和评价,整理下图:


系统编程通常指的是开发更接近计算机硬件或操作系统层的东西,通常实现可以运行其他软件系统的软件模块。编写操作系统、应用程序框架和嵌入式系统是系统编程的好例子。系统程序员主要有两种语言类型选择:

C及其替代方案:使用小型的高性能语言,如 Go、Zig 或 Nim

C++及其替代方案:使用有点复杂、高性能的语言,如 D、Rust、Carbon 或 Cppfront。

Better C的语言还有这两位:

C2lang/c2compiler: the c2 programming language

C3 | An evolution, not a revolution


C2lang语言自己编译安装比较顺利。C3语言是受C2启发,做了更多的功能,但感觉上C2的功能很多时候也够用了,他们最大的特点是去掉了C语言的头文件,有了包管理的功能,直接导入import 源码文件可以使用别的包中的函数了。而C3语言只提供了部分较新的操作系统的安装包,自行在Rocky Linux 9下没有编译通过,应该试LLVM的静态链接的问题,其实现也相对粗糙。

在编程世界中,C语言一直以其强大的底层控制和高效的执行性能而备受推崇。然而,随着软件开发的复杂度日益增加,我们开始追求更简洁、更智能的语言设计。这就是C2Compiler的诞生背景——一个基于C的全新编程语言,旨在提供更加现代化的编程体验,由巴斯·万登·伯格(Bas van den Berg)创立。现已经可以摆脱C++而实现自举了,其官网也提供了相当详细的文档。它保留 C 中的适用部分,同时改进那些与其 40 年历史背道而驰的部分;此外 C2 还引入了支持“链接时优化”(LTO)的集成构建系统。同时宏系统的实现也在进展中。

另外弃用的部分包括:对头文件的使用,它严重地降低了编译器的性能;复杂类型定义,在 C2 中被模块系统和统一类型语法替代。C2lang主要目标是解决 C 语言中的一些常见问题,改善开发者的使用体验。

C2Compiler是C2项目的一部分,它试图创造一种新的语言,融合了C的所有优点,并且摒弃了一些传统痛点。它的主要改进包括去除头文件、不再使用#include,采用包(package)管理,按目标编译以及引入更有逻辑性的关键字。C2Compiler是一个强大的工具,用于解析C2源代码并生成LLVM IR或ANSI C代码。其是建立在LLVM 7.0和部分Clang 7.0基础上的,这确保了其对硬件平台的良好支持和高性能优化潜力。它的解析器和ASTBuilder类的设计受到Clang相关类的启发,以实现高效且精确的语法分析。此外,项目还列出了优先级不同的待办事项,表明团队正在不断努力完善这个项目。

应用场景
适用于多种软件开发场景:
构建系统:集成的构建系统简化了大型项目中的依赖管理和构建流程。
嵌入式开发:由于其与C语言的高度兼容性,C2适合于嵌入式设备的开发。
高性能计算:利用LLVM IR进行代码优化,C2可以在高性能计算领域大展拳脚。
教育:作为教学工具,帮助学生理解现代编程语言设计理念。

项目特点
无头文件(No Header Files):告别繁琐的头文件引用,提高开发效率。
包管理(Packages):更优的模块化设计,便于代码重用和管理。
一次编译多目标(Compiled Per Target):针对不同环境一次性编译完成,减少重复工作。
逻辑性更强的关键字(Logical Keywords):如public/local替代static,使代码更易读。
内置重构工具(Refactoring Tool):方便进行大规模代码修改。
C2Tags:类似ctags的增强版,实现快速跳转到定义,提升开发体验。

安装过程简单,不论是Linux、OSX还是Windows用户都能轻松上手。通过运行c2c命令,你就可以开始尝试各种示例,探索C2语言的魅力了。C2Compiler不仅是对经典C语言的一次创新性扩展,更是面向未来编程时代的一个重要里程碑。

主流编译器厂商在C标准上的一些差异

对于软件工程师来说,C 语言可以说是最最最主要的编程语言,然而在派生标准上有 Linux GNU C 和 ANSI C 这两者却存在着一定的差异,使用不当很容易造成语法错误。

Linux 上可用的 C 编译器是 GNU C 编译器,它建立在自由软件基金会的编程许可证的基础上,因此可以自由发布。GNU C对标准C进行一系列扩展,以增强标准C的功能。

1.零长度和变量长度数组
GNU C允许使用零长度数组,在定义变长对象的头结构时,这个特性非常有用。例如:
struct var_data {
    int len;
    char data[0];
};

char data[0]仅仅意味着程序中通过var_data结构体实例的data[index]成员可以访问len之后的第index个地址,它并没有为data[]数组分配内存,因此sizeof(struct var_data)=sizeof(int)。

假设struct var_data的数据域就保存在struct var_data紧接着的内存区域中,则通过如下代码可以遍历这些数据:
struct var_data s;
...
for (i = 0; i < s.len; i++)
    printf('%02x', s.data[i]);

GNU C中也可以使用1个变量定义数组,例如如下代码中定义的“double x[n]”:
int main (int argc, char *argv[]) {
    int i, n = argc;
    double x[n];
    for (i = 0; i < n; i++)
        x[i] = i;
    return 0;
}

2.case范围
GNU C支持case x…y这样的语法,区间[x,y]中的数都会满足这个case的条件,请看下面的代码:
switch (ch) {
case '0'... '9': c -= '0';
    break;
case 'a'... 'f': c -= 'a' - 10;
    break;
case 'A'... 'F': c -= 'A' - 10;
    break;
}

代码中的case'0'...'9'等价于标准C中的:
case '0': case '1': case '2': case '3': case '4':
case '5': case '6': case '7': case '8': case '9':

3.语句表达式
GNU C把包含在括号中的复合语句看成是一个表达式,称为语句表达式,它可以出现在任何允许表达式的地 方。我们可以在语句表达式中使用原本只能在复合语句中使用的循环、局部变量等,例如:

#define min_t(type,x,y) \
( { type _ _x =(x);type _ _y = (y); _ _x<_ _y _ _x: _ _y; })
int ia, ib, mini;
float fa, fb, minf;
mini = min_t(int, ia, ib);
minf = min_t(float, fa, fb);

因为重新定义了__xx和__y这两个局部变量,所以用上述方式定义的宏将不会有副作用。在标准C中,对应的如下宏则会产生副作用:
#define min(x,y) ((x) < (y) (x) : (y))

代码min(++ia,++ib)会展开为((++ia)<(++ib)(++ia):(++ib)),传入宏的“参数”增加两次。

4.typeof关键字
typeof (x)语句可以获得x的类型,因此,可以借助typeof重新定义min这个宏:

#define min(x,y) ({ \
const typeof(x) _x = (x); \
const typeof(y) _y = (y); \
(void) (&_x == &_y); \
_x < _y _x : _y; })

不需要像min_t(type,x,y)那个宏那样把type传入,因为通过typeof(x)、typeof(y)可以获得type。代码行(void)(&_x==&_y)的作用是检查_x和_y的类型是否一致。

5.可变参数宏
标准C就支持可变参数函数,意味着函数的参数是不固定的,例如printf()函数的原型为:
int printf( const char *format [, argument]... );

而在GNU C中,宏也可以接受可变数目的参数,例如:
#define pr_debug(fmt,arg...) \
printk(fmt,##arg)

这里arg表示其余的参数,可以有零个或多个参数,这些参数以及参数之间的逗号构成arg的值,在宏扩展时替换 arg,如下列代码:
pr_debug('%s:%d',filename,line)

会被扩展为:
printk('%s:%d', filename, line)

使用“##”是为了处理arg不代表任何参数的情况,这时候,前面的逗号就变得多余了。使用“##”之后,GNU C预 处理器会丢弃前面的逗号,这样下列代码:
pr_debug('success!\n')

会被正确地扩展为:
printk('success!\n')

而不是:
printk('success!\n',)

6.标号元素
标准C要求数组或结构体的初始化值必须以固定的顺序出现,在GNU C中,通过指定索引或结构体成员名,允许初始化值以任意顺序出现。

指定数组索引的方法是在初始化值前添加“[INDEX]=”,当然也可以用“[FIRST...LAST]=”的形式指定一个范围。例如下面的代码定义了一个数组,并把其中的所有元素赋值为0:
unsigned char data[MAX] = { [0 ... MAX-1] = 0 };

下面的代码借助结构体成员名初始化结构体:
struct file_operations ext2_file_operations = {
    llseek: generic_file_llseek,
    read: generic_file_read,
    write: generic_file_write,
    ioctl: ext2_ioctl,
    mmap: generic_file_mmap,
    open: generic_file_open,
    release: ext2_release_file,
    fsync: ext2_sync_file,
};

但是,Linux 2.6推荐类似的代码应该尽量采用标准C的方式:
struct file_operations ext2_file_operations = {
    .llseek     = generic_file_llseek,
    .read       = generic_file_read,
    .write      = generic_file_write,
    .aio_read   = generic_file_aio_read,
    .aio_write  = generic_file_aio_write,
    .ioct       = ext2_ioctl,
    .mmap       = generic_file_mmap,
    .open       = generic_file_open,
    .release    = ext2_release_file,
    .fsync      = ext2_sync_file,
    .readv      = generic_file_readv,
    .writev     = generic_file_writev,
    .sendfile   = generic_file_sendfile,
};

7.当前函数名
GNU C预定义了两个标识符保存当前函数的名字,__FUNCTION__保存函数在源码中的名字,__PRETTY_FUNCTION__保存带语言特色的名字。在C函数中,这两个名字是相同的。

void example() {
    printf('This is function:%s', __FUNCTION__);
}

代码中的__FUNCTION__意味着字符串“example”。C99已经支持__func__宏,因此建议在Linux编程中不再使用__FUNCTION__,而转而使用__func__:

void example(void) {
    printf('This is function:%s', __func__);
}

8.特殊属性声明
GNU C允许声明函数、变量和类型的特殊属性,以便手动优化代码和定制代码检查的方法。要指定一个声明的属性,只需要在声明后添加__attribute__((ATTRIBUTE))。其中ATTRIBUTE为属性说明,如果存在多个属 性,则以逗号分隔。GNU C支持noreturn、format、section、aligned、packed等十多个属性。

noreturn属性作用于函数,表示该函数从不返回。这会让编译器优化代码,并消除不必要的警告信息。例如:
# define ATTRIB_NORET __attribute__((noreturn)) ....
asmlinkage NORET_TYPE void do_exit(long error_code) ATTRIB_NORET;

format属性也用于函数,表示该函数使用printf、scanf或strftime风格的参数,指定format属性可以让编译器根据格 式串检查参数类型。例如:
asmlinkage int printk(const char * fmt, ...) __attribute__ ((format (printf, 1, 2)));

上述代码中的第1个参数是格式串,从第2个参数开始都会根据printf()函数的格式串规则检查参数。

unused属性作用于函数和变量,表示该函数或变量可能不会用到,这个属性可以避免编译器产生警告信息。

aligned属性用于变量、结构体或联合体,指定变量、结构体或联合体的对齐方式,以字节为单位,例如:
struct example_struct {
    char a;
    int b;
    long c;
} __attribute__((aligned(4)));

表示该结构类型的变量以4字节对齐。

packed属性作用于变量和类型,用于变量或结构体成员时表示使用最小可能的对齐,用于枚举、结构体或联合体类型时表示该类型使用最小的内存。例如:
struct example_struct {
    char a;
    int b;
    long c __attribute__((packed));
};

编译器对结构体成员及变量对齐的目的是为了更快地访问结构体成员及变量占据的内存。例如,对于一个32位的整型变量,若以4字节方式存放(即低两位地址为00),则CPU在一个总线周期内就可以读取32 位;否则,CPU需要两个总线周期才能读取32位。

9.内建函数
GNU C提供了大量内建函数,其中大部分是标准C库函数的GNU C编译器内建版本,例如memcpy()等,它们与对应的标准C库函数功能相同。

不属于库函数的其他内建函数的命名通常以__builtin开始,如下所示。

内建函数__builtin_return_address(LEVEL)返回当前函数或其调用者的返回地址,参数LEVEL指定调用栈的级数,如0表示当前函数的返回地址,1表示当前函数的调用者的返回地址。

内建函数__builtin_constant_p(EXP)用于判断一个值是否为编译时常数,如果参数EXP的值是常数,函数返回1,否则返回0。例如,下面的代码可检测第1个参数是否为编译时常数以确定采用参数版本还是非参数版本:
#define test_bit(nr,addr) \
(__builtin_constant_p(nr) \
constant_test_bit((nr),(addr)) : \
variable_test_bit((nr),(addr)))

内建函数__builtin_expect(EXP,C)用于为编译器提供分支预测信息,其返回值是整数表达式EXP的值,C的 值必须是编译时常数。

Linux内核编程时常用的likely()和unlikely()底层调用的likely_notrace()、unlikely_notrace()就是基于 __builtin_expect(EXP,C)实现的。

#define likely_notrace(x) __builtin_expect(!!(x), 1)
#define unlikely_notrace(x) __builtin_expect(!!(x), 0)

若代码中出现分支,则即可能中断流水线,我们可以通过likely()和unlikely()暗示分支容易成立还是不容易成立,例如:
if (likely(!IN_DEV_ROUTE_LOCALNET(in_dev)))
    if (ipv4_is_loopback(saddr))
    goto e_inval;

在使用gcc编译C程序的时候,如果使用“-ansi–pedantic”编译选项,则会告诉编译器不使用GNU扩展语法。例如对于如下C程序test.c:
struct var_data {
    int len;
    char data[0];
};
struct var_data a;

直接编译可以通过:
gcc -c test.c

如果使用“-ansi–pedantic”编译选项,编译会报警:
gcc -ansi -pedantic -c test.c
test.c:3: warning: ISO C forbids zero-size array 'data'