编程语言之Lua
2010-11-02 14:24:36 阿炯

Lua 是一个小巧的脚本语言,其设计目的是为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能,Lua最著名的应用是在暴雪公司的网络游戏WOW中。采用C语言开发并在MIT协议下授权。


Lua脚本可以很容易的被C/C++代码调用,也可以反过来调用C/C++的函数,这使得Lua在应用程序中可以被广泛应用。不仅仅作为扩展脚本,也可以作为普通的配置文件,代替XML,Ini等文件格式,并且更容易理解和维护。

1993年,巴西里约热内卢天主教大学的三个老师发明了Lua。


Lua以其简单性、小尺寸和可移植性,成为嵌入式编程语言之王。除了游戏这个主战场之外,Lua还入侵了各种软件(TeX排版,Neovim,Nginx......),各种硬件(三星的电视、思科的路由器、TI的计算器,罗技的键盘......)。

Lua由标准C编写而成,代码简洁优美,几乎在所有操作系统和平台上都可以编译、运行。一个完整的Lua解释器不过200k,在目前所有脚本引擎中,Lua的速度是最快的,这就决定了它是作为嵌入式脚本的最佳选择。其语法比较简单,学习起来也比较省力,但功能却并不弱。在Lua中一切都是变量,除了关键字,请记住这句话。其主要有三种用户,即适用嵌入到某个程序中的Lua用户,适用Lua解释器程序的用户以及同时使用C和Lua的用户。同时Lua作为脚本语言,主要有以下几个特性:
(1)可拓展性:非常卓越可拓展性,从一门编程语言进化为一种用于构建特定领域语言的工具包。
(2)简易性:简单且小巧的语言。
(3)高效性:具有非常高效的实现,性能评估显示Lua是脚本(解释型)语言中运行效率最高的语言。
(4)可移植性:优秀的跨平台特性,可以运行在任何平台上。

Lua主要的运用场景:
(1)游戏以及游戏插件
(2)嵌入式程序
(3)大型程序中的部分模块

和Perl、Python等脚本不同,Lua并没有提供强大的库,这是由其定位决定的。所以它不适合作为开发独立应用程序的语言,不过还是具备了比如数学运算和字符串处理等基本的功能。

简略教程
I. 首先是注释
写一个程序,总是少不了注释的。
在Lua中可以使用单行注释和多行注释。
单行注释中,连续两个减号"--"表示注释的开始,一直延续到行末为止。相当于C++语言中的"//"。
多行注释中,由"--[["表示注释开始,并且一直延续到"]]"为止。这种注释相当于C语言中的"/*…*/"。在注释当中,"[["和"]]"是可以嵌套的。

II. Lua编程
经典的"Hello world"的程序总是被用来开始介绍一种语言。在Lua中写一个这样的程序很简单:
print("Hello world")
在Lua中,语句之间可以用分号";"隔开,也可以用空白隔开。一般来说,如果多个语句写在同一行的话,建议总是用分号隔开。
Lua 有好几种程序控制语句,如:

条件控制:if 条件 then … elseif 条件 then … else … end
While循环:while 条件 do … end
Repeat循环:repeat … until 条件
For循环:for 变量 = 初值,终点值,步进 do … end
For循环:for 变量1,变量2,… ,变量N in表或枚举函数 do … end

注意一下,for的循环变量总是只作用于for的局部变量,你也可以省略步进值,这时候,for循环会使用1作为步进值。你可以用break来中止一个循环。如果你有程序设计的基础,比如你学过Basic,C之类的,你会觉得Lua也不难。但Lua有几个地方是明显不同于这些程序设计语言的,所以请特别注意。
1.语句块
语句块在C++中是用"{"和"}"括起来的,在Lua中,它是用do 和 end 括起来的。比如:
do print("Hello") end
你可以在 函数 中和 语句块 中定局部变量。

2.赋值语句
赋值语句在Lua被强化了。它可以同时给多个变量赋值。
例如:
a,b,c,d=1,2,3,4
甚至是:
a,b=b,a -- 多么方便的交换变量功能啊。
在默认情况下,变量总是认为是全局的。假如你要定义局部变量,则在第一次赋值的时候,需要用local说明。比如:
local a,b,c = 1,2,3 -- a,b,c都是局部变量

3.数值运算
和C语言一样,支持 +, -, *, /。但Lua还多了一个"^"。这表示指数乘方运算。比如2^3 结果为8, 2^4结果为16。
连接两个字符串,可以用".."运处符。如:
"This a " .. "string." -- 等于 "this a string"

4.比较运算
<,>,<=,>=,=,~=
分别表示 小于,大于,不大于,不小于,相等,不相等
所有这些操作符总是返回true或false。
对于Table,Function和Userdata类型的数据,只有 == 和 ~=可以用。相等表示两个变量引用的是同一个数据。比如:
a={1,2}
b=a
print(a==b, a~=b) -- true, false
a={1,2}
b={1,2}
print(a==b, a~=b) -- false, true

5.逻辑运算
and, or, not
其中,and 和 or 与C语言区别特别大。
在这里请先记住,Lua中只有false和nil才计算为false,其它任何数据都计算为true,0也是true!
and 和 or的运算结果不是true和false,而是和它的两个操作数相关。
a and b:如果a为false,则返回a;否则返回b
a or b:如果 a 为true,则返回a;否则返回b

举几个例子:
print(4 and 5) --> 5
print(nil and 13) --> nil
print(false and 13) --> false
print(4 or 5) --> 4
print(false or 5) --> 5

在Lua中这是很有用的特性,也是比较令人混洧的特性。
可以模拟C语言中的语句:x = a? b : c,在Lua中,可以写成:x = a and b or c。
最有用的语句是: x = x or v,它相当于:if not x then x = v end 。

6.运算符优先级,从高到低顺序如下:
^
not - (一元运算)
* /
+ -
..(字符串连接)
= ~= ==
and
or

III. 关键字
关键字是不能做为变量的,Lua的关键字不多,就以下几个:
and break do else elseif
end false for function if
in local nil not or
repeat return then true until while

IV. 变量类型
怎么确定一个变量是什么类型的呢?大家可以用type()函数来检查,Lua支持的类型有以下几种:

Nil 空值,所有没有使用过的变量,都是nil。nil既是值,又是类型。
Boolean 布尔值
Number 数值,在Lua里,数值相当于C语言的double
String 字符串,如果你愿意的话,字符串是可以包含'\0'字符的
Table 关系表类型,这个类型功能比较强大,我们在后面慢慢说
Function 函数类型,不要怀疑,函数也是一种类型,也就是说,所有的函数,它本身就是一个变量
Userdata 嗯,这个类型专门用来和Lua的宿主打交道的。宿主通常是用C和C++来编写的,在这种情况下,Userdata可以是宿主的任意数据类型,常用的有Struct和指针
Thread 线程类型,在Lua中没有真正的线程。Lua中可以将一个函数分成几部份运行,如果感兴趣的话,可以去看看Lua的文档

V. 变量的定义
所有的语言,都要用到变量。在Lua中,不管你在什么地方使用变量,都不需要声明,并且所有的这些变量总是全局变量,除非,你在前面加上"local"。
这一点要特别注意,因为你可能想在函数里使用局部变量,却忘了用local来说明。
至于变量名字,它是大小写相关的。也就是说,A和a是两个不同的变量。
定义一个变量的方法就是赋值。"="操作就是用来赋值的,一起来定义几种常用类型的变量吧。
A. Nil
正如前面所说的,没有使用过的变量的值,都是Nil。有时候我们也需要将一个变量清除,此时可以直接给变量赋以nil值。如:
var1=nil -- 请注意 nil 一定要小写

B. Boolean
布尔值通常是用在进行条件判断的时候。布尔值有两种:true 和 false。在Lua中,只有false和nil才被计算为false,而所有任何其它类型的值,都是true。比如0,空串等等,都是true。不要被C语言的习惯所误导,0在Lua中的的确确是true。你也可以直接给一个变量赋以Boolean类型的值,如:
varboolean = true

C. Number
在Lua中,是没有整数类型的,也不需要。一般情况下,只要数值不是很大(比如不超过100,000,000,000,000),是不会产生舍入误差的。在很多CPU上,实数的运算并不比整数慢。
实数的表示方法,同C语言类似,如:4 0.4 4.57e-3 0.3e12 5e+20

D. String
字符串,总是一种非常常用的高级类型。在Lua中,你可以非常方便的定义很长很长的字符串。
字符串在Lua中有几种方法来表示,最通用的方法,是用双引号或单引号来括起一个字符串的,如:"This is a string."
和C语言相同的,它支持一些转义字符,列表如下:
\a bell
\b back space
\f form feed
\n newline
\r carriage return
\t horizontal tab
\v vertical tab
\\ backslash
\" double quote
\' single quote
\[ left square bracket
\] right square bracket

由于这种字符串只能写在一行中,因此,不可避免的要用到转义字符。加入了转义字符的串,看起来实在是不敢恭维,比如:
"one line\nnext line\n\"in quotes\", 'in quotes'"

值得注意的是,在这种字符串中,如果含有单独使用的"[["或"]]"就仍然得用"\["或"\]"来避免歧义。当然,这种情况是极少会发生的。

E. Table
关系表类型,这是一个很强大的类型。可以把这个类型看作是一个数组。只是C语言的数组,只能用正整数来作索引;在Lua中可以用任意类型来作数组的索引,除了nil。同样,在C语言中,数组的内容只允许一种类型;在Lua中也可以用任意类型的值来作数组的内容,除了nil。
Table的定义很简单,它的主要特征是用"{"和"}"来括起一系列数据元素的。比如:
T1 = {} -- 定义一个空表
T1[1]=10 -- 然后我们就可以象C语言一样来使用它了。
T1["John"]={Age=27, Gender="Male"}
这一句相当于:
T1["John"]={} -- 必须先定义成一个表,还记得未定义的变量是nil类型吗
T1["John"]["Age"]=27
T1["John"]["Gender"]="Male"
当表的索引是字符串的时候,我们可以简写成:
T1.John={}
T1.John.Age=27
T1.John.Gender="Male"

T1.John{Age=27, Gender="Male"}
这是一个很强的特性。

在定义表的时候,我们可以把所有的数据内容一起写在"{"和"}"之间,这样子是非常方便,而且很好看。比如,前面的T1的定义,我们可以这么写:
T1=
{
10, -- 相当于 [1] = 10
[100] = 40,
John= -- 如果你原意,你还可以写成:["John"] =
{
Age=27,   -- 如果你原意,你还可以写成:["Age"] =27
Gender=Male   -- 如果你原意,你还可以写成:["Gender"] =Male
},
20 -- 相当于 [2] = 20
}

看起来很漂亮,不是吗?我们在写的时候,需要注意三点:
1.所有元素之间,总是用逗号","隔开;
2.所有索引值都需要用"["和"]"括起来;如果是字符串,还可以去掉引号和中括号;
3.如果不写索引,则索引就会被认为是数字,并按顺序自动从1往后编;

表类型的构造是如此的方便,以致于常常被人用来代替配置文件。是的,不用怀疑,它比ini文件要漂亮,并且强大的多。

F. Function
函数,在Lua中,函数的定义也很简单。典型的定义如下:
function add(a,b) -- add 是函数名字,a和b是参数名字
return a+b -- return 用来返回函数的运行结果
end

请注意,return语言一定要写在end之前。假如你非要在中间放上一句return,那么请写成:do return end。
还记得前面说过,函数也是变量类型吗?上面的函数定义,其实相当于:
add = function (a,b) return a+b end
当你重新给add赋值时,它就不再表示这个函数了。你甚至可以赋给add任意数据,包括nil (这样,你就清除了add变量)。Function是不是很象C语言的函数指针呢?

和C语言一样,Lua的函数可以接受可变参数个数,它同样是用"…"来定义的,比如:
function sum (a,b,…)
如果想取得…所代表的参数,可以在函数中访问arg局部变量(表类型)得到。
如 sum(1,2,3,4)
则,在函数中,a = 1, b = 2, arg = {3, 4}
更可贵的是,它可以同时返回多个结果,比如:
function s()
return 1,2,3,4
end
a,b,c,d = s() -- 此时,a = 1, b = 2, c = 3, d = 4
前面说过,表类型可以拥有任意类型的值,包括函数!因此,有一个很强大的特性是,拥有函数的表,哦,我想更恰当的应该说是对象吧。Lua可以使用面向对象编程了。不信?那我举例如下:

t = {
Age = 27
add = function(self, n) self.Age = self.Age+n end
}
print(t.Age) -- 27
t.add(t, 10)
print(t.Age) -- 37

不过,t.add(t,10) 这一句实在是有点土对吧?没关系,在Lua中,你可以简写成:
t:add(10)   -- 相当于 t.add(t,10)

G. Userdata 和 Thread
这两个类型的话题,超出了本文的内容,在此就不细说了。


就象C语言一样,Lua提供了相当多的标准函数来增强语言的功能。使用这些标准函数,可以很方便的操作各种数据类型,并处理输入与输出。


LuaJIT

简单地说,LuaJIT 是 Lua 这种编程语言的实时编译(JIT,Just-In-Time Compilation)器的实现。对于不太了解 LuaJIT 的读者可以将 LuaJIT 拆成 Lua 和 JIT 两个部分来理解。

Lua 是一种优雅、易于学习的编程语言,具有自动内存管理、完整的词法作用域、闭包、迭代器、协程、正确的尾部调用以及使用关联数组进行非常实用的数据处理。其设计目标是能与 C 或其它常用的编程语言相互集成,这样就可以利用其它语言已经做好的方面;而它提供的特性又恰好是 C 这类语言不太擅长的,比如相对于硬件层的高层抽象,动态的结构,简易的测试等等。其袖珍的语言内核和只依赖于 ANSI C 标准的特点,使之在各平台上的可移植性变得非常高。因此 Lua 不仅是一个可以作为独立程序运行的脚本语言,也是一个可以嵌入其它应用的嵌入式语言。但此时的 Lua 还有传统脚本语言常见的两个问题:效率低和代码暴露。而 LuaJIT 引入的 JIT 技术能够有效地解决了这两个问题。

JIT(Just-In-Time Compilation),实时编译,是动态编译的一种形式。在计算机科学中,动态编译并不是唯一的编译形式,比如现今仍然流行的 C 语言使用的就是另一种形式:静态编译。

需要指出的是,我们也常常将 C 语言的这种与动态编译相反的编译方式称为提前编译(AOT,Ahead-of-Time Compilation),但二者并不是完全对等的。AOT 仅是描述在执行程序前,将某种 “高级” 语言编译为某种 “低级” 语言的行为。其编译的目标语言并不一定特定于程序宿主机上的机器码,而是任意定义的。比如将 Java 编译为 C,或者将 JavaScript 编译为 V8 等等这些行为也会被视为 AOT。由于所有静态编译在技术上都是提前执行的,所以在这种特定的上下文中使用时,可以将 AOT 视为与 JIT 相反的静态编译。

抛开这些冗杂的名词,想到静态编译的产物,可能会发现Lua语言面临的问题也可以通过静态编译来解决。但事实上,这就丢失了 Lua 作为脚本语言的优势:热更新的灵活性和良好的平台兼容性。所以目前除了有特殊需求的脚本语言外,大部分脚本语言都在使用 JIT 尝试提高语言性能,比如 Chromium 平台上使用 V8 的 JavaScript 和使用 YJIT 的 Ruby。

JIT 尝试将 Lua 的动态解释和 C 的静态编译两者的优缺点相结合,在脚本语言的执行期间,通过不断地分析正在执行的代码片段,编译或重新编译这段代码,以得到执行效率的提升。此时,JIT 假设的目标是,由此得到的性能提升能够高于编译或重新编译这段代码的开销。理论上说,由于能够进行动态地重新编译,JIT 在此过程中,可以针对正在运行程序的特定平台架构进行优化、加速,在某些情况下,能产生比静态编译更快的执行速度。

JIT 分为传统的 Method JIT 和 LuaJIT 正在使用的 Trace JIT 两种。Method JIT 是将每一个方法(Method)翻译为机器码;而如下图所示,更先进的 Trace JIT 假定 “对只执行一两次的代码,解释执行比 JIT 编译执行要快”,以此为依据对传统 JIT 进行优化,具体表现为将频繁执行的代码片段(即热路径上的代码)认定为需要跟踪的代码,将这部分代码编译成机器码执行。

LuaJIT 的原理


LuaJIT

而 LuaJIT(2.x 版本)在 Trace JIT 的基础上,集成了使用汇编编写的高速解释器和基于 SSA 并进行优化的代码生成器后端,大幅提高了 JIT 的表现,最终使得 LuaJIT 成为最快的动态语言实现之一。即 LuaJIT 是 Lua 的实时编译器实现。

除此之外,相对于原生 Lua 中为了与 C 交互而需要编写 Lua 与 C 的繁复绑定,LuaJIT 还实现了 FFI(外部函数接口,Foreign Function Interface)。该技术允许了我们在不清楚参数个数和类型的情况下,从 Lua 代码中直接调用外部的 C 函数和使用 C 的数据结构。由此功能,我们也可以直接使用 FFI 实现所需的数据结构,而非 Lua 原生的 Table 类型,进一步在性能敏感的场景下,提升程序运行的速度。有关使用 FFI 提高性能的技巧并非本文讨论的范畴,更深入的内容可以参阅 Why Does lua-resty-core Perform Better?。

LuaJIT 在 Lua 语法的基础上,实现了迄今为止脚本语言中最快的 Trace JIT 之一,并提供了 FFI 等功能,解决了 Lua 效率低和代码暴露的问题,让 Lua 真正成为了高灵活性、高性能和超低内存占用的脚本语言和嵌入式语言。

与其它语言、WASM 的对比

相对于 Lua 和 LuaJIT,可能对其它的一些语言更加熟悉,比如 JavaScript (Node.js),Python,Golang,Java 等。对比这些大众化的语言,可以看到更多 LuaJIT 的特性和优势,下面简单罗列一些 Lua/LuaJIT 与这些语言的对比:
1.Lua 的语法设计是针对非软件工程师所设计的。所以像 R 语言一样,Lua 也拥有数组下标从 1 开始等适合普通人的设计。
2.Lua 非常适合作为嵌入式语言。Lua 本身拥有一个轻量的 VM,而 LuaJIT 在添加各种功能和优化后,也仍然很轻量。所以相对 Node.js 和 Python 之类庞大的运行环境,LuaJIT 直接集成到 C 编写的程序中后也不会增大太多体积。因此,实际上 Lua 是所有嵌入式语言中使用量比较大且主流的选择。
3.Lua 也很适合做 “胶水” 语言。类似 JavaScript (Node.js) 和 Python,Lua 也能很好地连接不同的库和代码。但稍有不同的是,Lua 与底层生态的耦合性更高,所以在不同的领域中,Lua 的生态可能并不通用。

WASM(Web Assembly)是一种新兴的跨平台技术。这种起初设计为补充而非取代 JavaScript 的技术,因为能够将其它的语言编译成 WASM 字节码,同时还能作为安全沙箱运行代码,使得越来越多的程序也在考虑使用 WASM 作为嵌入或者胶水的平台。即便如此,Lua/LuaJIT 在对比新兴的 WASM 时,也仍然有不少优势:
1.WASM 的性能是受限的,无法达到汇编的水准。普遍场景下的性能,WASM 肯定好过 Lua,但与 LuaJIT 有所差距。
2.WASM 与宿主程序的数据传递效率比较低。而 LuaJIT 可以通过 FFI 进行高效率的数据传递。

Apache APISIX 选择 LuaJIT

尽管上文描述了 LuaJIT 自身的诸多优势,但对于大部分开发者而言,Lua 不是一门大众的语言,LuaJIT 更不是一个大众的选择。作为云原生的 API 网关,Apache APISIX 兼具动态、实时、高性能等特点,提供了负载均衡、动态上游、灰度发布、服务熔断、身份认证、可观测性等丰富的流量管理功能。可以使用 Apache APISIX 来处理传统的南北向流量,也可以处理服务间的东西向流量,还可以用作 k8s 的 Ingress Controller。而这一切都建立在 APISIX 所选择的 Nginx 和 LuaJIT 技术栈之上,带来的高性能、高灵活等特性,提供了负载均衡、动态上游、灰度发布、服务熔断、身份认证、可观测性等丰富的流量管理功能。

LuaJIT 与 Nginx 结合带来的优势

Nginx 是一个知名的高性能 HTTP、TCP/UDP 代理和反向代理的 Web 服务器。但在使用中会发现每次修改 Nginx 的配置文件后,都需要使用 nginx -s reload 重新加载配置。不仅如此,频繁地使用该命令重新加载配置可能会造成连接的不稳定,增加业务丢失的可能性;而在某些情况下,Nginx 重载配置的机制也可能会造成旧进程的回收时间过长,影响正常的业务。


Lua 5.3.0 于2015年正式发布,主要增加对整数支持、支持位操作、提供一个基本的 UTF-8 库以及对 64 位和 32 位平台的支持。


最新版本:5.4
以下是从 5.3 到 5.4 的主要变更:
新一代的垃圾回收机制
新增 to-be-closed 变量
新增 const 变量
userdata 可以具有多个用户的值
随机数生成函数 math.random 采用了新的实现方法
新增警告系统(warning system)
可对函数参数和返回值的信息进行调试
针对整数的 'for' 循环增加了新语义
针对 'string.gmatch' 增加了可选的 'init' 参数
新增 'lua_resetthread' 和 'coroutine.close' 函数
将 string-to-number 迁移至 string 库
分配函数在减少内存块时支持失败
为 'string.format' 新引入的格式 '%p'
utf8 库可接受数值最高为 2^31 的代码点(codepoint)
更多情况请查看更新说明。完整的 Lua 5.4 变更列表可以在这里找到,在此仅简单概览下其中主要的几点变化:

分代 GC
之前 Lua 采用的是 分步 GC 算法来进行垃圾回收, Lua 5.4 加入了 分代 GC 算法,值得注意的一点是, Lua 5.4 仍然支持分步 GC 算法(并且目前分步 GC 算法仍然是默认的 GC 算法),我们可以通过调用 collectgarbage 来切换当前使用的 GC 算法:
-- convert to generational gc
collectgarbage("generational")
-- convert to incremental gc
collectgarbage("incremental")
之前 collectgarbage 方法支持的两个设置“setpause”和“setstepmul”,在 Lua 5.4 中已经不再支持,目前我们需要借助“incremental”来完成相关变量的设置:
collectgarbage("incremental", pause, stepmul, stepsize)

to-be-closed (局部)变量
Lua 5.4 引入了 to-be-closed(局部)变量,机制上可类比 C# 中的 using 语句,实现了类似于 Dispose 的编程模式,只是 C# 中的 Dispose 编程模式通过 Dispose 方法来进行资源的释放,而 Lua 5.4 中的 to-be-closed (局部)变量则是使用 __close 元方法.

下面是一段示例代码,其中 tbcv 元表的 __close 元方法会在 tbcv 离开作用域的时候被调用:
local tbcmt = {
    __close = function()
        print("close to-be-closed var")
    end
}

local function create_tbcv()
    local tbcv = {}
    setmetatable(tbcv, tbcmt)
    return tbcv
end
    
do
    local tbcv <close> = create_tbcv()
end

const (局部)变量
const (局部)变量只能在初始化时赋值,之后对该变量的赋值操作都会被认为是不合法的:
local cv <const> = {}
cv.name = "name"
-- error: attempt to assign to const variable
cv = {}

math.random 的重新实现
之前 Lua 中的 math.random 是基于 C 语言库函数 rand() 来实现的, 这给跨平台开发带来了一些问题,因为不同平台的 C 语言运行时对 rand() 的实现并不相同,所以会造成 rand() 返回结果不一致的问题(在各个平台间), Lua 5.4 基于 xoshiro256** 重新实现了 math.random, 继而解决了该问题.

警告系统
Lua 5.4 新添加了一个警告系统,我们可以通过 warn 函数来触发一个警告:
warn("this is a warn")

但是在 Lua 5.4 的 default 实现中,警告系统是默认关闭的,想要开启的话,需要在 C 语言侧调用 lua_warning 来进行开启:
lua_warning(L, "@on", 0);

当然,我们也可以通过调用 lua_setwarnf 来替换 Lua 5.4 的 default 实现:
void lua_setwarnf (lua_State *L, lua_WarnFunction f, void *ud);

undef ?
Lua 5.4 初期还支持 undef 关键字,用以解决不能给 table 元素进行 nil 赋值的问题(有兴趣的朋友可以自行搜索相关细节),该特性引起了不少争论,后面 Lua 5.4 去除了对该特性的支持.


官方主页:http://www.lua.org/


该文章最后由 阿炯 于 2023-12-06 09:30:02 更新,目前是第 4 版。