Memcache学习笔记-FreeOA

Memcache学习笔记

2015-03-07 07:30:46

阿炯

Memcache是danga.com的一个开源项目，最早为LiveJournal服务的，目前全世界不少人使用这个缓存项目来构建自己的网站，来分担数据库的压力。它可以应对任意多个连接，使用非阻塞的网络IO。由于它的工作机制是在内存中开辟一块空间，然后建立一个HashTable，Memcached自管理这些HashTable。

Memcache的安装分为两个过程：memcache服务器端的安装和memcached客户端的安装。

服务器端的安装就是在服务器(一般都是linux系统)上安装Memcache实现数据的存储。

客户端的安装就是指程序在其中包含Memcache api接口，去使用服务器端的Memcache提供的函数交互，即添加其扩展即可。

基本使用方法

初始化一个Memcache的对象：
$mem = new Memcache({servers => [{ address => 'localhost:11211', weight => 2.5 },'192.168.254.2:11211',{ address => '/path/to/unix.sock', noreply => 1 } ]);

连接到我们的Memcache服务器端，服务器的IP地址，也可以是主机名，Memcache的开放的端口，及可选的比重等。

保存一个数据到Memcache服务器上，第一个参数是数据的key，用来定位一个数据，第二个参数是需要保存的数据内容，这里是一个字符串，第三个参数是一个标记，一般设置为0或者MEMCACHE_COMPRESSED就行了，第四个参数是数据的有效期，就是说数据在这个时间内是有效的，如果过去这个时间，那么会被Memcache服务器端清除掉这个数据，单位是秒，如果设置为0，则是永远有效，我们这里设置了60，就是一分钟有效时间：
$mem->set(‘key1‘, ‘This is first value’, 0, 60);

从Memcache服务器端获取一条数据，它只有一个参数，就是需要获取数据的key，我们这里是上一步设置的key1，现在获取这个数据后输出输出：
$val = $mem->get(‘key1′);
say "Get key1 value: " . $val;

现在是使用replace方法来替换掉上面key1的值，replace方法的参数跟set是一样的，不过第一个参数key1是必须是要替换数据内容的key，最后输出了：
$mem->replace(‘key1′, ‘This is replace value’, 0, 60);
$val = $mem->get(‘key1′);
say "Get key1 value: " . $val;

同样的，Memcache也是可以保存数组、Hash等结构，然后获取回来并输出
my %hash = (a => 1, b => 2);
my @list = (1, 2);
$mem->set('hash', \%hash);
$mem->set_multi(['scalar', 1], ['list', \@list]);

现在删除一个数据，使用delte接口，参数就是一个key，然后就能够把Memcache服务器这个key的数据删除，最后输出的时候没有结果
$mem->delete(‘key1′);
$val = $mem->get(‘key1′);
say "Get key1 value: " . $val . "<br>";

最后我们把所有的保存在Memcache服务器上的数据都清除，会发现数据都没有了，最后输出key2的数据为空，最后关闭连接。
# Wipe out all cached data.
$mem->flush_all;
$mem->disconnect_all;

Memcache的使用

使用Memcache的网站一般流量都是比较大的，为了缓解数据库的压力，让Memcache作为一个缓存区域，把部分信息保存在内存中，在前端能够迅速的进行存取。那么一般的焦点就是集中在如何分担数据库压力和进行分布式，毕竟单台Memcache的内存容量的有限的。

分布式应用
Memcache本来支持客户端的分布式，服务器端不用做什么复杂的操作。

在Memcache的实际使用中，遇到的最严重的问题，就是在增减服务器的时候，会导致大范围的缓存丢失，从而可能会引导数据库的性能瓶颈，为了避免出现这种情况，请先看Consistent hashing算法，中文的介绍可以参考这里，通过存取时选定服务器算法的改变，来实现。

Memcache的安全

我们上面的Memcache服务器端都是直接通过客户端连接后直接操作，没有任何的验证过程，这样如果服务器是直接暴露在互联网上的话是比较危险，轻则数据泄露被其他无关人员查看，重则服务器被入侵，因为Mecache是以root权限运行的，况且里面可能存在一些我们未知的bug或者是缓冲区溢出的情况，这些都是我们未知的，所以危险性是可以预见的。为了安全起见，我做两点建议，能够稍微的防止黑客的入侵或者数据的泄露。

内网访问
最好把两台服务器之间的访问是内网形式的，一般是Web服务器跟Memcache服务器之间。普遍的服务器都是有两块网卡，一块指向互联网，一块指向内网，那么就让Web服务器通过内网的网卡来访问Memcache服务器，我们Memcache的服务器上启动的时候就监听内网的IP地址和端口，内网间的访问能够有效阻止其他非法的访问。
# memcached -d -m 1024 -u root -l 192.168.0.200 -p 11211 -c 1024 -P /tmp/memcached.pid

Memcache服务器端设置监听通过内网的192.168.0.200的ip的11211端口，占用1024MB内存，并且允许最大1024个并发连接

设置防火墙
防火墙是简单有效的方式，如果却是两台服务器都是挂在网的，并且需要通过外网IP来访问Memcache的话，那么可以考虑使用防火墙或者代理程序来过滤非法访问。一般我们在Linux下可以使用iptables或者FreeBSD下的ipfw来指定一些规则防止一些非法的访问，比如我们可以设置只允许我们的Web服务器来访问我们Memcache服务器，同时阻止其他的访问。
# iptables -F
# iptables -P INPUT DROP
# iptables -A INPUT -p tcp -s 192.168.0.0/24 –dport 11211 -j ACCEPT
# iptables -A INPUT -p udp -s 192.168.0.0/24 –dport 11211 -j ACCEPT

上面的iptables规则就是只允许192.168.0.0这段服务器对Memcache服务器的访问，能够有效的阻止一些非法访问。

Memcache协议

协议
memcached 的客户端使用TCP链接与服务器通讯。(UDP接口也同样有效，参考后文的 “UDP协议” )一个运行中的memcached服务器监视一些(可设置)端口。客户端连接这些端口，发送命令到服务器，读取回应，最后关闭连接。

结束会话不需要发送任何命令。当不再需memcached服务时，要客户端可以在任何时候关闭连接。需要注意的是，鼓励客户端缓存这些连接，而不是每次需要存取数据时都重新打开连接。这是因为memcached 被特意设计成及时开启很多连接也能够高效的工作(数百个，上千个如果需要的话)。缓存这些连接，可以消除建立连接所带来的开销(/*/相对而言，在服务器端建立一个新连接的准备工作所带来的开销，可以忽略不计)。

在memcache协议中发送的数据分两种：文本行和自由数据。文本行被用于来自客户端的命令和服务器的回应。自由数据用于客户端从服务器端存取数据时。同样服务器会以字节流的方式传回自由数据。/*/服务器不用关心自由数据的字节顺序。自由数据的特征没有任何限制；但是通过前文提到的文本行，这项数据的接受者(服务器或客户端)，便能够精确地获知所发送的数据库的长度。

文本行固定以“\r\n”(回车符紧跟一个换行符)结束。自由数据也是同样会以“\r\n”结束，但是 \r(回车符)、\n(换行符)，以及任何其他8位字符，均可出现在数据中。因此，当客户端从服务器取回数据时，必须使用数据区块的长度来确定数据区块的结束位置，而不要依据数据区块末尾的“\r\n”，即使它们固定存在于此。

键值
存储在memcached中的数据通过键值来标识。键值是一个文本字符串，对于需要存取这项数据的客户端而言，它必须是唯一的。键值当前的长度限制设定为250字符(当然，客户端通常不会用到这么长的键)；键值中不能使用制表符和其他空白字符(例如空格，换行等)。

命令
所有命令分为3种类型：
存储命令(有3项：’set’、’add’、’repalce’)指示服务器储存一些由键值标识的数据。客户端发送一行命令，后面跟着数据区块；然后，客户端等待接收服务器回传的命令行，指示成功与否。
取回命令(只有一项：’get’)指示服务器返回与所给键值相符合的数据(一个请求中右一个或多个键值)。客户端发送一行命令，包括所有请求的键值；服务器每找到一项内容，都会发送回客户端一行关于这项内容的信息，紧跟着是对应的数据区块；直到服务器以一行“END”回应命令结束。
/*?*/其他的命令都不能携带自由数据。在这些命令中，客户端发送一行命令，然后等待(由命令所决定)一行回应，或最终以一行“END”结束的多行命令。

一行命令固定以命令名称开始，接着是以空格隔开的参数(如果有参数的话)。命令名称大小写敏感，并且必须小写。一些客户端发送给服务器的命令会包含一些时限(针对内容或客户端请求的操作)。这时，时限的具体内容既可以是Unix时间戳(从1970年1月1日开始的秒钟数)，或当前时间开始的秒钟数。对后者而言，不能超过 60*60*24*30(30天)；如果超出，服务器将会理解为Unix时间戳，而不是从当前时间起的秒偏移。

错误字串
每一个由客户端发送的命令，都可能收到来自服务器的错误字串回复。这些错误字串会以三种形式出现：
- “ERROR\r\n”
意味着客户端发送了不存在的命令名称。
- “CLIENT_ERROR <error>\r\n”
意味着输入的命令行里存在一些客户端错误，例如输入未遵循协议。<error>部分是人类易于理解的错误解说……
- “SERVER_ERROR <error>\r\n”
意味着一些服务器错误，导致命令无法执行。<error>部分是人类易于理解的错误解说。在一些严重的情形下(通常应该不会遇到)，服务器将在发送这行错误后关闭连接。这是服务器主动关闭连接的唯一情况。
在后面每项命令的描述中，这些错误行不会再特别提到，但是客户端必须考虑到这些它们存在的可能性。

存储命令
首先，客户端会发送一行像这样的命令：
<command name> <key> <flags> <exptime> <bytes>\r\n
- <command name> 是 set, add, 或者 repalce

set 意思是 “储存此数据”
add 意思是 “储存此数据，只在服务器*未*保留此键值的数据时”
replace意思是 “储存此数据，只在服务器*曾*保留此键值的数据时”

- <key> 是接下来的客户端所要求储存的数据的键值
- <flags> 是在取回内容时，与数据和发送块一同保存服务器上的任意16位无符号整形(用十进制来书写)。客户端可以用它作为“位域”来存储一些特定的信息；它对服务器是不透明的。
- <exptime> 是终止时间。如果为0，该项永不过期(虽然它可能被删除，以便为其他缓存项目腾出位置)。如果非0(Unix时间戳或当前时刻的秒偏移)，到达终止时间后，客户端无法再获得这项内容。
- <bytes> 是随后的数据区块的字节长度，不包括用于分野的“\r\n”。它可以是0(这时后面跟随一个空的数据区块)。

在这一行以后，客户端发送数据区块。
<data block>\r\n
- <data block> 是大段的8位数据，其长度由前面的命令行中的<bytes>指定。

发送命令行和数据区块以后，客户端等待回复，可能的回复如下：
- “STORED\r\n”
表明成功.
- “NOT_STORED\r\n”
表明数据没有被存储，但不是因为发生错误。这通常意味着add 或 replace命令的条件不成立，或者，项目已经位列删除队列(参考后文的“delete”命令)。

取回命令
一行取回命令如下：
get <key>*\r\n
- <key>* 表示一个或多个键值，由空格隔开的字串
这行命令以后，客户端的等待0个或多个项目，每项都会收到一行文本，然后跟着数据区块。所有项目传送完毕后，服务器发送以下字串：
“END\r\n”
来指示回应完毕。
服务器用以下形式发送每项内容：
VALUE <key> <flags> <bytes>\r\n
<data block>\r\n
- <key> 是所发送的键名
- <flags> 是存储命令所设置的记号
- <bytes> 是随后数据块的长度，*不包括* 它的界定符“\r\n”
- <data block> 是发送的数据

如果在取回请求中发送了一些键名，而服务器没有送回项目列表，这意味着服务器没这些键名(可能因为它们从未被存储，或者为给其他内容腾出空间而被删除，或者到期，或者被已客户端删除)。

删除
命令“delete”允许从外部删除内容：
delete <key> <time>\r\n
- <key> 是客户端希望服务器删除的内容的键名
- <time> 是一个单位为秒的时间(或代表直到某一刻的Unix时间)，在该时间内服务器会拒绝对于此键名的“add”和“replace”命令。此时内容被放入delete队列，无法再通过“get”得到该内容，也无法是用“add”和“replace”命令(但是“set”命令可用)。直到指定时间，这些内容被最终从服务器的内存中彻底清除。
<time>参数是可选的，缺省为0(表示内容会立刻清除，并且随后的存储命令均可用)。
此命令有一行回应：
- “DELETED\r\n”
表示执行成功
- “NOT_FOUND\r\n”
表示没有找到这项内容

参考随后的“flush_all”命令使所有内容无效。

增加/减少
命令 “incr” 和 “decr”被用来修改数据，当一些内容需要替换、增加或减少时。这些数据必须是十进制的32位无符号整新。如果不是，则当作0来处理。修改的内容必须存在，当使用“incr”/“decr”命令修改不存在的内容时，不会被当作0处理，而是操作失败。

客户端发送命令行：
incr <key> <value>\r\n
或
decr <key> <value>\r\n
- <key> 是客户端希望修改的内容的建名
- <value> 是客户端要增加/减少的总数。

回复为以下集中情形：
- “NOT_FOUND\r\n”
指示该项内容的值，不存在。
- <value>\r\n ，<value>是增加/减少。
注意”decr”命令发生下溢：如果客户端尝试减少的结果小于0时，结果会是0。”incr” 命令不会发生溢出。

状态
命令"stats"被用于查询服务器的运行状态和其他内部数据。有两种格式，不带参数的：
stats\r\n
这会在随后输出各项状态、设定值和文档。另一种格式带有一些参数：
stats <args>\r\n
通过<args>，服务器传回各种内部数据，将memcached当前的运行信息全部统计出来。
stats item命令：用于查看条目状态。
stats slabs命令：查看内存情况。

各种状态
受到无参数的”stats”命令后，服务器发送多行内容，如下：
STAT <name> <value>\r\n
服务器用以下一行来终止这个清单：
END\r\n
在每行状态中，<name> 是状态的名字，<value> 使状态的数据。以下清单，是所有的状态名称，数据类型，和数据代表的含义。
在“类型”一列中，”32u”表示32位无符号整型，”64u”表示64位无符号整型，”32u:32u”表示用冒号隔开的两个32位无符号整型。

名称    类型    含义
pid    32u    服务器进程ID
uptime    32u    服务器运行时间，单位秒
time    32u    服务器当前的UNIX时间
version    string    服务器的版本号
rusage_user    32u:32u    该进程累计的用户时间
(秒:微妙)
rusage_system    32u:32u    该进程累计的系统时间
(秒:微妙)
curr_items    32u    服务器当前存储的内容数量
total_items    32u    服务器启动以来存储过的内容总数
bytes    64u    服务器当前存储内容所占用的字节数
curr_connections    32u    连接数量
total_connections    32u    服务器运行以来接受的连接总数
connection_structures    32u    服务器分配的连接结构的数量
cmd_get    32u    取回请求总数
cmd_set    32u    存储请求总数
get_hits    32u    请求成功的总次数
get_misses    32u    请求失败的总次数
bytes_read    64u    服务器从网络读取到的总字节数
bytes_written    64u    服务器向网络发送的总字节数
limit_maxbytes    32u    服务器在存储时被允许使用的字节总数

其它命令
“flush_all”命令有一个可选的数字参数。它总是执行成功，服务器会发送“OK\r\n”回应。它的效果是使已经存在的项目立即失效(缺省)，或在指定的时间后。此后执行取回命令，将不会有任何内容返回(除非重新存储同样的键名)。flush_all 实际上没有立即释放项目所占用的内存，而是在随后陆续有新的项目被储存时执行。flush_all 效果具体如下：它导致所有更新时间早于flush_all所设定时间的项目，在被执行取回命令时命令被忽略。
“version”命令没有参数：
version\r\n
在回应中，服务器发送：
“VERSION <version>\r\n”
<version> 是服务器的版本字串。
“quit”命令没有参数：
quit\r\n
接收此命令后，服务器关闭连接。不过，客户端可以在不再需要时，简单地关闭连接就行，并不一定需要发送这个命令。

UDP 协议
当来自客户端的连接数远大于TCP连接的上限时，可以使用基于UDP的接口。UDP接口不能保证传输到位，所以只有在不要求成功的操作中使用；比如被用于一个“get”请求时，会因不当的缓存处理而发生错误或回应有遗失。

每个UDP数据包都包含一个简单的帧头，数据之后的内容与TCP协议的描述类似。在执行所产生的数据流中，请求必须被包含在单独的一个UDP数据包中，但是回应可能跨越多个数据包。(只有“get”和“set”请求例外，跨越了多个数据包)

帧头有8字节长，如下(均由16位整数组成，网络字节顺序，高位在前)：

0-1 请求ID
2-3 序号
4-5 该信息的数据包总数
6-7 保留位，必须为0

请求ID有客户端提供。一般它会是一个从随机基数开始的递增值，不过客户端想用什么样的请求ID都可以。服务器的回应会包含一个和请求中的同样的ID。客户端使用请求ID来区分每一个回应。任何一个没有请求ID的数据包，可能是之前的请求遭到延迟而造成的，应该被丢弃。序号的返回是从0到n-1，n是该条信息的数据包数量。

可供参考的文档：

memcached全面剖析.pdf

memcached原理和使用详解.pdf

Using.memcached.2008.05.Josef.Finsel.文字版.pdf

memcached协议中英文对照.html