MySQL字符集支持问题
2012-10-12 15:21:09 阿炯

什么是字符集
计算中的字符文字集合(每个自负文字分配一个对应的数字),将字符集中的文字符号进行编码以便于计算机识别处理。字符编码就是如何在计算机中存储表示字符集中每个字符文字对应的数字。

发展历程
ASCII与字符集混乱时代

20世纪60年代初,美国标准化组织ANSI发布了第一个字符集 ASCII 后来演变成了国际标准 ISO-646。ASCII采用7位编码,包含大小写英文字母、阿拉伯数字和标点以及33个控制符号。之后制定的字符集大部分都兼容ASCII编码。随后各国、个公司纷纷制定自己的字符集标准,比如:GBK、GB2312-80、ISO-8859系列等。到了20世界80年代,大家都崩溃了。这么多字符集很难进行软件国际化,然后大家就想着能不能统一字符编码。

Unicode
为了统一这个字符集,1984年ISO的一些成员国开始发起制定新的国际字符集标准,用来容纳世界各国的语言文字,然后UCS(ISO-10646)诞生了。但是这个UCS遭到了美国很多计算机公司的反对,1988年联合微软、苹果、IBM、SUN等公司成立Unicode 协会,并于1991年推出Unicode1.0。

然后ISO和Unicode协会为了统一编码标准,1991年10月达成协议,ISO将Unicode编码并入UCS的0组0面中(简称为BMP,UCS编码划分为group、plane、row、cell)。因为是0组0面,所以就不需要存储了,2个字节进行编码就足以,所以就理所当然的叫做UCS-2。为了能使用BMP以外的文字,Unicode提出了UTF-16的解决方案,将BMP外的文字(包含组面共32位),转为两个16位的Unicode编码。

但是问题又来了,当时的计算机和网络智能处理但字节的数据流,为了让UTF-16更好的兼容,将BMP内外的文字转换成了1-4字节的编码,不同数量字节的编码表示UCS中不同范围的编码。

中文字符集
GB2312-80 于1980年根据ISO/IEC2022提供的字符编码,定义为双字节字符集。
GB13000 于1993年在GB2312-80基础上扩充了大量文字,但并没有受到业界支持。
GBK 于1995年在GB2312-80基础上扩充了大量文字,同时兼容GB2312。同时因为得到微软支持而流行。
GB18030发布于2000年,分为2字节和4字节编码,2字节部分与GBK保持一致。所以GB18030是GBK的超集。


MySQL的字符集支持(Character Set Support)有两个方面:
字符集(Character set)和排序方式(Collation)。

对于字符集的支持细化到四个层次:
服务器(server),数据库(database),数据表(table)和连接(connection)。

MySQL中的字符集

查看可用字符集
SHOW CHARACTER SET;

结果可以分为字符集和校对规则两部分。同一个字符集可以对应多个校对规则。

校对规则
_ci 结尾的校对规则对大小写不敏感。
_cs 结尾的校对规则对大小写敏感
_bin 结尾的校对规则只比较原始编码,不比较编码后的值。

字符集设定
MySQL的字符集设定分为4个级别:服务器、数据库、表、字段
服务器级别需要在my.cnf中设置 character-set-server 选项或者在启动的时候指定。
数据库级别需要在创建的时候通过charset指定。
表级别和字符级别需要在创建表的时候制定字符集和校对规则。

会话字符集
character_set_client 客户端字符集和校对规则
character_set_connection 会话连接字符集和校对规则
character_set_results 返回结果的字符集和校对规则

通常使用 SET NAMES xxx 的方式对三个同时设定,或者在SQL语句中使用 _字符集名称来强制使用指定字符集:
SELECT _gbk "我是四川人"

1.MySQL默认字符集
MySQL对于字符集的指定可以细化到一个数据库,一张表,一列,应该用什么字符集。

但是,传统的 程序在创建数据库和数据表时并没有使用那么复杂的配置,它们用的是默认的配置,那么,默认的配置从何而来呢?

(1)编译MySQL 时,指定了一个默认的字符集,这个字符集是 latin1;
(2)安装MySQL 时,可以在配置文件 (my.ini) 中指定一个默认的的字符集,如果没指定,这个值继承自编译时指定的;
(3)启动mysqld 时,可以在命令行参数中指定一个默认的的字符集,如果没指定,这个值继承自配置文件中的配置,此时 character_set_server 被设定为这个默认的字符集;
(4)当创建一个新的数据库时,除非明确指定,这个数据库的字符集被缺省设定为character_set_server;
(5)当选定了一个数据库时,character_set_database 被设定为这个数据库默认的字符集;
(6)在这个数据库里创建一张表时,表默认的字符集被设定为 character_set_database,也就是这个数据库默认的字符集;
(7)当在表内设置一栏时,除非明确指定,否则此栏缺省的字符集就是表默认的字符集;

简单的总结一下,如果什么地方都不修改,那么所有的数据库的所有表的所有栏位的都用 latin1 存储,不过我们如果安装 MySQL,一般都会选择多语言支持,也就是说,安装程序会自动在配置文件中把 default_character_set 设置为 UTF-8,这保证了缺省情况下,所有的数据库的所有表的所有栏位的都用 UTF-8 存储。

2.查看默认字符集(默认情况下,mysql的字符集是latin1(ISO_8859_1)
通常,查看系统的字符集和排序方式的设定可以通过下面的两条命令:
mysql> SHOW VARIABLES LIKE 'character%';
+--------------------------+---------------------------------+
| Variable_name            | Value|
+--------------------------+---------------------------------+
| character_set_client     | latin1|
| character_set_connection | latin1|
| character_set_database   | latin1|
| character_set_filesystem | binary|
| character_set_results    | latin1|
| character_set_server     | latin1|
| character_set_system     | utf8|
| character_sets_dir       | D:"mysql-5.0.37"share"charsets" |
+--------------------------+---------------------------------+

mysql> SHOW VARIABLES LIKE 'collation_%';
+----------------------+-----------------+
| Variable_name        | Value|
+----------------------+-----------------+
| collation_connection | utf8_general_ci |
| collation_database   | utf8_general_ci |
| collation_server     | utf8_general_ci |
+----------------------+-----------------+

3.修改默认字符集
(1) 最简单的修改方法,就是修改mysql的my.ini文件中的字符集键值,
如 default-character-set = utf8
 character_set_server =  utf8

修改完后,重启mysql的服务,service mysql restart
使用 mysql> SHOW VARIABLES LIKE 'character%';查看,发现数据库编码均已改成utf8
+--------------------------+---------------------------------+
| Variable_name            | Value|
+--------------------------+---------------------------------+
| character_set_client     | utf8|
| character_set_connection | utf8|
| character_set_database   | utf8|
| character_set_filesystem | binary|
| character_set_results    | utf8|
| character_set_server     | utf8|
| character_set_system     | utf8|
| character_sets_dir       | D:"mysql-5.0.37"share"charsets" |
+--------------------------+---------------------------------+

(2) 还有一种修改字符集的方法,就是使用mysql的命令
mysql> SET character_set_client = utf8 ;
mysql> SET character_set_connection = utf8 ;
mysql> SET character_set_database = utf8 ;
mysql> SET character_set_results = utf8 ;
mysql> SET character_set_server = utf8 ;
mysql> SET collation_connection = utf8 ;
mysql> SET collation_database = utf8 ;
mysql> SET collation_server = utf8 ;

一般就算设置了表的默认字符集为utf8并且通过UTF-8编码发送查询,你会发现存入数据库的仍然是乱码。问题就出在这个connection连接层上。解决方法是在发送查询前执行一下下面这句:
SET NAMES 'utf8';

它相当于下面的三句指令:
SET character_set_client = utf8;
SET character_set_results = utf8;
SET character_set_connection = utf8;

小结:因此,使用什么数据库版本,不管是3.x,还是4.0.x还是4.1.x,其实对我们来说不重要,重要的有二:
1) 正确的设定数据库编码.MySQL4.0以下版本的字符集总是默认ISO8859-1,MySQL4.1在安装的时候会让你选择。如果你准备使用UTF-8,那么在创建数据库的时候就要指定好UTF-8(创建好以后也可以改,4.1以上版本还可以单独指定表的字符集)

2) 正确的设定数据库connection编码.设置好数据库的编码后,在连接数据库时候,应该指定connection的编码,比如使用jdbc连接时,指定连接为utf8方式.

3、修改配置文件中的字符集
To set the default to UTF-8, you want to add the following to my.cnf
[client]
default-character-set=utf8

[mysql]
default-character-set=utf8

[mysqld]
default-character-set = utf8    
collation-server = utf8_unicode_ci
init-connect='SET NAMES utf8'
character-set-server = utf8

On MySQL 5.5 I have in my.cnf
[mysqld]
init_connect='SET collation_connection = utf8_unicode_ci'
init_connect='SET NAMES utf8'
character-set-server=utf8
collation-server=utf8_unicode_ci
skip-character-set-client-handshake

Result is
mysql> show variables like "%character%";show variables like "%collation%";

To set the default to UTF-8, you want to add the following to my.cnf

[client]
default-character-set=utf8

[mysql]
default-character-set=utf8

[mysqld]
default-character-set = utf8    
collation-server = utf8_unicode_ci
init-connect='SET NAMES utf8'
character-set-server = utf8

Restart MySQL.

For making sure, your MySQL is UTF8, Run the following queries in your MySQL prompt:

First query:
mysql> show variables like 'char%';

The output should look like:
 +--------------------------+---------------------------------+
 | Variable_name            | Value|
 +--------------------------+---------------------------------+
 | character_set_client     | utf8|
 | character_set_connection | utf8|
 | character_set_database   | utf8|
 | character_set_filesystem | binary|
 | character_set_results    | utf8|
 | character_set_server     | utf8|
 | character_set_system     | utf8|
 | character_sets_dir       | /usr/local/mysql/share/charsets/|
 +--------------------------+---------------------------------+

Second query:
mysql> show variables like 'collation%';

and the query output is
 +----------------------+-----------------+
 | Variable_name        | Value           |
 +----------------------+-----------------+
 | collation_connection | utf8_general_ci |
 | collation_database   | utf8_unicode_ci |
 | collation_server     | utf8_unicode_ci |
 +----------------------+-----------------+

或者
mysql> show variables like "%character%";show variables like "%collation%";
 
On MySQL 5.5 I have in my.cnf

[mysqld]
init_connect='SET collation_connection = utf8_unicode_ci'
init_connect='SET NAMES utf8'
character-set-server=utf8
collation-server=utf8_unicode_ci
skip-character-set-client-handshake

Result is
mysql> show variables like "%character%";show variables like "%collation%";

[client]
port = 3306
socket = mysql
default-character-set=utf8

[mysqld]
port = 3306
socket = mysql
skip-locking
init_connect='SET collation_connection = utf8_general_ci'
init_connect='SET NAMES utf8'
default-character-set=utf8
character-set-server = utf8
collation-server = utf8_general_ci

[mysql]
default-character-set=utf8

MySQL (hex、unhex)转换编码的解决方法

在utf8的mysql下
得到中文‘炯帅’的gbk下的16进制编码
mysql> SELECT hex(CONVERT( '炯帅' USING gbk ));
-> BEBCCBA7

反推gbk的16进制编码,取回中文
mysql> SELECT CONVERT(unhex('BEBCCBA7') USING gbk);
-> '炯帅'

从gbk的16进制编码直接转成utf8的16进制编码
mysql> SELECT HEX(CONVERT(CONVERT(unhex('BEBCCBA7') USING gbk) USING utf8));
-> 'E782AFE5B885'

注意在文本里16进制必须在头部加上0x,例如:0xBEBCCBA7才能正常使用。