varchar存储规则

4.0版本以下,varchar(20),指的是20字节,如果存放UTF8汉字时,只能存6个(每个汉字3字节) 。
5.0版本以上,varchar(20),指的是20字符,无论存放的是数字、字母还是UTF8汉字(每个汉字3字节),都可以存放20个,最大大小是65532字节 。
Mysql4中最大也不过是20个字节,但是Mysql5根据编码不同,存储大小也不同。

varchar和char的区别

char是一种固定长度的类型,varchar则是一种可变长度的类型,它们的区别是: char(M)类型的数据列里,每个值都占用M个字节,如果某个长度小于M,MySQL就会在它的右边用空格字符补足。(在检索操作中那些填补出来的空格字符将被去掉)在varchar(M)类型的数据列里,每个值只占用刚好够用的字节再加上一个用来记录其长度的字节(即总长度为L+1字节)。

在MySQL中用来判断是否需要进行对数据列类型转换的规则:

1、在一个数据表里,如果每一个数据列的长度都是固定的,那么每一个数据行的长度也将是固定的。
2、只要数据表里有一个数据列的长度的可变的,那么每个数据行的长度都是可变的。
3、如果某个数据表里的数据行的长度是可变的,那么,为了节约存储空间,MySQL会把这个数据表里的固定长度类型的数据列转换为相应的可变长度类型。例外:长度小于4个字符的char数据列不会被转换为varchar类型。

MySQL中varchar最大长度是多少?

这不是一个固定的数字。本文简要说明一下限制规则。

限制规则

a) 存储限制

varchar 字段是将实际内容单独存储在聚簇索引之外,内容开头用1到2个字节表示实际长度(长度超过255时需要2个字节),因此最大长度不能超过65535。

b) 编码长度限制

字符类型若为gbk,每个字符最多占2个字节,最大长度不能超过32766。
字符类型若为utf8,每个字符最多占3个字节,最大长度不能超过21845。
若定义的时候超过上述限制,则varchar字段会被强行转为text类型,并产生warning。

c) 行长度限制

导致实际应用中varchar长度限制的是一个行定义的长度。 MySQL要求一个行的定义长度不能超过65535。若定义的表长度超过这个值,则提示

1
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs。

计算示例

举两个例说明一下实际长度的计算。

a) 若一个表只有一个varchar类型,如定义为

1
create table t4(c varchar(N)) charset=gbk;

则此处N的最大值为(65535-1-2)/2= 32766。
减1的原因是实际行存储从第二个字节开始’;
减2的原因是varchar头部的2个字节表示长度;
除2的原因是字符编码是gbk。

b) 若一个表定义为

1
create table t4(c int, c2 char(30), c3 varchar(N)) charset=utf8;

则此处N的最大值为 (65535-1-2-4-30*3)/3=21812
减1和减2与上例相同;
减4的原因是int类型的c占4个字节;
减30*3的原因是char(30)占用90个字节,编码是utf8。

如果被varchar超过上述的b规则,被强转成text类型,则每个字段占用定义长度为11字节,当然这已经不是“varchar”了。

则此处N的最大值为 (65535-1-2-4-30*3)/3=21812

1
2
3
create table t4(c int, c2 char(30), c3 varchar(21812)) ENGINE=InnoDB DEFAULT CHARSET=utf8;

create table t5(c int, c2 varchar(30), c3 varchar(21812)) ENGINE=InnoDB DEFAULT CHARSET=utf8

varchar(30)和char(30)最多能存放:

1
2
3
4
5
工在基工左基工在基顺工作奔大规模集成电路城工作东奔西走左夺工城鞯革城载模压地工魂牵梦萦栽土木工程魂牵梦萦栽植奇巧魂牵梦萦地厅城柑模压东奔西走苦村落模压革革柑可耕地村模压基栽魂牵梦基

aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111
1
CREATE TABLE `t` (`var` varchar(21844) default NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8

可以正常的执行。

1
CREATE TABLE `t` (`var` varchar(21845) default NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8
1
[Err] 1118 - Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs

执行有错误。

实战

这里有一道关于MySQL的题:

表设计如下

column name type
id mediumint
name varchar

问题是: MySQL5.1 , 在GBK字符环境下,这里的varchar最长能设多长?

正确答案是: 32764

那如果表设计为两个 varchar, 第一个长度设为300时,第二个varchar应该多长? –答案见本文最后面

要想搞明白是怎么算出来的,请仔细下面的解释:

官方文档上对 int 及 varchar 的说明如下:

Values in VARCHAR columns are variable-length strings. The length can be specified as a value from 0 to 255 before MySQL 5.0.3, and 0 to 65,535 in 5.0.3 and later versions.

看到这里,你以为上面的varchar长度是: 65535 /2=32767?

不对,因为官方文档后面又说:

In contrast to CHAR, VARCHAR values are stored as a one-byte or two-byte length prefix plus data. The length prefix indicates the number of bytes in the value.

很明白了,varchar会保留一至两个字节来存放长度信息,但到底是1Byte还是2Byte?

往后看:

A column uses one length byte if values require no more than 255 bytes, two length bytes if values may require more than 255 bytes.

你再来算一算varchar长度 最大为: (65535-2) /2 = 32766 ?

还是不对!

其实每一行的总长度是有限制的,即最大为65535.

Every table has a maximum row size of 65,535 bytes.

This maximum applies to all storage engines, but a given engine might have additional constraints that result in a lower effective maximum row size.

所以算varchar得把id的扣除:

(65535-3-2) /2 = 32765 ?

测试一下:

1
2
root@saker 05:27:28>create table t4(id mediumint, name varchar(32765));
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs

用32764测试一下:

1
2
root@saker 05:27:31>create table t4(id mediumint, name varchar(32764));
Query OK, 0 rows affected (0.16 sec)
1
2
3
4
5
6
7
root@saker 05:27:35>desc t4;
+-------+----------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+----------------+------+-----+---------+-------+
| id | mediumint(9) | YES | | NULL | |
| name | varchar(32764) | YES | | NULL | |
+-------+----------------+------+-----+---------+-------+

这说明还保留了1至2个字节来留其它控制信息。(在文档里面我没有找到说明,所以也不知道到底是1个还是2个byte)但我想到了一个方法来反推出来,我把id的类型从medium改成 int ,这时id的长度就从3变为4了,如果控制字节用了2Bytes,那varchar的长度还设为32764的话,显然是要报错的。。。

1
2
root@saker 05:29:14>create table t3(id int, name varchar(32764));
Query OK, 0 rows affected (0.18 sec)
1
2
3
4
5
6
7
root@saker 07:01:10>desc t3;
+-------+----------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+----------------+------+-----+---------+-------+
| id | int(11) | YES | | NULL | |
| name | varchar(32764) | YES | | NULL | |
+-------+----------------+------+-----+---------+-------+

这样应该能说明,控制位只有1个字节。

下面用这个结论来计算第二个问题:

那如果表设计为两个 varchar, 第一个长度设为300时,第二个varchar应该多长?

(65535-1-2-2-300*2) /2 = 32465

1
注: 1表示控制位占用的一个字节,两个2表示两个varchar的长度信息字节(因为两个varchar的长度都超过了255字节,所以长度信息字节都为2个字节),300*2表示varchar(300)在gbk编码下占用字节总数。

测试一下:

1
2
root@saker 07:09:23>create table t1(id varchar(300), name varchar(32465));
Query OK, 0 rows affected (0.15 sec)
1
2
3
4
5
6
7
8
root@saker 07:09:26>desc t1;
+-------+----------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+----------------+------+-----+---------+-------+
| id | varchar(300) | YES | | NULL | |
| name | varchar(32465) | YES | | NULL | |
+-------+----------------+------+-----+---------+-------+
2 rows in set (0.02 sec)

多一位都不行:

1
2
root@saker 07:08:12>create table t1(id varchar(300), name varchar(32466));
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs

最后 把以上所有知识综合起来:

有一个表:

column name type
id int
name1 char(20)
name2 varchar(100)
name3 varchar(? ? ?)

算一下:

(65535-1-1-2-4-20*2-100*2) /2 = 32643

1
注:一个1表示控制位占用的一个字节,一个1表示name2的保存varchar长度信息占用的一个字节,2表示name3的varchar长度信息占用的两个字节,4表示id的int类型占用的四个字节,20*2表示name1的char类型在gbk编码下最多占用的40个字节,100*2表示name2在gbk编码下占用的字节数。
1
2
root@saker 07:16:09>create table tt(id int, name1 char(20), name2 varchar(100), name3 varchar(32643));
Query OK, 0 rows affected (0.18 sec)
1
2
3
4
5
6
7
8
9
10
root@saker 07:16:12>desc tt;
+-------+----------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+----------------+------+-----+---------+-------+
| id | int(11) | YES | | NULL | |
| name1 | char(20) | YES | | NULL | |
| name2 | varchar(100) | YES | | NULL | |
| name3 | varchar(32643) | YES | | NULL | |
+-------+----------------+------+-----+---------+-------+
4 rows in set (0.00 sec)
1
2
3
root@saker 07:15:08>create table tt(id int, name1 char(20), name2 varchar(100), name3 varchar(32644));

ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. You have to change some columns to TEXT or BLOBs

所以设计表的时候,这个要注意了,每一行是有长度限制的。

Mysql数据类型占用字节数(摘自Mysql官网)

Numeric Type

Data Type Storage Required
TINYINT 1 byte
SMALLINT 2 bytes
MEDIUMINT 3 bytes
INT,INTEGER 4 bytes
BIGINT 8 bytes
FLOAT(p) 4 bytes if 0 <= p <= 24, 8 bytes if 25 <= p <= 53
FLOAT 4 bytes
DOUBLE [PRECISION], [REAL] 8 bytes
DECIMAL(M,D), NUMERIC(M,D) Varies; see following discussion
BIT(M) approximately (M+7)/8 bytes

Date and Time Type

For TIME, DATETIME, and TIMESTAMP columns, the storage required for tables created before MySQL 5.6.4 differs from tables created from 5.6.4 on. This is due to a change in 5.6.4 that permits these types to have a fractional part, which requires from 0 to 3 bytes.

Data Type Storage Required Before MySQL 5.6.4 Storage Required as of MySQL 5.6.4
YEAR 1 byte 1 byte
DATE 3 bytes 3 bytes
TIME 3 bytes 3 bytes + fractional seconds storage
DATETIME 8 bytes 5 bytes + fractional seconds storage
TIMESTAMP 4 bytes 4 bytes + fractional seconds storage

String Type

In the following table, M represents the declared column length in characters for nonbinary string types and bytes for binary string types. L represents the actual length in bytes of a given string value.

Data Type Storage Required
CHAR(M) The compact family of InnoDB row formats optimize storage for variable-length character sets. See COMPACT Row Format Storage Characteristics. Otherwise, M ×w bytes, <= M <= 255, where w is the number of bytes required for the maximum-length character in the character set.
BINARY(M) M bytes, 0 <= M <= 255
VARCHAR(M), VARBINARY(M) L + 1 bytes if column values require 0 − 255 bytes, L + 2 bytes if values may require more than 255 bytes
TINYBLOB, TINYTEXT L + 1 bytes, where L < 28
BLOB, TEXT L + 2 bytes, where L < 216
MEDIUMBLOB, MEDIUMTEXT L + 3 bytes, where L < 224
LONGBLOB, LONGTEXT L + 4 bytes, where L < 232
ENUM(‘value1’,’value2’,…)` 1 or 2 bytes, depending on the number of enumeration values (65,535 values maximum)
SET(‘value1’,’value2’,…)` 1, 2, 3, 4, or 8 bytes, depending on the number of set members (64 members maximum)