MySQL的字元集和字元編碼筆記

2017-11-22 23:50:00

比較初級，

深入的請參考盧sir的部落格：

http://cenalulu.github.io/linux/character-encoding/

http://cenalulu.github.io/mysql/mysql-mojibake/

GBK 和UTF8的實際在系統裡面的存放方式：

1、GBK：

> SELECT hex(convert('你好' using gbk));

+----------------------------------+

| hex(convert('你好' using gbk)) |

|----------------------------------|

| C4E3BAC3 |

GBK字元集是按照4個長度來分割的，是以得出對應關系：

你 --> C4E3

好 --> BAC3

2、UTF-8：

> SELECT hex(convert('你好' using utf8));

+-----------------------------------+

| hex(convert('你好' using utf8)) |

|-----------------------------------|

| E4BDA0E5A5BD |

UTF8字元集是按照6個長度來分割的，是以得出對應關系：

你 --> E4BDA0

好 --> E5A5BD

這樣我們就能發現不同的地方了。假如我們用的是UTF-8存進去的"你好"（對應的底層存儲為：E4BDA0E5A5BD），但是使用GBK的方式來讀取的話，GBK會對E4BDA0E5A5BD按照每4個bit長度切分，最終切分成E4BD A0E5 A5BD 這個樣子。

（如下）

> SELECT CONVERT( unhex('E4BDA0E5A5BD') USING GBK);

+-------------------------------------------+

| CONVERT( unhex('E4BDA0E5A5BD') USING GBK) |

| 浣犲ソ | ---> 采用GBK的方式讀出來就成亂碼了

> SELECT hex(convert('浣' using gbk));

+-------------------------------+

| hex(convert('浣' using gbk)) |

| E4BD |

> SELECT hex(convert('犲' using gbk));

| hex(convert('犲' using gbk)) |

| A0E5 |

> SELECT hex(convert('ソ' using gbk));

| hex(convert('ソ' using gbk)) |

| A5BD |

補充，将16進制的編碼反推成UTF8編碼的漢字：

> SELECT CONVERT( unhex('E4BDA0E5A5BD') USING utf8);

+--------------------------------------------+

| CONVERT( unhex('E4BDA0E5A5BD') USING utf8) |

| 你好 |

本文轉自 lirulei90 51CTO部落格，原文連結：http://blog.51cto.com/lee90/1928024，如需轉載請自行聯系原作者

MySQL的字元集和字元編碼筆記

繼續閱讀

vsftp虛拟多使用者多權限一鍵部署腳本

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Ubuntu14.04 LTS下安裝mongodb

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

配置網頁内容通路

手動安裝Intel network I217-LM網卡的Linux驅動

禁止ubuntu系統彈出報錯界面

MySQL的4種隔離級别？出現問題

Ubuntu Linux下Apache的配置檔案

neo4j之cypher使用文檔

mysql使用source指令導入.sql檔案

samba伺服器的功能

【Linux】UDP廣播封包接收速率問題

Linux裝置模型（中）之上層容器

PowerPC平台 Linux移植三