一個關於MySQL指定編碼實現的小坑

寫在前面

環境:MySQL5.7+,MySQL數據庫字符編碼實現為utf8,表也為utf8

場景:微信授權獲取用戶信息(包括昵稱)並保存到數據庫,有的用戶成功了,少數用戶卻失敗了

 

那麼為什麼會失敗呢? 

貼上報錯日誌

Incorrect string value: '\xF0\x9F\x98\x98\xF0\x9F...' for column 'nickname' at row 1

是因為失敗的用戶微信昵稱中帶有emoji符號導致的

 

剖析:

MySQL支持多種字符編碼集,如UTF-8、GB2312、GBK等

可以通過 SHOW CHARSET 命令查看。

通常我們會建議使用 UTF-8 作為默認的字符編碼方式。

從上圖我們可以看到,MySQL數據庫有兩套 UTF-8 編碼實現。

 

  • utf8:utf8 編碼只支持三個位元組以內。在 utf8 編碼中,中文是佔了3個位元組,其他的英文、數字、符號都是佔1個位元組。但是emoji符號佔4個位元組,一些比較複雜的文字、繁體字也是佔4個位元組。

 

  • utf8mb4:UTF-8編碼的完整實現。最多可支持4個位元組,所以,可以用來存儲emoji符號。

 

查閱資料,官方解釋:

 

最後

Tips:如果有需要保存emoji符號的字段,記得一定要指定編碼為 utf8mb4 。