一個關於MySQL指定編碼實現的小坑
寫在前面
環境:MySQL5.7+,MySQL數據庫字符編碼實現為utf8,表也為utf8
場景:微信授權獲取用戶信息(包括昵稱)並保存到數據庫,有的用戶成功了,少數用戶卻失敗了
那麼為什麼會失敗呢?
貼上報錯日誌
Incorrect string value: '\xF0\x9F\x98\x98\xF0\x9F...' for column 'nickname' at row 1
是因為失敗的用戶微信昵稱中帶有emoji符號導致的
剖析:
MySQL支持多種字符編碼集,如UTF-8、GB2312、GBK等
可以通過 SHOW CHARSET 命令查看。
通常我們會建議使用 UTF-8 作為默認的字符編碼方式。
從上圖我們可以看到,MySQL數據庫有兩套 UTF-8 編碼實現。
- utf8:utf8 編碼只支持三個位元組以內。在 utf8 編碼中,中文是佔了3個位元組,其他的英文、數字、符號都是佔1個位元組。但是emoji符號佔4個位元組,一些比較複雜的文字、繁體字也是佔4個位元組。
- utf8mb4:UTF-8編碼的完整實現。最多可支持4個位元組,所以,可以用來存儲emoji符號。
查閱資料,官方解釋:
最後
Tips:如果有需要保存emoji符號的字段,記得一定要指定編碼為 utf8mb4 。