神奇的 SQL 之 ICP → 索引條件下推

2020 年 3 月 9 日
筆記

開心一刻

　　樓主：來，我們先排練一遍

　　小夥伴們：好

　　嘿、哈、嚯

　　樓主：非常好，就是這個節奏，我們開始吧

　　樓主：啊、啊、啊，疼！你們是不是故意的？

回表與覆蓋索引

　　正式講 ICP 之前了，我們先將相關的概念捋一捋，知道的就當回顧，不知道的就當了解了，這有助於對 ICP 的理解

　　建個示例表 tbl_index

CREATE TABLE tbl_index (
c1 INT,
c2 INT,
c3 CHAR(1),
PRIMARY KEY(c1),
KEY idx_c2 (c2)
);

　　覆蓋索引

　　　　如果 where 條件的列和 select 的列都在一個索引中，通過這個索引就可以完成查詢，這就叫就叫覆蓋索引；當然，覆蓋索引基本針對的是組合索引（InnoDB 的聚簇索引有點特殊，具體可以看下面的圖）

　　　　針對上面的 tbl_index， select c2 from tbl_index where c2 = 4; 是覆蓋索引查詢，但是這條 SQL 沒有意義，如果我們在 tbl_index 表上增加索引 index idx_c2_c3 (c2,c3) ，那麼 select c3 from tbl_index where c2 = 4; 走覆蓋索引查詢還是很有意義的，那問題又來了，覆蓋索引的意義何在？我們往下看

　　回表

　　　　通過某個索引無法直接完成 SQL 查詢（where 條件的列和 select 的列不全部存在於任何一個索引中），那麼此時需要獲取完整的數據記錄來完成此次查詢，從索引項記錄到獲取對應的完整數據記錄的過程就叫回表；概念可能說的有些抽象，我們結合 MySQL 來看看具體什麼是回表

　　　　InnoDB 的回表

　　　　InnoDB 的索引結構有些特殊，非聚簇索引（二級索引）回表到聚簇索引的過程類似如下

　　　　InnoDB的聚簇索引即數據，索引和數據是存在一起的；那麼直接走聚簇索引查詢的 SQL 是不存在回表一說的，比如 select * from tbl_index where c1 = 10; ，只有從二級索引出發，並且二級索引獨自完成不了查詢的時候才會回表到聚簇索引完成查詢

　　　　MyISAM 的回表

　　　　有這樣一種說法： MyISAM 中的索引都是二級索引，其實說的是聚簇索引和二級索引的結構基本一致，只是聚簇索引有個唯一性約束

　　　　MyISAM 聚簇索引和二級索引，以及它們的回表過程類似如下

　　　　MyISAM 的回表過程指的是根據葉子節點中的數據記錄的地址來獲取完整記錄的過程，無論是聚簇索引還是二級索引都可能存在回表的過程；MyISAM 的回表與 InnoDB 還是有差別的

　　無論是 InnoDB 的回表還是 MyISAM 的回表，很有可能會造成額外的磁碟 IO，這會嚴重影響查詢效率，覆蓋索引的目的就是盡量能夠一次完成 SQL 查詢，避免有回表過程，從而提高效率

　　如何確認 MySQL 是進行了覆蓋索引查詢，還是進行了回表查詢？

　　看 MySQL 的執行計劃，如果 Extra 中只有 using index 則說明使用了覆蓋索引查詢，如果 Extra 中出現了 using index condition 或 using index & using where 則說明進行了回表查詢

ICP

　　Index Condition Pushdown，MySQL 5.6 中引入的一種優化策略

　　那麼究竟是將什麼從哪 Push Down 到哪，優化了什麼？要弄清楚這 4 個問題，我們需要先弄清楚 where 條件的提取與應用，具體可查看：神奇的 SQL 之 WHERE 條件的提取與應用

　　where 條件會被提取成 3 部分： Index Key，Index Filter，Table Filter ，在 MySQL 5.6 之前，並不區分 Index Filter 與 Table Filter，統統將 Index First Key 與 Index Last Key 範圍內的索引記錄，回表讀取完整記錄，然後返回給 MySQL Server 層進行過濾，而在 MySQL 5.6 之後，Index Filter 與 Table Filter 分離，Index Filter 下降到引擎層（InnoDB和MyISAM）的索引層面進行過濾，減少了回表與返回 MySQL Server 層的記錄交互開銷，提高了 SQL 的執行效率

　　ICP 優化過程

　　　　假設我們有表： tbl_icp

create table tbl_icp (a int primary key, b int, c int, d int, e varchar(50));  create index idx_bcd on tbl_icp(b, c, d);  insert into tbl_icp values (4,3,1,1,'a');  insert into tbl_icp values (1,1,1,2,'d');  insert into tbl_icp values (8,8,7,8,'h');  insert into tbl_icp values (2,2,1,2,'g');  insert into tbl_icp values (5,2,2,5,'e');  insert into tbl_icp values (3,3,2,1,'c');  insert into tbl_icp values (7,4,0,5,'b');  insert into tbl_icp values (6,5,2,4,'f');

View Code

　　　　若沒有使用 ICP，則 SQL 查詢類似如下

　　　　沒有使用 ICP 時，引擎層會將滿足 Index Key 範圍限制的所有數據記錄（示例中一共 6 條）逐條返回給 Server 層，然後由 server 層應用 Index Filter 和 Table Filter （MySQL 5.6 之前不區分 Index Filter 和 Table Filter），最後將滿足條件的數據返回給客戶端；

　　　　若使用 ICP，則 SQL 查詢類似如下

　　　　使用了 ICP，Server 層會將 Index Filter 下推到引擎層，引擎層在對 Index First Key 與 Index Last Key 範圍內的索引項逐條進行過濾的時候，會應用上 Index Filter，對不滿足 Index Filter 條件的索引項直接過濾掉，無需回表操作，也無需返回給 Server 層，從而提供執行效率；上圖中的索引項： 3 1 1 、 3 2 1 不滿足 Index Filter 中的 d != 1 ， 4 0 5 不滿足 c > 0 ，所以這 3 個索引項無需進行回表操作，也不需要返回給 Server 層

　　相信到這裡，大家對 ICP 的 4 個問題應該就比較清楚了

　　ICP 的適用條件

　　　　雖說 ICP 能提高 SQL 執行效率，但也不是任何情況下都適用的，它只適用於某些情況

　　　　1、當 SQL 需要全表訪問時，ICP 的優化策略可用於 range, ref, eq_ref, ref_or_null 類型的數據訪問方式

　　　　2、只適用於 InnoDB 和 MyISAM 兩種存儲引擎

　　　　3、在 InnoDB 中，ICP 只適用於二級索引

　　　　　　ICP 的目的就是為了減少回表導致的磁碟 I/O，而 InnoDB 的聚簇索引的葉子節點存放的就是完整的數據記錄，只要索引數據被讀到記憶體了，那麼索引項對應的完整數據記錄也就讀到記憶體了，那麼通過索引項獲取數據記錄的過程就在記憶體中進行了，無需進行磁碟 I/O；也就說聚簇索引上應用 ICP，不會減少磁碟 I/O，也就沒有使用的意義了

　　　　4、不支援覆蓋索引

　　　　　　其實和第 3 點一樣，因為覆蓋索引無需回表，ICP 也就沒意義了

　　　　5、不支援子查詢條件的下推

　　　　6、不支援存儲過程條件、觸發器條件的下推

　　至於 ICP 的優化效果，取決於在存儲引擎內通過 ICP 篩選掉的數據的比例，過濾掉的數據比例大，那就性能提升大，反之則性能提升小

總結

　　1、索引覆蓋與回表

　　　　這兩個往往是一起來考慮的，因為覆蓋索引的目的就是減少因回表產生的磁碟 I/O，從而提高執行效率

　　　　在實際應用中，我們往往也需要考慮儘可能用覆蓋索引來完成我們的 SQL 查詢

　　2、ICP的四個問題

　　　　將什麼從哪 Push Down 到哪，優化了什麼

　　　　將 Index Filter 從 Server 層 Push Down 到了引擎層，減少了因回表產生的磁碟 I/O，也減少了與 Server 層的交互，提高了 SQL 執行效率

　　3、疑問點

　　　　為什麼這麼明顯的優化策略到 MySQL 5.6 才引入，個人感覺很容易就能考慮到呀，MySQL 的開發者們是腫么肥事？

　　　　可能是樓主在巨人的肩膀上，站著說話不腰疼吧……

參考

　　Index Condition Pushdown Optimization

　　Index Condition Pushdown

　　MySQL的索引