詳解GaussDB(DWS) explain分散式執行計劃

2020 年 10 月 20 日
筆記
程式設計師之家

摘要：本文主要介紹如何詳細解讀GaussDB(DWS)產生的分散式執行計劃，從計劃中發現性能調優點。

前言

執行計劃(又稱解釋計劃)是資料庫執行SQL語句的具體步驟，例如通過索引還是全表掃描訪問表中的數據，連接查詢的實現方式和連接的順序等。如果 SQL 語句性能不夠理想，我們首先應該查看它的執行計劃。本文主要介紹如何詳細解讀GaussDB(DWS)產生的分散式執行計劃，從計劃中發現性能調優點。

1、執行運算元介紹

要讀懂執行計劃，首先要知道資料庫執行運算元的概念：

下面重點介紹下基於sharing nothing的分散式計劃中最重要的一類運算元——STREAM運算元

三種類型的stream運算元

1) Gather Stream (N:1) – 每個源結點都將其數據發送給目標結點

2) Redistribute Stream (N:N) – 每個源節點將其數據根據連接條件計算Hash值，根據重新計算的Hash值進行分布，發給對應的目標節點

3) Broadcast Stream (1:N) – 由一個源節點將其數據發給N個目標節點

其中1）主要用於CN與DN間的數據交換，2）與3）主要用於DN間的數據交換

2、EXPLAIN用法

SQL執行計劃是一個節點數，顯示執一條SQL語句執行時的詳細步驟。每一個步驟是一個資料庫運算符，也叫作一個執行運算元。使用explain命令可以查看優化器為每個查詢生成的具體執行計劃。

1) EXPLAIN的語法

其中，option中COSTS與NODES的默認值為ON，其他參數默認為OFF。

說明：

a) EXPLAIN + QUERY並不會真正執行，只會將計劃列印出來，指定option中的ANALYZE可以進行實際執行

b) PERFORMANCE 選項默認會將所有的選項置為ON，即顯示所有的執行資訊。

c) CPU/BUFFER/DETAIL 選項依賴於ANALYZE，只有ANALYZE置為ON的時候，才能使用這幾個選項。

d) DETAIL選項用來控制輸出，DETAIL 置為ON時，會顯示各個DN上具體的執行資訊；DATAIL 置為OFF時，顯示所有DN的匯總資訊，即最大最小值資訊。

2) EXPLAIN顯示格式

GaussDB中提供了兩種顯示格式（normal/pretty），通過設置參數explain_perf_mode進行控制。其中，normal格式為默認的顯示格式。

normal格式如下：

pretty格式如下：

改進後的顯示格式，層次清晰，計劃包含了plan node id，性能分析會更加簡單直接。

使用之前可以使用show explain_perf_mode;來查看當前資料庫使用的顯示風格。

同時可以使用set explain_perf_mode=pretty/normal;來設置輸出的格式。

3、示例計劃解讀（每個運算元資源消耗、耗時等等）

1）四中常見類型計劃

建表語句：

a) FQS計劃，完全下推，下發query

兩表JOIN，且其連接條件為各表的分布列，在關閉stream運算元的情況下，CN會直接將該語句發送至各DN執行，最後結果在CN匯總。

b) 非FQS計劃，部分語句下推

兩表JOIN，且連接條件中包含非分布列，此時在關閉stream運算元的情況下，CN會將基表掃描語句下發至各DN，然後在CN上進行JOIN。

c) Stream計劃，DN之間無數據交換

兩表JOIN，且連接條件為各表的分布列，因此各DN無需數據交換。CN生成stream計劃後，將除Gather Stream的計划下發給DN執行，在各個DN上進行基表掃描，並進行哈希連接後，發送給CN。

d) Stream計劃，DN之間存在數據交換

兩表JOIN，且連接條件包含非分布列，在開啟stream運算元的情況下，會生成stream計劃，其DN間存在數據交換。此時對於tt02表，會在各DN進行基表掃描，掃描後會通過Redistribute Stream運算元，按照JOIN條件中的tt02.c1進行哈希計算後重新發送給各DN，然後在各DN上做JOIN，最後匯總到CN。

2) explain performance詳解

a) 執行計劃

•id：執行運算元節點編號。

•operation：具體的執行節點運算元名稱。

•A-time:各DN相應運算元執行時間，[]中左側為最小值，右側為最大值，包括下層運算元執行時間。

•A-rows：相應運算元輸出的全局總行數。

•E-rows：每個運算元估算的輸出行數。

•Peak Memory：各DN相應運算元消耗記憶體峰值，[]中左側為最小值，右側為最大值。

•E-memory：DN上每個運算元估算的記憶體使用量，只有DN上執行的運算元會顯示。某些場景會在估算的記憶體使用量後使用括弧顯示該運算元在記憶體源充足下可以自動擴展的記憶體上限。

•E-width：每個運算元輸出元組的估算寬度。

•E-costs：每個運算元估算的執行代價。

b) 謂詞過濾

顯示對應執行運算元節點的過濾條件

c) 記憶體使用

主要顯示CN的最大記憶體用量、DN最大記憶體用量、各運算元的最大記憶體用量、各運算元預估記憶體用量、Stream執行緒的啟動以及收發時間。

d) Targetlist Information

各個運算元對應的輸出目標列資訊。

e) DN資訊

各運算元的執行時間、Buffer、CPU資訊

f) 自定義資訊

CN與DN之間的建連資訊、DN與DN之間的建連資訊。

g) 匯總資訊

DN執行器開始時間，[min_node_name, max_node_name] : [min_time, max_time]
DN執行器結束時間，[min_node_name, max_node_name] : [min_time, max_time]
Remote query poll time：接收結果時用於poll等待的時間
CN執行器開始、運行及結束時間
網路流量，stream運算元發送的數據量
優化器執行期時間
查詢ID
總執行時間

h) 執行時間介紹

每個運算元的執行資訊都包含三個部分：

其中：

dn_6001_6002/dn_6003_6004 表示具體執行的節點資訊，括弧中的資訊是實際的執行資訊
actual time=0.013..2290.971 表示實際的執行時間

第一個數字表示執行時進入當前運算元到輸出第一條數據所花費的時間

第二個數字為輸出所有數據的總執行時間

注意：在整個計劃中，除了葉子節點的執行時間是運算元本身的執行時間，其餘運算元的執行時間均包含子節點的執行時間。

在該計劃中，7號節點和9號節點為葉子節點，其餘節點均為非葉子簡介。1號節點時頂層節點，所以該節點的執行時間就可以作為整個查詢的執行時間。

rows=2001550 表示當前運算元輸出數據為2001550行；
loops=1 表示當前運算元的只執行了一次，而對於分區表的掃描（7號節點）來說：

該層掃描運算元的loops為7，對於分區表，每一個分區表的掃描就是一次完整的掃描操作，當切換到下一個分區的時候，又是一次新的查詢操作，查詢該表定義如下：

Inventory表有7個分區，所以就執行了7次表掃描操作，因此loops=7。

i) CPU資訊介紹

每個運算元執行的過程都有CPU資訊，其中cyc代表的是CPU的周期數，ex cyc表示的是當前運算元的周期數，不包含其子節點；inc cyc是包含子節點的周期數；ex row是當前運算元輸出的數據行數；ex c/r則是ex cyc/ex row得到的每條數據所用的平均周期數。

j) Buffer資訊介紹

buffers顯示緩衝區資訊，包括共享塊和臨時塊的讀和寫。

共享塊包含表和索引，臨時塊在排序和物化中使用的磁碟塊。上層節點顯示出來的塊數據包含了其所有子節點使用的塊數。

Buffers涉及的參數有兩種，分別為：shared和temp，及shared hit/read/dirtied/written以及temp read/write

Hit blocks：代表從磁碟裡面讀到的數據塊數

Dirtied blocks：代表當前查詢中被修改了的並且此前未被修改的數據塊數

Written blocks：代表當前執行緒將shared bufer里被修改的數據寫回到磁碟的塊數

k) 執行記憶體

其中：

Peak Memory：5KB 表示當前運算元實際執行時使用的峰值記憶體；

Estimate Memory：1024MB 表示預估的記憶體，為優化器給出的預估值。

l) 其他執行資訊

（1）sort 運算元，會顯示排序資訊

Sort Method代表排序的方法，包括quicksort（快排）和disksort（外排）。快排即記憶體夠用時，所有的排序操作均在記憶體中完成，外排說明當前可用記憶體不足，需要下盤。

（2）hashjoin運算元

Buckets：代表hash表中實際使用的桶的個數

Batches：代表hashjoin中實際分塊的數量。如果Batches=1，則說明所有的數據全在記憶體中，沒有下盤操作；反之則說明有下盤操作，Batches – 1代表臨時文件的個數。

Memory Usage：就是hashjoin中記憶體的使用情況

（3）hashagg運算元

如果發生數據下盤，會有File Num：512資訊，顯示臨時文件的個數。

（4）stream運算元

stream運算元的會統計當前運算元處理數據的位元組數，其從子執行緒獲取數據的時間（poll time）以及處理數據的時間（Deserialize Time）。

stream運算元的子節點會統計發送端的時間資訊，如下：

發送時間Send time，排隊時間Wait Quota time， OS發送時間以及數據處理的時間。

3) explain 調優示例

一個查詢語句要經過多個運算元步驟才會輸出最終的結果。由於個別運算元耗時過長導致整體查詢性能下降的情況比較常見。這些運算元是整個查詢的瓶頸運算元。通用的優化手段是EXPLAIN ANALYZE/PERFORMANCE命令查看執行過程的瓶頸運算元，然後進行針對性優化。

基表掃描時，對於點查或者範圍掃描等過濾大量數據的查詢，如果使用SeqScan全表掃描會比較耗時，可以在條件列上建立索引選擇IndexScan進行索引掃描提升掃描效率。如下示例：

上述例子中，全表掃描返回3360條數據，過濾掉大量數據，在sssolddate_sk列上建立索引後，使用IndexScan掃描效率顯著提高，從960毫秒提升到8毫秒。

結語：

在調優過程中，熟練使用explain並能分析各部分數據結果是非常重要的。本文中僅僅介紹了大多數欄位的含義以及根據explain結果進行調優的一個小示例，還可以與plan hint結合使用找出執行的最佳路徑，也可以定位傾斜程度等等。

點擊關注，第一時間了解華為雲新鮮技術~

Tags: 程式設計師之家