Java—Stream進階

由於本文需要有一定的Stream基礎,所以如果不懂什麼是Stream的同學請移步:Java—Stream入門

操作分類

graph LR
操作分類 — 中間操作
終端操作 — 操作分類
中間操作 — 有狀態
中間操作 — 無狀態
短路 — 終端操作
非短路 — 終端操作

中間操作只進行操作的記錄,而實際的操作是由終端操作來執行的。如下面的例子。

張三的媽媽想讓張三幫忙買調料,所以將需要購買的調料寫在一張紙上交給張三。(中間操作)
紙:
小蔥、大蒜、生薑、雞精、醬油。。。
張三拿著紙條去買菜。(終端操作)

中間操作

中間操作分為兩種:有狀態,無狀態。

  • 有狀態:處理不止依賴當前元素。如,sorted(需要得到所有元素才可以排序不是嗎)。
  • 無狀態:處理只以來當前元素。如,map(只需要對當前元素進行類型轉換不是嗎)。

Stream類圖

AbstractPipeline

非常重要的類,本質是個雙鏈表,有著一下三個成員變數。Stream可以延遲執行的其中一個原因就是這個抽象類。可以說這個抽象類定義了中間操作的各種行為。

  • sourceStage:指向頭結點。每一次中間操作會增加一個節點,為了在O(1)的時間複雜度找到頭結點而定義。有點並查集的感覺。
  • previousStage:前驅節點。
  • nextStage:後驅節點。
  • sourceOrOpFlags:這裡存的是一個int數值,來自枚舉StreamOpFlag類。不用糾結這個類中各種數值的計算,這就是個標記,用來記錄當前節點是做什麼操作。如,filter等。

每一次中間操作就會生產一個上述節點。

終端操作

終端操作分為兩種:短路與非短路

  • 短路:找到了滿足條件的數據後直接中斷操作。
  • 非短路:對於每個元素都做完一遍操作。

Sink類圖

Sink

可以看出分為三種:Chained與Of,以及TerminalSink

  • Chained:用來生成中間操作的Sink鏈表。
  • Of:用來執行具體的accept。
  • TerminalSink:生成終端操作的Sink節點。

執行流程

樣例

List<Integer> list = new ArrayList<>();
list.add(3);
list.add(1);
list.add(4);
list.add(2);
list.add(2);
list.stream().distinct().filter(t -> t < 4)
    .map(String::valueOf).sorted()
    .forEach(System.out::println);

Stream流程圖

可以看出Stream的執行流程如下:

逐步生成每一步中間操作的節點 -> 生成終端操作的Sink節點 -> 生成每一步中間操作的Sink節點 -> begin -> 執行各個中間操作以及終端操作 -> end

簡單闡述下Stream流程的三個部分:

  1. 獲取head且逐步生成AbstractPipeline的雙鏈表。
  2. 從上述雙鏈表的最後一個節點向前驅節點迭代生成Sink鏈表。
  3. 迭代Sink鏈表逐個執行中間操作與終端操作。

並行流的執行使用了ForkJoin架構,先根據元素的數量通過分治的方式分解為單一元素的Stream,對單個Stream處理,然後再合併。
流程也符合上述案例,但各個部分的執行實際上存在並發並行,多了最後的合併操作。

本文建議結合源碼一起閱讀理解,涉及到的源碼特別多(建議適當閱讀,碰到複雜難懂的演算法可以跳過,不要死磕),所以本文中並未貼出。