羞,Java 字元串拼接竟然有這麼多姿勢

  • 2019 年 11 月 14 日
  • 筆記

二哥,我今年大二,看你分享的《阿里巴巴 Java 開發手冊》上有一段內容說:「循環體內,拼接字元串最好使用 StringBuilder 的 append 方法,而不是 + 號操作符。」到底為什麼啊,我平常一直就用的『+』號操作符啊!二哥有空的時候能否寫一篇文章分析一下呢?

就在昨天,一位叫小菜的讀者微信我說了上面這段話。

我當時看到這條微信的第一感覺是:小菜你也太菜了吧,這都不知道為啥啊!我估計正在讀這篇文章的你也會有同樣的感覺。

但捫心自問,在做程式設計師的前兩年內,我也不知道為啥。遇到字元串拼接就上「+」號操作符,甭管是不是在循環體內。和小菜比起來,我當時可沒他這麼幸運,還有一位熱心的「二哥」能夠分享這份價值連城的開發手冊。

既然我這麼熱心分享,不如好人做到底,對不對?我就認認真真地寫一篇文章,給小菜解惑一下。

01、「+」號操作符

要說姿勢,「+」號操作符必須是字元串拼接最常用的一種了,沒有之一。

String chenmo = "沉默";  String wanger = "王二";    System.out.println(chenmo + wanger);

我們把這段程式碼使用 JAD 反編譯一下。

String chenmo = "u6C89u9ED8"; // 沉默  String wanger = "u738Bu4E8C"; // 王二  System.out.println((new StringBuilder(String.valueOf(chenmo))).append(wanger).toString());

我去,原來編譯的時候把「+」號操作符替換成了 StringBuilder 的 append 方法。也就是說,「+」號操作符在拼接字元串的時候只是一種形式主義,讓開發者使用起來比較簡便,程式碼看起來比較簡潔,讀起來比較順暢。算是 Java 的一種語法糖吧。

02、StringBuilder

除去「+」號操作符,StringBuilder 的 append 方法就是第二個常用的字元串拼接姿勢了。

先來看一下 StringBuilder 類的 append 方法的源碼:

public StringBuilder append(String str) {      super.append(str);      return this;  }

這 3 行程式碼沒啥可看的,可看的是父類 AbstractStringBuilder 的 append 方法:

public AbstractStringBuilder append(String str) {      if (str == null)          return appendNull();      int len = str.length();      ensureCapacityInternal(count + len);      str.getChars(0, len, value, count);      count += len;      return this;  }

1)判斷拼接的字元串是不是 null,如果是,當做字元串「null」來處理。appendNull 方法的源碼如下:

private AbstractStringBuilder appendNull() {      int c = count;      ensureCapacityInternal(c + 4);      final char[] value = this.value;      value[c++] = 'n';      value[c++] = 'u';      value[c++] = 'l';      value[c++] = 'l';      count = c;      return this;  }

2)拼接後的字元數組長度是否超過當前值,如果超過,進行擴容並複製。ensureCapacityInternal 方法的源碼如下:

private void ensureCapacityInternal(int minimumCapacity) {      // overflow-conscious code      if (minimumCapacity - value.length > 0) {          value = Arrays.copyOf(value,                  newCapacity(minimumCapacity));      }  }

3)將拼接的字元串 str 複製到目標數組 value 中。

str.getChars(0, len, value, count)

03、StringBuffer

先有 StringBuffer 後有 StringBuilder,兩者就像是孿生雙胞胎,該有的都有,只不過大哥 StringBuffer 因為多呼吸兩口新鮮空氣,所以是執行緒安全的。

public synchronized StringBuffer append(String str) {      toStringCache = null;      super.append(str);      return this;  }

StringBuffer 類的 append 方法比 StringBuilder 多了一個關鍵字 synchronized,可暫時忽略 toStringCache = null

synchronized 是 Java 中的一個非常容易臉熟的關鍵字,是一種同步鎖。它修飾的方法被稱為同步方法,是執行緒安全的。

04、String 類的 concat 方法

單就姿勢上來看,String 類的 concat 方法就好像 StringBuilder 類的 append。

String chenmo = "沉默";  String wanger = "王二";    System.out.println(chenmo.concat(wanger));

文章寫到這的時候,我突然產生了一個奇妙的想法。假如有這樣兩行程式碼:

chenmo += wanger  chenmo = chenmo.concat(wanger)

它們之間究竟有多大的差別呢?

之前我們已經了解到,chenmo += wanger 實際上相當於 (new StringBuilder(String.valueOf(chenmo))).append(wanger).toString()

要探究「+」號操作符和 concat 之間的差別,實際上要看 append 方法和 concat 方法之間的差別。

append 方法的源碼之前分析過了。我們就來看一下 concat 方法的源碼吧。

public String concat(String str) {      int otherLen = str.length();      if (otherLen == 0) {          return this;      }      int len = value.length;      char buf[] = Arrays.copyOf(value, len + otherLen);      str.getChars(buf, len);      return new String(buf, true);  }

1)如果拼接的字元串的長度為 0,那麼返回拼接前的字元串。

if (otherLen == 0) {      return this;  }

2)將原字元串的字元數組 value 複製到變數 buf 數組中。

char buf[] = Arrays.copyOf(value, len + otherLen);

3)把拼接的字元串 str 複製到字元數組 buf 中,並返回新的字元串對象。

str.getChars(buf, len);  return new String(buf, true);

通過源碼分析我們大致可以得出以下結論:

1)如果拼接的字元串是 null,concat 時候就會拋出 NullPointerException,「+」號操作符會當做是「null」字元串來處理。

2)如果拼接的字元串是一個空字元串(""),那麼 concat 的效率要更高一點。畢竟不需要 new StringBuilder 對象。

3)如果拼接的字元串非常多,concat 的效率就會下降,因為創建的字元串對象越多,開銷就越大。

注意了!!!

弱弱地問一下啊,還有在用 JSP 的同學嗎?EL 表達式中是不允許使用「+」操作符來拼接字元串的,這時候就只能用 concat 了。

${chenmo.concat('-').concat(wanger)}

05、String 類的 join 方法

JDK 1.8 提供了一種新的字元串拼接姿勢:String 類增加了一個靜態方法 join。

String chenmo = "沉默";  String wanger = "王二";  String cmower = String.join("", chenmo, wanger);  System.out.println(cmower);

第一個參數為字元串連接符,比如說:

String message = String.join("-", "王二", "太特么", "有趣了");

輸出結果為:王二-太特么-有趣了

我們來看一下 join 方法的源碼:

public static String join(CharSequence delimiter, CharSequence... elements) {      Objects.requireNonNull(delimiter);      Objects.requireNonNull(elements);      // Number of elements not likely worth Arrays.stream overhead.      StringJoiner joiner = new StringJoiner(delimiter);      for (CharSequence cs: elements) {          joiner.add(cs);      }      return joiner.toString();  }

發現了一個新類 StringJoiner,類名看起來很 6,讀起來也很順口。StringJoiner 是 java.util 包中的一個類,用於構造一個由分隔符重新連接的字元序列。限於篇幅,本文就不再做過多介紹了,感興趣的同學可以去了解一下。

06、StringUtils.join

實戰項目當中,我們處理字元串的時候,經常會用到這個類——org.apache.commons.lang3.StringUtils,該類的 join 方法是字元串拼接的一種新姿勢。

String chenmo = "沉默";  String wanger = "王二";    StringUtils.join(chenmo, wanger);

該方法更善於拼接數組中的字元串,並且不用擔心 NullPointerException。

StringUtils.join(null)            = null  StringUtils.join([])              = ""  StringUtils.join([null])          = ""  StringUtils.join(["a", "b", "c"]) = "abc"  StringUtils.join([null, "", "a"]) = "a"

通過查看源碼我們可以發現,其內部使用的仍然是 StringBuilder。

public static String join(final Object[] array, String separator, final int startIndex, final int endIndex) {      if (array == null) {          return null;      }      if (separator == null) {          separator = EMPTY;      }        final StringBuilder buf = new StringBuilder(noOfItems * 16);        for (int i = startIndex; i < endIndex; i++) {          if (i > startIndex) {              buf.append(separator);          }          if (array[i] != null) {              buf.append(array[i]);          }      }      return buf.toString();  }

大家讀到這,不約而同會有這樣一種感覺:我靠(音要拖長),沒想到啊沒想到,字元串拼接足足有 6 種姿勢啊,晚上回到家一定要一一嘗試下。

07、給小菜一個答覆

我相信,小菜讀到我這篇文章的時候,他一定會明白為什麼阿里巴巴不建議在 for 循環中使用」+」號操作符進行字元串拼接了。

來看兩段程式碼。

第一段,for 循環中使用」+」號操作符。

String result = "";  for (int i = 0; i < 100000; i++) {      result += "六六六";  }

第二段,for 循環中使用 append。

StringBuilder sb = new StringBuilder();  for (int i = 0; i < 100000; i++) {      sb.append("六六六");  }

這兩段程式碼分別會耗時多長時間呢?在我的 iMac 上測試出的結果是:

1)第一段程式碼執行完的時間為 6212 毫秒

2)第二段程式碼執行完的時間為 1 毫秒

差距也太特么大了吧!為什麼呢?

我相信有不少同學已經有了自己的答案:第一段的 for 循環中創建了大量的 StringBuilder 對象,而第二段程式碼至始至終只有一個 StringBuilder 對象。

08、最後

謝謝大家的閱讀,原創不易,喜歡就隨手點個贊?,這將是我最強的寫作動力。如果覺得文章對你有點幫助,還挺有趣,就關注一下我的公眾號「沉默王二」。