String字符串的最大長度是多少?

在學習和開發過程中,我們經常會討論 short ,int 和 long 這些基本數據類型的取值範圍,但是對於 String 類型我們好像很少注意它的「取值範圍」。那麼對於 String 類型,它到底有沒有長度限制呢?

其實 String 類型的對象,他們是有長度限制的, String 對象並不能「存儲」無限長度的字符串。關於 String 的長度限制要從編譯時限制運行時限制兩方面考慮。

編譯期限制

有JVM虛擬機相關知識的同學肯定知道,下面定義的字符串常量「自由之路」會被放入方法區的常量池中。

String s = "自由之路";
System.out.println(s);

Stirng 長度之所以會受限制,是因JVM規範對常量池有所限制。常量池中的每一種數據項都有自己的類型。Java中的UTF-8編碼的Unicode字符串在常量池中以CONSTANT_Utf8類型表示。

CONSTANT_Utf8的數據結構如下:

CONSTANT_Utf8_info {
    u1 tag;
    u2 length;
    u1 bytes[length];
}

我們重點關注下長度為 length 的那個bytes數組,這個數組就是真正存儲常量數據的地方,而 length 就是數組可以存儲的最大位元組數。length 的類型是u2,u2是無符號的16位整數,因此理論上允許的的最大長度是2^16-1=65535。所以上面byte數組的最大長度可以是65535。

//65535個d,編譯報錯
String s = "dd..dd";

//65534個d,編譯通過
String s1 = "dd..d";

上面的列子中長度為65535的字符串s還是編譯失敗了,但是長度為65534的字符串 s1 編譯是成功的。這個好像和我們剛剛的結論不符合。

其實,這時Javac編譯器的額外限制。在Javac的源代碼中可以找到以下代碼:

private void checkStringConstant(DiagnosticPosition var1, Object var2) {
    if (this.nerrs == 0 && var2 != null && var2 instanceof String &&   ((String)var2).length() >= 65535) {
        this.log.error(var1, "limit.string", new Object[0]);
        ++this.nerrs;
    }
}

代碼中可以看出,當參數類型為String,並且長度大於等於65535的時候,就會導致編譯失敗。

這裡需要重點強調下的是:String 的限制並不是對字符串長度的限制,而是對字符串底層存儲的限制。這句話可能比較抽象,下面舉個列子就清楚了。

Java中的字符常量都是使用UTF8編碼的,UTF8編碼使用1~4個位元組來表示具體的Unicode字符。所以有的字符佔用一個位元組,而我們平時所用的大部分中文都需要3個位元組來存儲。

//65534個字母,編譯通過
String s1 = "dd..d";

//21845個中文」自「,編譯通過
String s2 = "自自...自";

//一個英文字母d加上21845個中文」自「,編譯失敗
String s3 = "d自自...自";

對於s1,一個字母d的UTF8編碼佔用一個位元組,65534字母佔用65534個位元組,長度是65534,也沒超過Javac的限制,所以可以編譯通過。

對於s2,一個中文佔用3個位元組,21845個正好佔用65535個位元組,而且字符串長度是21845,並沒有超過javac對長度的限制,所以可以編譯通過。

對於s3,一個英文字母d加上21845個中文」自「佔用65535個位元組,超過了最常限制,編譯失敗。

運行時限制

String 運行時的限制主要體現在 String 的構造函數上。下面是 String 的一個構造函數:

public String(char value[], int offset, int count) {
    ...
}

上面的count值就是字符串的最大長度。在Java中,int的最大長度是2^31-1。所以在運行時,String 的最大長度是2^31-1。

但是這個也是理論上的長度,實際的長度還要看你JVM的內存。我們來看下,最大的字符串會佔用多大的內存。

(2^31-1)*2*16/8/1024/1024/1024 = 4GB

所以在最壞的情況下,一個最大的字符串要佔用4GB的內存。如果你的虛擬機不能分配這麼多內存的話,會直接報錯的。

JDK9以後對String的存儲進行了優化。底層不再使用char數組存儲字符串,而是使用byte數組。對於LATIN1字符的字符串可以節省一倍的內存空間。

簡單總結

String 的長度是有限制的。

  • 編譯期的限制:字符串的UTF8編碼值的位元組數不能超過65535,字符串的長度不能超過65534;
  • 運行時限制:字符串的長度不能超過2^31-1,佔用的內存數不能超過虛擬機能夠提供的最大值。

公眾號推薦

歡迎大家關注我的微信公眾號「程序員自由之路」