HashMap 為什麼執行緒不安全?

  • 2019 年 12 月 17 日
  • 筆記

Java技術棧

www.javastack.cn

優秀的Java技術公眾號

我們都知道HashMap是執行緒不安全的,在多執行緒環境中不建議使用,但是其執行緒不安全主要體現在什麼地方呢,本文將對該問題進行解密。

1

jdk1.7中的HashMap

在jdk1.8中對HashMap做了很多優化,這裡先分析在jdk1.7中的問題,相信大家都知道在jdk1.7多執行緒環境下HashMap容易出現死循環,這裡我們先用程式碼來模擬出現死循環的情況:

public class HashMapTest {        public static void main(String[] args) {          HashMapThread thread0 = new HashMapThread();          HashMapThread thread1 = new HashMapThread();          HashMapThread thread2 = new HashMapThread();          HashMapThread thread3 = new HashMapThread();          HashMapThread thread4 = new HashMapThread();          thread0.start();          thread1.start();          thread2.start();          thread3.start();          thread4.start();      }  }    class HashMapThread extends Thread {      private static AtomicInteger ai = new AtomicInteger();      private static Map<Integer, Integer> map = new HashMap<>();        @Override      public void run() {          while (ai.get() < 1000000) {              map.put(ai.get(), ai.get());              ai.incrementAndGet();          }      }  }

上述程式碼比較簡單,就是開多個執行緒不斷進行put操作,並且HashMap與AtomicInteger都是全局共享的。

在多運行幾次該程式碼後,出現如下死循環情形:

其中有幾次還會出現數組越界的情況:

這裡我們著重分析為什麼會出現死循環的情況,通過jps和jstack命名查看死循環情況,結果如下:

從堆棧資訊中可以看到出現死循環的位置,通過該資訊可明確知道死循環發生在HashMap的擴容函數中,根源在transfer函數中,jdk1.7中HashMap的transfer函數如下:

void transfer(Entry[] newTable, boolean rehash) {          int newCapacity = newTable.length;          for (Entry<K,V> e : table) {              while(null != e) {                  Entry<K,V> next = e.next;                  if (rehash) {                      e.hash = null == e.key ? 0 : hash(e.key);                  }                  int i = indexFor(e.hash, newCapacity);                  e.next = newTable[i];                  newTable[i] = e;                  e = next;              }          }  }

總結下該函數的主要作用:

在對table進行擴容到newTable後,需要將原來數據轉移到newTable中,注意10-12行程式碼,這裡可以看出在轉移元素的過程中,使用的是頭插法,也就是鏈表的順序會翻轉,這裡也是形成死循環的關鍵點。

下面進行詳細分析。

1.1 擴容造成死循環分析過程

前提條件,這裡假設:

  1. hash演算法為簡單的用key mod鏈表的大小。
  2. 最開始hash表size=2,key=3,7,5,則都在table[1]中。
  3. 然後進行resize,使size變成4。

未resize前的數據結構如下:

如果在單執行緒環境下,最後的結果如下:

這裡的轉移過程,不再進行詳述,只要理解transfer函數在做什麼,其轉移過程以及如何對鏈表進行反轉應該不難。

然後在多執行緒環境下,假設有兩個執行緒A和B都在進行put操作。執行緒A在執行到transfer函數中第11行程式碼處掛起,因為該函數在這裡分析的地位非常重要,因此再次貼出來。

關注微信公眾號:Java技術棧,在後台回復:java,可以獲取我整理的 N 篇最新Java 技術教程,都是乾貨。

此時執行緒A中運行結果如下:

執行緒A掛起後,此時執行緒B正常執行,並完成resize操作,結果如下:

這裡需要特別注意的點:由於執行緒B已經執行完畢,根據Java記憶體模型,現在newTable和table中的Entry都是主存中最新值:7.next=3,3.next=null。

此時切換到執行緒A上,在執行緒A掛起時記憶體中值如下:e=3,next=7,newTable[3]=null,程式碼執行過程如下:

newTable[3]=e ----> newTable[3]=3  e=next ----> e=7

此時結果如下:

繼續循環:

e=7  next=e.next ----> next=3【從主存中取值】  e.next=newTable[3] ----> e.next=3【從主存中取值】  newTable[3]=e ----> newTable[3]=7  e=next ----> e=3

結果如下:

再次進行循環:

e=3  next=e.next ----> next=null  e.next=newTable[3] ----> e.next=7 即:3.next=7  newTable[3]=e ----> newTable[3]=3  e=next ----> e=null

注意此次循環:e.next=7,而在上次循環中7.next=3,出現環形鏈表,並且此時e=null循環結束。

結果如下:

在後續操作中只要涉及輪詢HashMap的數據結構,就會在這裡發生死循環,造成悲劇。面試必問的:幾種執行緒安全的Map解析,推薦大家看下。

1.2 擴容造成數據丟失分析過程

遵照上述分析過程,初始時:

執行緒A和執行緒B進行put操作,同樣執行緒A掛起:

此時執行緒A的運行結果如下:

此時執行緒B已獲得CPU時間片,並完成resize操作:

同樣注意由於執行緒B執行完成,newTable和table都為最新值:5.next=null。

此時切換到執行緒A,在執行緒A掛起時:e=7,next=5,newTable[3]=null。

執行newtable[i]=e,就將7放在了table[3]的位置,此時next=5。接著進行下一次循環:

e=5  next=e.next ----> next=null,從主存中取值  e.next=newTable[1] ----> e.next=5,從主存中取值  newTable[1]=e ----> newTable[1]=5  e=next ----> e=null

將5放置在table[1]位置,此時e=null循環結束,3元素丟失,並形成環形鏈表。並在後續操作HashMap時造成死循環。

2

jdk1.8中HashMap

在jdk1.8中對HashMap進行了優化,在發生hash碰撞,不再採用頭插法方式,而是直接插入鏈表尾部,因此不會出現環形鏈表的情況,但是在多執行緒的情況下仍然不安全。

這裡我們看jdk1.8中HashMap的put操作源碼:

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,                     boolean evict) {          Node<K,V>[] tab; Node<K,V> p; int n, i;          if ((tab = table) == null || (n = tab.length) == 0)              n = (tab = resize()).length;          if ((p = tab[i = (n - 1) & hash]) == null) // 如果沒有hash碰撞則直接插入元素              tab[i] = newNode(hash, key, value, null);          else {              Node<K,V> e; K k;              if (p.hash == hash &&                  ((k = p.key) == key || (key != null && key.equals(k))))                  e = p;              else if (p instanceof TreeNode)                  e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);              else {                  for (int binCount = 0; ; ++binCount) {                      if ((e = p.next) == null) {                          p.next = newNode(hash, key, value, null);                          if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st                              treeifyBin(tab, hash);                          break;                      }                      if (e.hash == hash &&                          ((k = e.key) == key || (key != null && key.equals(k))))                          break;                      p = e;                  }              }              if (e != null) { // existing mapping for key                  V oldValue = e.value;                  if (!onlyIfAbsent || oldValue == null)                      e.value = value;                  afterNodeAccess(e);                  return oldValue;              }          }          ++modCount;          if (++size > threshold)              resize();          afterNodeInsertion(evict);          return null;  }

這是jdk1.8中HashMap中put操作的主函數, 注意第6行程式碼,如果沒有hash碰撞則會直接插入元素。

如果執行緒A和執行緒B同時進行put操作,剛好這兩條不同的數據hash值一樣,並且該位置數據為null,所以這執行緒A、B都會進入第6行程式碼中。

假設一種情況,執行緒A進入後還未進行數據插入時掛起,而執行緒B正常執行,從而正常插入數據,然後執行緒A獲取CPU時間片,此時執行緒A不用再進行hash判斷了,問題出現:執行緒A會把執行緒B插入的數據給覆蓋,發生執行緒不安全。

總結

首先HashMap是執行緒不安全的,其主要體現:

  1. 在jdk1.7中,在多執行緒環境下,擴容時會造成環形鏈或數據丟失。
  2. 在jdk1.8中,在多執行緒環境下,會發生數據覆蓋的情況。

作者:developer

http://cnblogs.com/developer_chan/p/10450908.html

– END –