尋找5億次訪問中，訪問次數最多的人

2020 年 2 月 10 日
筆記

場景描述：這是一個Spark的實戰題目，也是在面試中經常出現的一類題目。

問題描述

對於一個大型網站，用戶訪問量嘗嘗高達數十億。對於數十億是一個什麼樣的概念，我們這裡可以簡單的計算一下。對於一個用戶，單次訪問，我們通常會記錄下哪些數據呢？

1、用戶的id
2、用戶訪問的時間
3、用戶逗留的時間
4、用戶執行的操作
5、用戶的其餘數據（比如IP等等）

我們單單從用戶id來說，比如10011802330414，這個ID，那麼我們一個id差不多就是一個long類型，因為在大量數據存儲的時候，我們都是採用文本存儲。因此對於5億個用戶ID，完全存儲在磁碟當中，大概是5G的大小，對於這個大小，並不能算是大數據。但是對於一個案例來說，已經非常足夠了。

我們會產生一個5億條ID的數據集，我們上面說到，這個數據集大小為5G（不壓縮的情況下），因此我不會在GitHub上上傳這樣一個數據集，但是我們提供一個方法，來生成一個5億條數據。

當然要解決這個問題，你可以依然在local模式下運行項目，但是你得有足夠的磁碟空間和記憶體空間，大概8G磁碟空間（因為除了數據本身，spark運行過程還要產生一些臨時數據），5G記憶體（要進行reduceByKey）。為了真正展示spark的特性，我們這個案例，將會運行在spark集群上。

關於如何搭建集群，我準備在後續的章節補上。但是在網上有大量的集群搭建教程，其中不乏一些詳細優秀的教程。當然，這節我們不講如何搭建集群，但是我們仍然可以開始我們的案例。

問題分析

那麼現在我們擁有了一個5億條數據（實際上這個數據並不以文本存儲，而是在運行的時候生成），從五億條數據中，找出訪問次數最多的人，這看起來並不難。但實際上我們想要通過這個案例了解spark的真正優勢。

5億條ID數據，首先可以用map將其快取到RDD中，然後對RDD進行reduceByKey，最後找出出現最多的ID。思路很簡單，因此程式碼量也不會很多。

實現

scala實現

首先是ID生成方法：

RandomId.class

import org.apache.spark.{SparkConf, SparkContext}    object ActiveVisitor {        def main(args: Array[String]): Unit = {      val conf = new SparkConf().setMaster("spark://master:7077").setAppName("ActiveVisitor")        val sc = new SparkContext(conf)        //生成一個0-9999的列表      val list = 1 until 10000        val id =new RandomId()        //這裡記錄最大的次數      var max = 0        //這裡記錄最大次數的ID      var maxId = 0L        val lastNum = sc.parallelize(list)        //第一步生成5億條數據        .flatMap(num => {        //遍歷list列表        //總共遍歷1萬次每次生成5萬個ID        var list2 = List(id.next())        for (i <- 1 to 50000){          list2 = id.next() :: list2        }        //這裡記錄當前生成ID的百分比        println(num/1000.0 +"%")          //返回生成完成後的list        //每次循環裡面都包含5萬個ID        list2      })        //遍歷5億條數據        //為每條數據出現標記1        .map((_,1))        //對標記後的數據進行處理        //得到每個ID出現的次數，即（ID，Count）        .reduceByKey(_+_)        //遍歷處理後的數據        .foreach(x => {        //將最大值存儲在max中        if (x._2 > max){          max = x._2          maxId = x._1          //若X比之前記錄的值大，則輸出該id和次數          //最後一次輸出結果，則是出現次數最多的的ID和以及其出現的次數          //當然出現次數最多的可能有多個ID          //這裡只輸出一個          println(x)        }      })    }    }

‍然後是用它生成5億條數據

import org.apache.spark.{SparkConf, SparkContext}    object ActiveVisitor {      def main(args: Array[String]): Unit = {      val conf = new SparkConf().setMaster("spark://master:7077").setAppName("ActiveVisitor")        val sc = new SparkContext(conf)        val list = 1 until 100000        val id =new RandomId()        var max = 0        var maxId = 0L        val lastNum = sc.parallelize(list).flatMap(num => {        var list2 = List(id.next())        for (i <- 1 to 50000){          list2 = id.next() :: list2        }        println(num +"%")        list2      }).map((_,1)).reduceByKey(_+_).foreach(x => {        if (x._2 > max){          max = x._2          maxId = x._1          println(x)        }      })    }  }

‍處理5億條數據

import org.apache.spark.{SparkConf, SparkContext}    object ActiveVisitor {      def main(args: Array[String]): Unit = {      val conf = new SparkConf().setMaster("spark://master:7077").setAppName("ActiveVisitor")        val sc = new SparkContext(conf)        //生成一個0-9999的列表      val list = 1 until 10000        val id =new RandomId()        //這裡記錄最大的次數      var max = 0        //這裡記錄最大次數的ID      var maxId = 0L        val lastNum = sc.parallelize(list)        //第一步生成5億條數據        .flatMap(num => {        //遍歷list列表        //總共遍歷1萬次每次生成5萬個ID        var list2 = List(id.next())        for (i <- 1 to 50000){          list2 = id.next() :: list2        }        //這裡記錄當前生成ID的百分比        println(num/1000.0 +"%")          //返回生成完成後的list        //每次循環裡面都包含5萬個ID        list2      })        //遍歷5億條數據        //為每條數據出現標記1        .map((_,1))        //對標記後的數據進行處理        //得到每個ID出現的次數，即（ID，Count）        .reduceByKey(_+_)        //遍歷處理後的數據        .foreach(x => {        //將最大值存儲在max中        if (x._2 > max){          max = x._2          maxId = x._1          //若X比之前記錄的值大，則輸出該id和次數          //最後一次輸出結果，則是出現次數最多的的ID和以及其出現的次數          //當然出現次數最多的可能有多個ID          //這裡只輸出一個          println(x)        }      })    }  }

‍運行得到結果

將其提交到spark上運行，觀察日誌

1%  5000%  2%  5001%  3%  5002%  4%  5003%  5%  5004%  6%  5005%  7%  5006%  8%  5007%  9%  5008%  10%  5009%  11%  5010%  12%  5011%  5012%  13%  5013%  14%  15%  5014%    ...  ...  ...

這裡是輸出的部分日誌，從日誌中，我們顯然發現，程式是並行的。我採用的集群由四個節點組成，每個節點提供5G的記憶體空間，集群在不同節點中運行，有節點分配到的分區是從1開始，而有節點則是從5000開始，因此程式並沒有按照我們所想的從1%-9999%。好在未按照順序執行，也並不影響最終結果，畢竟最終要進行一個reduceByKey，才是我們真正需要得到結果的地方。

再看日誌另一部分：

5634%  5635%  5636%  5637%  5638%  5639%  5640%  5641%  5642%  5643%  5644%  5645%  2019-03-05 11:52:14 INFO  ExternalSorter:54 - Thread 63 spilling in-memory map of 1007.3 MB to disk (2 times so far)  647%  648%  649%  650%  651%  652%  653%  654%  655%  656%

‍注意到這裡，spilling in-memory map of 1007.3 MB to disk，spilling操作將map中的 1007.3 MB的數據溢寫到磁碟中。這是由於spark在處理的過程中，由於數據量過於龐大，因此將多的數據溢寫到磁碟，當再次用到時，會從磁碟讀取。對於實時性操作的程式來說，多次、大量讀寫磁碟是絕對不被允許的。但是在處理大數據中，溢寫到磁碟是非常常見的操作。

事實上，在完整的日誌中，我們可以看到有相當一部分日誌是在溢寫磁碟的時候生成的，大概49次（這是我操作過程中的總數）

如圖：

總共出現49條溢寫操作的日誌，每次大概是1G，這也印證了我們5億條數據，佔據空間5G的一個說法。事實上，我曾將這5億條數據存儲在磁碟中，的確其佔據的空間是5G左右。

結果

最終，我們可以在日誌中看到結果。

整個過程持續了將近47min，當然在龐大的集群中，時間能夠大大縮短，要知道，我們現在只採用了4個節點。

我們看到了次數2、4、6、8居然分別出現了兩次，這並不奇怪，因為集群並行運行，非同步操作，出現重複結果十分正常，當然我們也可以用並發機制，去處理這個現象。這個在後續的案例中，我們會繼續優化結果。

從結果上看，我們發現5億條數據中，出現最多的ID也僅僅出現了8次，這說明了在大量數據中，很多ID可能只出現了1次、2次。這也就是為什麼最後我採用的是foreach方法去尋找最大值，而不採用如下的方法

import org.apache.spark.{SparkConf, SparkContext}    object ActiveVisitor {        def main(args: Array[String]): Unit = {      val conf = new SparkConf().setMaster("spark://master:7077").setAppName("ActiveVisitor")        val sc = new SparkContext(conf)        //生成一個0-9999的列表      val list = 1 until 10000        val id =new RandomId()        //這裡記錄最大的次數      var max = 0        //這裡記錄最大次數的ID      var maxId = 0L        val lastNum = sc.parallelize(list)        //第一步生成5億條數據        .flatMap(num => {        //遍歷list列表        //總共遍歷1萬次每次生成5萬個ID        var list2 = List(id.next())        for (i <- 1 to 50000){          list2 = id.next() :: list2        }        //這裡記錄當前生成ID的百分比        println(num/1000.0 +"%")          //返回生成完成後的list        //每次循環裡面都包含5萬個ID        list2      })        //遍歷5億條數據        //為每條數據出現標記1        .map((_,1))        //對標記後的數據進行處理        //得到每個ID出現的次數，即（ID，Count）        .reduceByKey(_+_)        //為數據進行排序        //倒序        .sortByKey(false)        //次數最多的，在第一個，將其輸出      println(lastNum.first())    }  }

這個方法中，我們對reduceByKey結果進行排序，輸出排序結果的第一個，即次數最大的ID。這樣做似乎更符合我們的要求。但是實際上，為了得到同樣的結果，這樣做，會消耗更多的資源。如我們所說，很多ID啟其實只出現了一次，兩次，排序的過程中，仍然要對其進行排序。要知道，由於很多ID只出現一次，排序的數據集大小很有可能是數億的條目。

根據我們對排序演算法的了解，這樣一個龐大數據集進行排序，勢必要耗費大量資源。因此，我們能夠容忍輸出一些冗餘資訊，但不影響我們的得到正確結果。

至此，我們完成了5億數據中，找出最多出現次數的數據。如果感興趣，可以嘗試用這個方法解決50億條數據，出現最多的數據條目。但是這樣做的話，你得準備好50G的空間。儘管用上述的程式，屬於閱後即焚，但是50億數據仍然會耗費大量的時間。

作者：詩昭鏈接：https://juejin.im/post/5c7e73115188251b89373146