數據處理經驗總結·大數據文件處理參考值

  • 2020 年 2 月 18 日
  • 筆記

打印在控制台的字符串類型如果兩邊帶有引號的話,說明字符串存儲的時候就有引號。

經驗:在對大測試數據進行轉化前,先自己編寫樣例數據文件,確保樣例數據文件對所有測試對象(數據庫)能跑通,本質上是確保1、原始數據能夠轉換出我們要的各種數據;2、轉換出的各種數據能夠適用各種對象,關鍵是1,然後再編程對大測試數據進行統一轉化。

三元組語義網數據處理時間和資源估算

4g文本文件,Java按行讀寫進行簡單處理大約需要2.5天。

4g文本文件,56GB系統內存,20GB堆內存。 全部先讀入List<String[]>,一行對應一個String[],讀入階段CPU使用100%,然後所有List<String[]>里的內容進行簡單處理後拼接進入一個StringBuilder(). 在整個過程的某個階段,會OutOfMemory.