數據處理經驗總結·大數據文件處理參考值
- 2020 年 2 月 18 日
- 筆記
打印在控制台的字符串類型如果兩邊帶有引號的話,說明字符串存儲的時候就有引號。
經驗:在對大測試數據進行轉化前,先自己編寫樣例數據文件,確保樣例數據文件對所有測試對象(數據庫)能跑通,本質上是確保1、原始數據能夠轉換出我們要的各種數據;2、轉換出的各種數據能夠適用各種對象,關鍵是1,然後再編程對大測試數據進行統一轉化。
三元組語義網數據處理時間和資源估算
4g文本文件,Java按行讀寫進行簡單處理大約需要2.5天。
4g文本文件,56GB系統內存,20GB堆內存。 全部先讀入List<String[]>,一行對應一個String[],讀入階段CPU使用100%,然後所有List<String[]>里的內容進行簡單處理後拼接進入一個StringBuilder(). 在整個過程的某個階段,會OutOfMemory.