大數據入門須知的51個大數據術語(2)

  • 2020 年 2 月 14 日
  • 筆記

G

GPU加速的資料庫:

提取流數據所需的資料庫。

圖分析:

一種組織和可視化集合中不同數據點之間關係的方法。

H

Hadoop:

一種用於處理和存儲大數據的編程框架,尤其是在分散式計算環境中。

I

Ingestion攝取:

從許多不同來源獲取流數據。

M

MapReduce:

一種數據處理模型,該模型在Map階段對數據進行過濾和排序,然後對該數據執行功能,並在Reduce階段返回輸出。

Munging:

手動將數據從一種原始格式轉換或映射為另一種格式以便更方便使用的過程。

N

正態分布:

表示大量隨機變數的概率的通用圖,其中,隨著數據集的增加,這些變數趨於正態。也稱為高斯分布或鐘形曲線。

規範化:

將數據組織到表中的過程,以便使用資料庫的結果始終是明確的和預期的。

P

解析:

將數據(例如字元串)劃分為較小的部分以進行分析。

永久性存儲:

一個不變的位置,例如磁碟,在創建數據的過程結束後將數據保存在該位置。

Python:

一種通用的程式語言,強調程式碼的可讀性,以允許程式設計師使用較少的程式碼行來表達其概念。

R

R:

一種主要用於數據可視化和預測分析的開源語言。

實時流處理:

一種模型,可通過並行使用機器來分析數據序列,但功能有所減少。

關係資料庫管理系統(RDBMS):

一種系統,用於管理,捕獲和分析基於稱為關係的共享屬性進行分組的數據。

彈性分散式數據集:

Apache Spark抽象數據的主要方式,其中數據以容錯的方式存儲在多台電腦上。

S

碎片:

資料庫的單個分區。

智慧數據:

經過格式化的數字資訊,可以在收集點上對其進行操作,然後再發送到下游分析平台以進行進一步的數據合併和分析。

流處理:

數據的實時處理。數據被連續,同時處理並逐記錄進行處理。

結構化數據:

具有高度組織性的資訊。

T

分類法:

根據預定系統對數據進行分類,並使用生成的目錄來提供易於訪問和檢索的概念框架。

遙測:

遠程獲取有關對象的資訊(例如,從汽車,智慧手機,醫療設備或IoT設備)。

轉換:

將數據從一種格式轉換為另一種格式。

u

非結構化數據:

沒有預定義數據模型或未按預定義方式組織的數據。

V

可視化:

分析數據並以可讀的圖形格式(例如圖表或圖形)表示數據的過程。

Z

區域:

數據湖中用於特定,明確定義目的的不同區域。