聚類基礎知識,看這一篇就足夠了!

聚類: 相似的樣本放在同一簇,不同的樣本放在不同的簇中

影像分割可以看做是色塊的聚類。

聚類原則以及相應的評價指標

  • 原則:簇內相似度 intra cluster similarity) 高,簇間相似度 inter cluster similarity) 低。
  • 評價指標:
    • 有參考模型,即外部指標:計數法。4類點對,3種指標:Jaccard 係數、FM 指數、Rand 指數
    • 直接考察聚類結果,即內部指標:距離法。DB 指數、Dunn 指數,

距離定義

  1. 非負性。
  2. 同一性。
  3. 對稱性。
  4. 三角不等式性質

實例:閔可夫斯基距離。p=2時,歐氏距離,p=1時,曼哈頓距離。

聚類分類

原型聚類:聚類結構能通過一組原型刻畫。

原型:指樣本空間中具有代表性的點.

  1. K-均值:最小化均方誤差1.確定每個樣本的簇標記(最近);2.通過均值來更新簇中心

缺點:

  • 需要提前確定k。
  • 對雜訊和離群點敏感(均值)
  • 對初值的選擇較為敏感。
  1. 混合高斯模型,隱變數-EM 演算法。


基於密度的聚類:DBSCAN

基於一組「鄰域」 」( 參數 є ,MinPts )來描述樣本分布的緊密程度。

  • 核心對象 core object) : 若 x j 的 є 鄰域至少包含 MinPts 個樣本。邊緣對象,在 є 鄰域內但個數<MinPts 。雜訊對象,既不是核心對象也不是邊緣對象。
  • 通過密度直達密度相連擴充簇的範圍。

層次聚類:在不同層次上對數據集進行分類。從N到1。

從N個樣本點開始,計算距離矩陣(proximity matrix),合併距離最近的兩個簇,直到簇的個數為1。通過dendrogram圖可視化。

簇距離度量

  • Single Link:簇之間的點的最小距離作為簇的距離。
  • Complete Link: 簇之間的點的最大距離作為簇的距離。

優點:

  • 不需要提前指定K。
  • 通過水平切割來獲得指定簇個數的聚類結果。
  • 不同層代表不同的分類。