機器學習十講-第一講

有監督學習

含義

數據集中的樣本帶有標籤,有明確目標

回歸和分類

回歸模型:線性回歸、嶺回歸、LASSO和回歸樣條等

分類模型:邏輯回歸、K近鄰、決策樹、支援向量機等

應用場景

垃圾郵件分類、病理切片分類、客戶流失預警、客戶風險評估、房價預測等。

無監督學習( unsupervised learning )

含義

數據集中的樣本沒有標籤,沒有明確目標

無監督學習:根據數據本身的分布特點,挖掘反映數據的內在特性

聚類

將數據集中相似的樣本進行分組,使得:

  • 同一組對象之間儘可能相似; .
  • 不同組對象之間儘可能不相似。

應用場景

基因表達水平聚類:根據不同基因表達的時序特徵進行聚類,得到基因表達處於訊號通路
上游還是下游的資訊
籃球運動員劃分:根據球員相關數據,將其劃分到不同類型(或者不同等級)的運動員陣
營中
客戶分析:把客戶細分成不同客戶群,每個客戶群有相似行為,做到精準營銷

強化學習( reinforcement learing )

含義

智慧決策的過程,通過過程模擬和觀察來不斷學習、提高決策能力

流程

實例

例如: AlphaGo

數學結構

數據也是有數學結構的,沒有數學結構我們便無法處理數據。

度量結構

表示數據之間的距離。

網路結構

有些數據本身就有網路結構,如社交網路。如果沒有,可以利用度量結構給數據附加一個網路結構。

 

計算所用的演算法如下:

 

 

代數結構

將數據看作向量、矩陣或更高階的張量。

幾何結構

流形、對稱性等

Scikit-learn

常用函數

 

 主要模組

 

 總結