當我們拿到數據進行建模時，如何選擇更合適的算法？

2019 年 10 月 6 日
筆記

春天不學習

秋季徒傷悲

一年之際在於春

當我們拿到數據進行建模時，

如何選擇更合適的算法？

Datawhale優秀回答者：

mashagua，金小楗

目標導向

>機器學習

1.先看是分類問題還是回歸問題（分類就先從常用的分類模型里選擇）

2.其次，看數據特徵的數據類型，然後做一些初步的數據統計，比如是否數據均衡，大致的數據分佈是怎樣的（不同類別的分佈）

3.然後判斷用哪個比較合適一些，是樹模型還是其他的分類模型。

4.最後查看kaggle比賽有沒有相似案例，別人做的方法有沒有值得自己學習的地方

>深度學習

對於深度學習算法選擇也是看任務目標選擇合適的模型，圖像類首選cnn及各種cnn的變種，時間順序相關的選rnn ，生成類的選vae或gan，有明確規則的選rl。

什麼是K-means算法？

Datawhale優秀回答者：金小楗、強

通俗解釋

聚類算法有很多種，K-Means 是聚類算法中的最常用的一種，算法最大的特點是簡單，好理解，運算速度快，但是只能應用於連續型的數據，並且一定要在聚類前需要手工指定要分成幾類。

K-Means 聚類算法的大致意思就是「物以類聚，人以群分」。

首先輸入 k 的值，即我們指定希望通過聚類得到 k 個分組；

從數據集中隨機選取 k 個數據點作為初始大佬（質心）；

對集合中每一個小弟，計算與每一個大佬的距離，離哪個大佬距離近，就跟定哪個大佬。

這時每一個大佬手下都聚集了一票小弟，這時候召開選舉大會，每一群選出新的大佬（即通過算法選出新的質心）。

如果新大佬和老大佬之間的距離小於某一個設置的閾值（表示重新計算的質心的位置變化不大，趨於穩定，或者說收斂），可以認為我們進行的聚類已經達到期望的結果，算法終止。

如果新大佬和老大佬距離變化很大，需要迭代3~5步驟。

專業解釋

K-means算法的基本思想是初始隨機給定K個簇中心，按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心，

從而確定新的簇心。一直迭代，直到簇心的移動距離小於某個給定的值。

K-means聚類算法主要分為三個步驟：

(1)為待聚類的點尋找聚類中心；

(2)計算每個點到聚類中心的距離，將每個點聚類到離該點最近的聚類中去；

(3)計算每個聚類中所有點的坐標平均值，並將這個平均值作為新的聚類中心；

反覆執行(2)、(3)，直到聚類中心不再進行大範圍移動或者聚類次數達到要求為止。

使用K-means需要考慮的問題：

1.k如何確定

2.初始質心的選取

3.距離的度量

4.質心的計算

5.算法停止條件

6.空聚類的處理

K-means的缺陷：

K-menas算法試圖找到使平凡誤差準則函數最小的簇。當潛在的簇形狀是凸面的，簇與簇之間區別較明顯，且簇大小相近時，其聚類結果較理想。

該算法除了要事先確定簇數K和對初始聚類中心敏感外，經常以局部最優結束，同時對「噪聲」和孤立點敏感，並且該方法不適於發現非凸面形狀的簇或大小差別很大的簇。

K-means算法的聚類中心的個數K 需要事先給定，但在實際中這個 K 值的選定是非常難以估計的，很多時候，事先並不知道給定的數據集應該分成多少個類別才最合適。

K-means需要人為地確定初始聚類中心，不同的初始聚類中心可能導致完全不同的聚類結果。

K-means ++ 算法：

K-means++算法選擇初始聚類中心的基本思想就是：初始的聚類中心之間的相互距離要儘可能的遠。

1.從輸入的數據點集合中隨機選擇一個點作為第一個聚類中心；

2.對於數據集中的每一個點x，計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)；

3.選擇一個新的數據點作為新的聚類中心，選擇的原則是：D(x)較大的點，被選取作為聚類中心的概率較大；

4.重複2和3直到k個聚類中心被選出來；

5.利用這k個初始的聚類中心來運行標準的k-means算法。

談談對分類（Classification）和預測（Prediction）的理解，主要步驟有哪些，以及兩者的區別和聯繫

Datawhale優秀回答者：寧靜致遠

一、介紹

分類：輸入樣本數據，輸出對應的類別，將樣本中每個數據對應一個已知屬性。

預測：兩種或者兩種以上的變量之間相互依賴的函數模型，預測給定自變量對應的因變量的值。

二、步驟

分類算法分為兩步：

(1)學習步：通過訓練樣本數據集，建立分類規則

(2)分類步：用已知的測試樣本集評估分類規則的準確率，若準確率可接受，則是使用該規則對除樣本以外的數據(待測樣本集)進行預測。

預測算法分兩步：

（1）我們先要基於一定數量的樣本來訓練出一個訓練模型；

（2）為了判斷這個模型訓練的如何，我們還要對其進行檢測一下；

（3）如果測試的樣本數據與我們想像中的差別太大，那麼我們就要重新進行訓練這個預測模型，但是如果我們的預測模型符合我們的預先的期望，那麼我們就可以用這個模型進行預測的操作。

三、區別

特徵

1.分類

2.回歸預測

輸出類型

1.離散數據

2.連續數據

目的

1.尋找決策邊界

2.找到最優擬合線

評價方法

1.精度、混淆矩陣

2.SEE(sum of square errors)或擬合優度

四、聯繫

分類算法可以預測連續值，但是連續值是以類標籤的概率的形式。

預測算法可以預測離散值，但離散值以整數形式表示。

	AI

當我們拿到數據進行建模時，如何選擇更合適的算法？

VirMach 便宜 VPS

QNews

當我們拿到數據進行建模時， 如何選擇更合適的算法？

分享此文：

Related Posts

基於LoadRunner的UDP和TCP服務性能測試

python 監控mysql腳本

cs231n之Assignment2全連接網絡上

手撕代碼之常用排序算法

VirMach 便宜 VPS

QNews

熱門搜尋

當我們拿到數據進行建模時，如何選擇更合適的算法？