做一個logitic分類之鳶尾花數據集的分類

2019 年 10 月 3 日
筆記

做一個logitic分類之鳶尾花數據集的分類

Iris 鳶尾花數據集是一個經典數據集，在統計學習和機器學習領域都經常被用作示例。數據集內包含 3 類共 150 條記錄，每類各 50 個數據，每條記錄都有 4 項特徵：花萼長度、花萼寬度、花瓣長度、花瓣寬度，可以通過這4個特徵預測鳶尾花卉屬於（iris-setosa, iris-versicolour, iris-virginica）中的哪一品種。

首先我們來載入一下數據集。同時大概的展示下數據結構和數據摘要。

import numpy as np  import pandas as pd  import matplotlib.pyplot as plt    data = pd.read_csv('./data/iris.csv')  print(data.head())  print(data.info())  print(data['Species'].unique())

   Unnamed: 0  Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species  0           1           5.1          3.5           1.4          0.2  setosa  1           2           4.9          3.0           1.4          0.2  setosa  2           3           4.7          3.2           1.3          0.2  setosa  3           4           4.6          3.1           1.5          0.2  setosa  4           5           5.0          3.6           1.4          0.2  setosa  <class 'pandas.core.frame.DataFrame'>  RangeIndex: 150 entries, 0 to 149  Data columns (total 6 columns):  Unnamed: 0      150 non-null int64  Sepal.Length    150 non-null float64  Sepal.Width     150 non-null float64  Petal.Length    150 non-null float64  Petal.Width     150 non-null float64  Species         150 non-null object  dtypes: float64(4), int64(1), object(1)  memory usage: 7.2+ KB  None  ['setosa' 'versicolor' 'virginica']

通過上述數據的簡單摘要，我們可以得到鳶尾花一共有三類：

setosa
versicolor
virginica

我們分別用0,1,2來表示[‘setosa’ ‘versicolor’ ‘virginica’]

整理

首先，我們對數據集進行一個簡單的整理。我們需要把分類替換成0,1,2

其次，我們把數據集分成兩個分類，一個用來訓練我們的logitic演算法的參數，另外一個用來測試我們的訓練的結果

以下是程式碼：

# 數值替換    data.loc[data['Species']=='setosa','Species']=0  data.loc[data['Species']=='versicolor','Species']=1  data.loc[data['Species']=='virginica','Species']=2  print(data)

     Unnamed: 0  Sepal.Length  Sepal.Width  Petal.Length  Petal.Width  Species  0             1           5.1          3.5           1.4          0.2        0  1             2           4.9          3.0           1.4          0.2        0  2             3           4.7          3.2           1.3          0.2        0  3             4           4.6          3.1           1.5          0.2        0  4             5           5.0          3.6           1.4          0.2        0  ..          ...           ...          ...           ...          ...      ...  145         146           6.7          3.0           5.2          2.3        2  146         147           6.3          2.5           5.0          1.9        2  147         148           6.5          3.0           5.2          2.0        2  148         149           6.2          3.4           5.4          2.3        2  149         150           5.9          3.0           5.1          1.8        2    [150 rows x 6 columns]

#分割訓練集和測試集  train_data = data.sample(frac=0.6,random_state=0,axis=0)  test_data = data[~data.index.isin(train_data.index)]    train_data = np.array(train_data)  test_data = np.array(test_data)    train_label = train_data[:,5:6].astype(int)  test_label = test_data[:,5:6].astype(int)    print(train_label[:1])  print(test_label[:1])    train_data = train_data[:,1:5]  test_data = test_data[:,1:5]    print(np.shape(train_data))  print(np.shape(train_label))  print(np.shape(test_data))  print(np.shape(test_label))

[[2]]  [[0]]  (90, 4)  (90, 1)  (60, 4)  (60, 1)

我們需要把label編程1ofN的樣式

經過上述兩步的操作，我們可以看到數據集被分成兩個部分。我們接下來對數據進行logitic分類。

train_label_onhot = np.eye(3)[train_label]  test_label_onhot = np.eye(3)[test_label]  train_label_onhot = train_label_onhot.reshape((90,3))  test_label_onhot =  test_label_onhot.reshape((60,3))

print(train_label_onhot[:3])

[[0. 0. 1.]   [0. 1. 0.]   [1. 0. 0.]]

分類

思路

我選選擇先易後難的方法來處理這個問題：

如果我們有兩個分類0或者1的話，我們需要判斷特徵值X（N維）是否可以歸為某個分類。我們的步驟如下:

初始化參數w（1，N）和b(1)
計算 (z = sum_{i=0}^{n}w*x + b)
帶入(sigma)函數得到(hat{y}=sigma(z))

現在有多個分類, 我們就需要使用one-to-many的方法去計算。簡單的理解，在本題中，一共有3個分類。我們需要計算(hat{y}_1)來表明這個東西是分類1或者不是分類1的概率 (hat{y}_2)是不是分類2的概率，(hat{y}_3)是不是分類3的概率。然後去比較這三個分類那個概率最大，就是哪個的概率。

比較屬於哪個概率大的演算法，我們用softmat。就是計算(exp(hat{y}_1)),(exp(hat{y}_2)),(exp(hat{y}_3)),然後得到屬於三個分類的概率分別是

p1=(frac{exp(hat{y}_1)}{sum_{i=0}{3}(hat{y}_i)})
p1=(frac{exp(hat{y}_2)}{sum_{i=0}{3}(hat{y}_i)})
p1=(frac{exp(hat{y}_3)}{sum_{i=0}{3}(hat{y}_i)})

我們根據上述思想去計算一條記錄,程式碼如下:

def sigmoid(s):       return 1. / (1 + np.exp(-s))    w = np.random.rand(4,3)  b = np.random.rand(3)    def get_result(w,b):      z = np.matmul(train_data[0],w) +b      y = sigmoid(z)      return y    y = get_result(w,b)    print(y)

[0.99997447 0.99966436 0.99999301]

上述程式碼是我們只求一條記錄的程式碼，下面我們給他用矩陣化修改為一次計算全部的訓練集的(hat{y})

def get_result_all(data,w,b):      z = np.matmul(data,w)+ b      y = sigmoid(z)      return y  y=get_result_all(train_data,w,b)  print(y[:10])

[[0.99997447 0.99966436 0.99999301]   [0.99988776 0.99720719 0.9999609 ]   [0.99947512 0.98810796 0.99962362]   [0.99999389 0.99980632 0.999999  ]   [0.9990065  0.98181945 0.99931113]   [0.99999094 0.9998681  0.9999983 ]   [0.99902719 0.98236513 0.99924728]   [0.9999761  0.99933525 0.99999313]   [0.99997542 0.99923594 0.99999312]   [0.99993082 0.99841774 0.99997519]]

接下來我們要求得一個損失函數，來計算我們得到的參數和實際參數之間的偏差，關於分類的損失函數，請看這裡

單個分類的損失函數如下：

[loss=−sum_{i=0}^{n}[y_ilnhat{y}_i+(1−y_i)ln(1−hat{y}_i)]]

損失函數的導數求法如下

當 (y_i=0)時

w的導數為：

[ frac{dloss}{dw}=(1-y_i)*frac{1}{1-hat{y}_i}*hat{y}_i*(1-hat{y}_i)*x_i ]
化簡得到
[ frac{dloss}{dw}=hat{y}*x_i=(hat{y}-y)*x_i ]

b的導數為

[ frac{dloss}{db}=(1-y_i)*frac{1}{1-hat{y}_i}*hat{y}_i*(1-hat{y}_i) ]
化簡得到
[frac{dloss}{db}=hat{y}-y]

當(y_i)=1時

w的導數

[ frac{dloss}{dw}=-yi*frac{1}{hat{y}}*hat{y}(1-hat{y})*x_i ]
化簡
[ frac{dloss}{dw}=(hat{y}-1)*x_i=(hat{y}-y)*x_i ]

b的導數

[frac{dloss}{dw}=hat{y}-y]

綜合起來可以得到
[ frac{dloss}{dw}=sum_{i=0}^{n}(hat{y}-y)*x_i ]

[ frac{dloss}{db}=sum_{i=0}^{n}(hat{y}-y) ]

我們只需要根據以下公式不停的調整w和b,就是機器學習的過程
[w=w-learning_rate*dw]
[b=b-learning_rate*db]

下面我們來寫下程式碼：

learning_rate = 0.0001        def eval(data,label, w,b):      y = get_result_all(data,w,b)      y = y.argmax(axis=1)      y = np.eye(3)[y]      count = np.shape(data)[0]      acc = (count - np.power(y-label,2).sum()/2)/count      return acc    def train(step,w,b):      y = get_result_all(train_data,w,b)      loss = -1*(train_label_onhot * np.log(y) +(1-train_label_onhot)*np.log(1-y)).sum()        dw = np.matmul(np.transpose(train_data),y - train_label_onhot)      db = (y - train_label_onhot).sum(axis=0)        w = w - learning_rate * dw      b = b - learning_rate * db      return w, b,loss      loss_data = {'step':[],'loss':[]}  train_acc_data = {'step':[],'acc':[]}  test_acc_data={'step':[],'acc':[]}    for step in range(3000):      w,b,loss = train(step,w,b)      train_acc = eval(train_data,train_label_onhot,w,b)      test_acc = eval(test_data,test_label_onhot,w,b)        loss_data['step'].append(step)      loss_data['loss'].append(loss)        train_acc_data['step'].append(step)      train_acc_data['acc'].append(train_acc)        test_acc_data['step'].append(step)      test_acc_data['acc'].append(test_acc)    plt.plot(loss_data['step'],loss_data['loss'])  plt.show()    plt.plot(train_acc_data['step'],train_acc_data['acc'],color='red')  plt.plot(test_acc_data['step'],test_acc_data['acc'],color='blue')  plt.show()  print(test_acc_data['acc'][-1])

[png]

0.9666666666666667

從上述運行結果中來看，達到了96.67%的預測準確度。還不錯！