機器學習西瓜書筆記

機器學習基本術語

數據集(data set):記錄的集合

示例(instance)或樣本(sample):每條記錄是關於一個時間或對象的描述

屬性(attribute)或特徵(feature):反映事件或對象在某方面的表現或性質的事項

屬性值(attribute value):屬性上的取值

屬性空間(attribute space)或樣本空間(sample space)或輸入空間:屬性張成的空間

特徵向量(feature vector)

維數(dimensionality)

訓練(training)

訓練樣本(training sample)

訓練集(training set)

假設(hypothesis)

真實(ground-truth)

學習器(learn)

預測(prediction)

標記(label)

標記空間(label space)

分類(classification)

多分類(multi-class classification)

正類(positive class)

反類(negative class)

測試(testing)

測試樣本(testing sample)

分布(distribution)

獨立同分布(independent and identically distributed)

監督學習(supervised learning)

無監督學習(unsupervised learning)

聚類(clustering)

簇(cluster)

回歸(regression)

泛化(generalization)

歸納(induction)

演繹(deduction)

假設空間

由形如屬性值的不同的可能取值所組成的假設組成

可以由許多不同的策略對假設空間進行搜索,自頂向下或者自頂向上,前者從一般到特殊,即特化,後者從特殊到一般,即泛化,搜索過程中可以刪除與正例不一樣的假設、和(或)、反例一致的假設,最終將會獲得與訓練集一致(即可以對所有訓練樣本進行正確判斷)的假設,即為我們學習的結果

歸納偏好

機器學習演算法在學習過程中對某種類型假設的偏好,稱為「歸納偏好」,或簡稱為「偏好」