機器學習西瓜書筆記
機器學習基本術語
數據集(data set):記錄的集合
示例(instance)或樣本(sample):每條記錄是關於一個時間或對象的描述
屬性(attribute)或特徵(feature):反映事件或對象在某方面的表現或性質的事項
屬性值(attribute value):屬性上的取值
屬性空間(attribute space)或樣本空間(sample space)或輸入空間:屬性張成的空間
特徵向量(feature vector)
維數(dimensionality)
訓練(training)
訓練樣本(training sample)
訓練集(training set)
假設(hypothesis)
真實(ground-truth)
學習器(learn)
預測(prediction)
標記(label)
標記空間(label space)
分類(classification)
多分類(multi-class classification)
正類(positive class)
反類(negative class)
測試(testing)
測試樣本(testing sample)
分布(distribution)
獨立同分布(independent and identically distributed)
監督學習(supervised learning)
無監督學習(unsupervised learning)
聚類(clustering)
簇(cluster)
回歸(regression)
泛化(generalization)
歸納(induction)
演繹(deduction)
假設空間
由形如屬性值的不同的可能取值所組成的假設組成
可以由許多不同的策略對假設空間進行搜索,自頂向下或者自頂向上,前者從一般到特殊,即特化,後者從特殊到一般,即泛化,搜索過程中可以刪除與正例不一樣的假設、和(或)、反例一致的假設,最終將會獲得與訓練集一致(即可以對所有訓練樣本進行正確判斷)的假設,即為我們學習的結果
歸納偏好
機器學習演算法在學習過程中對某種類型假設的偏好,稱為「歸納偏好」,或簡稱為「偏好」