第一章 緒論
基本術語
- 示例(instance)或樣本(sample):關于一個事件或對象的描述的一條記錄
- 資料集(data set):所有記錄的集合
- 屬性(attribute)或特征(feature):反映事件或對象在某方面的表現或性質的事項
- 屬性值(attribute value):屬性上的取值
- 屬性空間(attribute space)、樣本空間(sample space)或輸入空間:屬性張成的空間;屬性的個數就是其次元,例如有3個屬性,那麼張成的空間就是三維空間;每個屬性都可以在這個空間中找到自己的坐标位置;是以,也把一個示例成為一個特征向量(feature vector)
- 學習(learning)或訓練(training):從資料中學的模型的過程,這個過程通過執行某個算法來完成
- 訓練資料(training data):訓練過程使用的資料
- 訓練樣本(training sample):訓練資料中的每個樣本
- 訓練集(training set):訓練樣本組成的集合
- 假設(hypothesis):學的模型對應了關于資料的某種潛在規律
- 假設空間:所有假設組成的空間
- 學習器(learner):學得的模型,可看作學習算法在給定資料和參數空間上的執行個體化
- 标記(label):關于示例結果的資訊
- 樣例(example):擁有了标記資訊的示例
- 标記空間(label space)或輸出空間:所有标記的集合
- 測試(testing):學的模型後,使用其進行預測的過程
- 測試樣本(testing sample):被預測的樣本
- 分類(classification):預測的是離散值
- 回歸(regression):預測的是連續值
- 聚類(clustering):将訓練集劃分為若幹組,每組稱為一個簇
- 泛化(generalization):學的模型适用于新樣本的能力
- 歸納偏好(inductive bias):機器學習算法在學習過程中對某種類型假設的偏好
假設空間
對于書中列舉的西瓜問題的假設空間問題有如下前提條件:
- 假設西瓜有三種屬性:色澤、根蒂、敲聲
- 假設色澤=[青綠,淺白,烏黑]、根蒂=[蜷縮,硬挺,稍蜷]、敲聲=[濁響,沉悶,清脆]
- 用通配符“*”表示可以選取任意值
- 用Ø表示沒有這個東西,或是這個概念不成立
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiI0gTMx81dsQWZ4lmZf1GLlpXazVmcvwFciV2dsQXYtJ3bm9CX9s2RkBnVHFmb1clWvB3MaVnRtp1XlBXe0xCMy81dvRWYoNHLwEzX5xCMx8FesU2cfdGLwMzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5SM5kjN0QWOykjM5gTOmZDMzYzXxQDNyITM1IzLchDMyIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjLyM3Lc9CX6MHc0RHaiojIsJye.png)
根據上面四個前提條件,我們可以得到如下的4x4x4+1=65種可能的情況:
- 色澤=青綠;根蒂=蜷縮;敲聲=濁響
- 色澤=青綠;根蒂=蜷縮;敲聲=沉悶
- 色澤=青綠;根蒂=蜷縮;敲聲=清脆
- 色澤=青綠;根蒂=蜷縮;敲聲=*
- 色澤=青綠;根蒂=硬挺;敲聲=濁響
- 色澤=青綠;根蒂=硬挺;敲聲=沉悶
- 色澤=青綠;根蒂=硬挺;敲聲=清脆
- 色澤=青綠;根蒂=硬挺;敲聲=*
- 色澤=青綠;根蒂=稍蜷;敲聲=濁響
- 色澤=青綠;根蒂=稍蜷;敲聲=沉悶
- 色澤=青綠;根蒂=稍蜷;敲聲=清脆
- 色澤=青綠;根蒂=稍蜷;敲聲=*
- 色澤=青綠;根蒂=*;敲聲=濁響
- 色澤=青綠;根蒂=*;敲聲=沉悶
- 色澤=青綠;根蒂=*;敲聲=清脆
- 色澤=青綠;根蒂=*;敲聲=*
- 色澤=淺白;根蒂=蜷縮;敲聲=濁響
- 色澤=淺白;根蒂=蜷縮;敲聲=沉悶
- 色澤=淺白;根蒂=蜷縮;敲聲=清脆
- 色澤=淺白;根蒂=蜷縮;敲聲=*
- 色澤=淺白;根蒂=硬挺;敲聲=濁響
- 色澤=淺白;根蒂=硬挺;敲聲=沉悶
- 色澤=淺白;根蒂=硬挺;敲聲=清脆
- 色澤=淺白;根蒂=硬挺;敲聲=*
- 色澤=淺白;根蒂=稍蜷;敲聲=濁響
- 色澤=淺白;根蒂=稍蜷;敲聲=沉悶
- 色澤=淺白;根蒂=稍蜷;敲聲=清脆
- 色澤=淺白;根蒂=稍蜷;敲聲=*
- 色澤=淺白;根蒂=*;敲聲=濁響
- 色澤=淺白;根蒂=*;敲聲=沉悶
- 色澤=淺白;根蒂=*;敲聲=清脆
- 色澤=淺白;根蒂=*;敲聲=*
- 色澤=烏黑;根蒂=蜷縮;敲聲=濁響
- 色澤=烏黑;根蒂=蜷縮;敲聲=沉悶
- 色澤=烏黑;根蒂=蜷縮;敲聲=清脆
- 色澤=烏黑;根蒂=蜷縮;敲聲=*
- 色澤=烏黑;根蒂=硬挺;敲聲=濁響
- 色澤=烏黑;根蒂=硬挺;敲聲=沉悶
- 色澤=烏黑;根蒂=硬挺;敲聲=清脆
- 色澤=烏黑;根蒂=硬挺;敲聲=*
- 色澤=烏黑;根蒂=稍蜷;敲聲=濁響
- 色澤=烏黑;根蒂=稍蜷;敲聲=沉悶
- 色澤=烏黑;根蒂=稍蜷;敲聲=清脆
- 色澤=烏黑;根蒂=稍蜷;敲聲=*
- 色澤=烏黑;根蒂=*;敲聲=濁響
- 色澤=烏黑;根蒂=*;敲聲=沉悶
- 色澤=烏黑;根蒂=*;敲聲=清脆
- 色澤=烏黑;根蒂=*;敲聲=*
- 色澤=*;根蒂=蜷縮;敲聲=濁響
- 色澤=*;根蒂=蜷縮;敲聲=沉悶
- 色澤=*;根蒂=蜷縮;敲聲=清脆
- 色澤=*;根蒂=蜷縮;敲聲=*
- 色澤=*;根蒂=硬挺;敲聲=濁響
- 色澤=*;根蒂=硬挺;敲聲=沉悶
- 色澤=*;根蒂=硬挺;敲聲=清脆
- 色澤=*;根蒂=硬挺;敲聲=*
- 色澤=*;根蒂=稍蜷;敲聲=濁響
- 色澤=*;根蒂=稍蜷;敲聲=沉悶
- 色澤=*;根蒂=稍蜷;敲聲=清脆
- 色澤=*;根蒂=稍蜷;敲聲=*
- 色澤=*;根蒂=*;敲聲=濁響
- 色澤=*;根蒂=*;敲聲=沉悶
- 色澤=*;根蒂=*;敲聲=清脆
- 色澤=*;根蒂=*;敲聲=*
- Ø
版本空間
給定的西瓜資料表如下所示:
編号 | 色澤 | 根蒂 | 敲聲 | 好瓜 |
1 | 青綠 | 蜷縮 | 濁響 | 是 |
2 | 烏黑 | 蜷縮 | 濁響 | 是 |
3 | 青綠 | 硬挺 | 清脆 | 否 |
4 | 烏黑 | 稍蜷 | 沉悶 | 否 |
- 對于第一個正例,符合要求的假設是編号:1、4、13、16、49、52、61、64
- 對于第二個正例,符合要求的假設是編号:33、36、45、48、49、52、61、64
- 對于第三個反例,符合要求的假設是編号:7、8、15、16、55、56、63、64
- 對于第四個反例,符合要求的假設是編号:42、44、46、48、58、60、62、64