天天看點

ML-Chapter1

第一章 緒論

基本術語

  • 示例(instance)或樣本(sample):關于一個事件或對象的描述的一條記錄
  • 資料集(data set):所有記錄的集合
  • 屬性(attribute)或特征(feature):反映事件或對象在某方面的表現或性質的事項
  • 屬性值(attribute value):屬性上的取值
  • 屬性空間(attribute space)、樣本空間(sample space)或輸入空間:屬性張成的空間;屬性的個數就是其次元,例如有3個屬性,那麼張成的空間就是三維空間;每個屬性都可以在這個空間中找到自己的坐标位置;是以,也把一個示例成為一個特征向量(feature vector)
  • 學習(learning)或訓練(training):從資料中學的模型的過程,這個過程通過執行某個算法來完成
  • 訓練資料(training data):訓練過程使用的資料
  • 訓練樣本(training sample):訓練資料中的每個樣本
  • 訓練集(training set):訓練樣本組成的集合
  • 假設(hypothesis):學的模型對應了關于資料的某種潛在規律
  • 假設空間:所有假設組成的空間
  • 學習器(learner):學得的模型,可看作學習算法在給定資料和參數空間上的執行個體化
  • 标記(label):關于示例結果的資訊
  • 樣例(example):擁有了标記資訊的示例
  • 标記空間(label space)或輸出空間:所有标記的集合
  • 測試(testing):學的模型後,使用其進行預測的過程
  • 測試樣本(testing sample):被預測的樣本
  • 分類(classification):預測的是離散值
  • 回歸(regression):預測的是連續值
  • 聚類(clustering):将訓練集劃分為若幹組,每組稱為一個簇
  • 泛化(generalization):學的模型适用于新樣本的能力
  • 歸納偏好(inductive bias):機器學習算法在學習過程中對某種類型假設的偏好

假設空間

對于書中列舉的西瓜問題的假設空間問題有如下前提條件:

  • 假設西瓜有三種屬性:色澤、根蒂、敲聲
  • 假設色澤=[青綠,淺白,烏黑]、根蒂=[蜷縮,硬挺,稍蜷]、敲聲=[濁響,沉悶,清脆]
  • 用通配符“*”表示可以選取任意值
  • 用Ø表示沒有這個東西,或是這個概念不成立
ML-Chapter1

根據上面四個前提條件,我們可以得到如下的4x4x4+1=65種可能的情況:

  1. 色澤=青綠;根蒂=蜷縮;敲聲=濁響
  2. 色澤=青綠;根蒂=蜷縮;敲聲=沉悶
  3. 色澤=青綠;根蒂=蜷縮;敲聲=清脆
  4. 色澤=青綠;根蒂=蜷縮;敲聲=*
  5. 色澤=青綠;根蒂=硬挺;敲聲=濁響
  6. 色澤=青綠;根蒂=硬挺;敲聲=沉悶
  7. 色澤=青綠;根蒂=硬挺;敲聲=清脆
  8. 色澤=青綠;根蒂=硬挺;敲聲=*
  9. 色澤=青綠;根蒂=稍蜷;敲聲=濁響
  10. 色澤=青綠;根蒂=稍蜷;敲聲=沉悶
  11. 色澤=青綠;根蒂=稍蜷;敲聲=清脆
  12. 色澤=青綠;根蒂=稍蜷;敲聲=*
  13. 色澤=青綠;根蒂=*;敲聲=濁響
  14. 色澤=青綠;根蒂=*;敲聲=沉悶
  15. 色澤=青綠;根蒂=*;敲聲=清脆
  16. 色澤=青綠;根蒂=*;敲聲=*
  17. 色澤=淺白;根蒂=蜷縮;敲聲=濁響
  18. 色澤=淺白;根蒂=蜷縮;敲聲=沉悶
  19. 色澤=淺白;根蒂=蜷縮;敲聲=清脆
  20. 色澤=淺白;根蒂=蜷縮;敲聲=*
  21. 色澤=淺白;根蒂=硬挺;敲聲=濁響
  22. 色澤=淺白;根蒂=硬挺;敲聲=沉悶
  23. 色澤=淺白;根蒂=硬挺;敲聲=清脆
  24. 色澤=淺白;根蒂=硬挺;敲聲=*
  25. 色澤=淺白;根蒂=稍蜷;敲聲=濁響
  26. 色澤=淺白;根蒂=稍蜷;敲聲=沉悶
  27. 色澤=淺白;根蒂=稍蜷;敲聲=清脆
  28. 色澤=淺白;根蒂=稍蜷;敲聲=*
  29. 色澤=淺白;根蒂=*;敲聲=濁響
  30. 色澤=淺白;根蒂=*;敲聲=沉悶
  31. 色澤=淺白;根蒂=*;敲聲=清脆
  32. 色澤=淺白;根蒂=*;敲聲=*
  33. 色澤=烏黑;根蒂=蜷縮;敲聲=濁響
  34. 色澤=烏黑;根蒂=蜷縮;敲聲=沉悶
  35. 色澤=烏黑;根蒂=蜷縮;敲聲=清脆
  36. 色澤=烏黑;根蒂=蜷縮;敲聲=*
  37. 色澤=烏黑;根蒂=硬挺;敲聲=濁響
  38. 色澤=烏黑;根蒂=硬挺;敲聲=沉悶
  39. 色澤=烏黑;根蒂=硬挺;敲聲=清脆
  40. 色澤=烏黑;根蒂=硬挺;敲聲=*
  41. 色澤=烏黑;根蒂=稍蜷;敲聲=濁響
  42. 色澤=烏黑;根蒂=稍蜷;敲聲=沉悶
  43. 色澤=烏黑;根蒂=稍蜷;敲聲=清脆
  44. 色澤=烏黑;根蒂=稍蜷;敲聲=*
  45. 色澤=烏黑;根蒂=*;敲聲=濁響
  46. 色澤=烏黑;根蒂=*;敲聲=沉悶
  47. 色澤=烏黑;根蒂=*;敲聲=清脆
  48. 色澤=烏黑;根蒂=*;敲聲=*
  49. 色澤=*;根蒂=蜷縮;敲聲=濁響
  50. 色澤=*;根蒂=蜷縮;敲聲=沉悶
  51. 色澤=*;根蒂=蜷縮;敲聲=清脆
  52. 色澤=*;根蒂=蜷縮;敲聲=*
  53. 色澤=*;根蒂=硬挺;敲聲=濁響
  54. 色澤=*;根蒂=硬挺;敲聲=沉悶
  55. 色澤=*;根蒂=硬挺;敲聲=清脆
  56. 色澤=*;根蒂=硬挺;敲聲=*
  57. 色澤=*;根蒂=稍蜷;敲聲=濁響
  58. 色澤=*;根蒂=稍蜷;敲聲=沉悶
  59. 色澤=*;根蒂=稍蜷;敲聲=清脆
  60. 色澤=*;根蒂=稍蜷;敲聲=*
  61. 色澤=*;根蒂=*;敲聲=濁響
  62. 色澤=*;根蒂=*;敲聲=沉悶
  63. 色澤=*;根蒂=*;敲聲=清脆
  64. 色澤=*;根蒂=*;敲聲=*
  65. Ø

版本空間

給定的西瓜資料表如下所示:

編号 色澤 根蒂 敲聲 好瓜
1 青綠 蜷縮 濁響
2 烏黑 蜷縮 濁響
3 青綠 硬挺 清脆
4 烏黑 稍蜷 沉悶
  1. 對于第一個正例,符合要求的假設是編号:1、4、13、16、49、52、61、64
  2. 對于第二個正例,符合要求的假設是編号:33、36、45、48、49、52、61、64
  3. 對于第三個反例,符合要求的假設是編号:7、8、15、16、55、56、63、64
  4. 對于第四個反例,符合要求的假設是編号:42、44、46、48、58、60、62、64

繼續閱讀