1.分類問題
分類問題是監督學習的一個核心問題。在監督學習中,當輸出變量Y,Y取有限個離散值時,預測問題便成為分類問題。
監督學習從資料中學習一個分類決策函數或分類模型,稱為分類器(classifier)。分類器對新的輸入進行輸出的預測,這個過程稱為分類。
分類問題包括學習與分類兩個過程。在學習的過程中,根據已知的訓練樣本資料集利用有效的學習方法學習一個分類器;在分類中,利用學習的分類器對新的輸入執行個體進行分類。
評價分類器性能的名額一般是分類的準确率,其定義是:對于給定的測試資料集,分類器正确分類的樣本數與總樣本數之比。
對于二分類問題常用的評價名額是精确率(precision)與召回率(recall)。通常以關注的類為正類,其他類為負類,分類器在測試資料集上的預測或正确或不正确,4種情況出現的總數分别記作:
- TP —— 将正類預測為正類的數量;
- FN —— 将正類預測為負類的數量;
- FP —— 将負類預測為正類的數量;
- TN —— 将負類預測為負類的數量;
精确率真和召回率都高時,F1也會高。
許多的機器學習方法可以用來解決分類問題,包括k近鄰法、感覺機、樸素貝葉斯法、決策樹、邏輯斯谛回歸模型、SVM、adaBoost、貝葉斯網絡、神經網絡等。
比如一個文本内容分類的例子。文本分類是根據文本的特征将其劃分到已有的類中。輸入是文本的特征向量,輸出是文本的類别。通常把文本中的單詞定義為特征,每個單詞對應一個特征。單詞的特征可以是二值的:如果單詞在文本中出現則取值1,否則是0;也可以是多值的,表示單詞在文本中出現的頻率。形象地,如果“股票”“銀行”“貨币”這些詞出現很多,這個文本可能屬于經濟類,如果“網球”“比賽”“運動員”這些詞頻繁出現,這個文本可能屬于體育類。
2. 标注問題
标注問題也是一個監督學習問題。可以認為标記問題是分類問題的一個推廣。
标注問題的輸入是一個觀測序列,輸出的是一個标記序列或狀态序列。也就是說,分類問題的輸出是一個值,而标注問題輸出是一個向量,向量的每個值屬于一種标記類型。
标注常用的機器學習方法有:隐性馬爾可夫模型、條件随機場。
自然語言進行中的詞性标注(part of speech tagging)就是一個典型的标注問題:給定一個由單詞組成的句子,對這個句子中的每一個單詞進行詞性标注,即對一個單詞序列預測其對應的詞性标記序列。
3. 回歸問題
回歸問題也屬于監督學習中的一類。回歸用于預測輸入變量與輸出變量之間的關系,特别是當輸入變量的值發生變化時,輸出變量的值随之發生的變化。
回歸模型正是表示從輸入變量到輸出變量之間映射的函數。回歸問題的學習等價于函數拟合:選擇一條函數曲線,使其很好地拟合已知資料且很好地預測未知資料。
回歸問題按照輸入變量的個數,可以分為一進制回歸和多元回歸;按照輸入變量與輸出變量之間關系的類型,可以分為線性回歸和非線性回歸。
回歸學習最常用的損失函數是平方損失,在此情況下,回歸問題可以由著名的最小二乘法求解。