天天看點

學習筆記146—各種分類的差別【分類篇】

one-class classification -- 一進制分類

In machine learning, one-class classification, also known as unary classification, tries to identify objects of a specific class amongst all objects, by learning from a training set containing only the objects of that class. -- Wikipedia

維基百科中的定義是:一類分類,即一進制分類,通過僅包含該類的對象的訓練資料中學習,試圖能夠在所有對象中識别該特定類的對象。

one-class classification是由[Moya & Hush][1]在1996年提出的,目前已有很多這方面的研究。一個類似的問題是PU Learning,後者是以半監督的學習方式從正類樣本和未标記樣本中學習,建立二進制分類器。

multi-label classification -- 多标簽學習

Multi-label classification is a classification problem where multiple target labels must be assigned to each instance. -- Wikipedia

多标簽學習與另外一個工作有強相關的聯系——(multi-output classification)多輸出學習(?)。另外,一定要與multi-class classification區分開。前者是指一個樣本一般所屬不僅僅是一個類别,它的輸出一般是一個向量(010110,屬于第2,4,5類);而後者一個樣本隻屬于一個類。有兩種方法解決這類問題:一類是problem transformation methods(即吧問題轉換成二進制分類問題,然後用上面所說的一進制分類器來解決),一類是problem adaption methods。

multi-class classification -- 多類分類

終于到了我們的leading role。

In machine learning, multiclass or multinomial classification is the problem of classifying instances into one of the more than two classes(classifying instances into one of the two classes is called binary classification). -- Wikipedia

維基中的定義是:多類學習是指将樣本從超出兩個類的可能類别中分入一個類中。

有兩類政策可以解決此類問題。

One vs. all

這樣的政策是為每個類别都訓練一個分類器,在這個分類器中,将該類的樣例視為正例,其他所有類的樣例視為負例。該政策要求每個基分類器都産生一個機率值(置信值,一個樣本分為這個類的置信值有多大),而不僅僅是類别标簽,隻給出類别标簽可能會導緻一個樣本被分入多個類。這樣通過所有對比所有的分類器給出最終的決策。

y=argmaxk∈{1,...,K}fk(x)y=argmaxk∈{1,...,K}fk(x)

這種政策很友善但是帶來了一些問題。例如:即使在訓練集中樣本的類别分布是均衡的,對于基二進制分類器來說卻是不均衡的,因為對基分類器來說,負例樣本要遠遠多于正例樣本[此處輸傳入連結接的描述][2]。

One vs. one

對于一對一的政策來說,K分類問題需要訓練K(K−1)2K(K−1)2個二進制分類器。每個分類器從原始的訓練集中選擇兩個類,然後針對這兩個類訓練一個基分類器。在決策的時候,用K(K−1)2K(K−1)2個分類器分别做決策,然後将樣本分入"+1"得到最多的那個類别中。

目前,已有很多工作基于神經網絡、決策樹、K近鄰、樸素貝葉斯、SVM等的改進算法可以直接處理多分類問題。這些技術也被稱為Algorithm Adaptation techniques.

神經網絡

多層感覺器(Multilayer perceptron)為解決多類問題提供了自然的延伸。不像之前的在輸出層隻有一個神經元,多層感覺器有N個二進制神經元,以便處理多分類問題。

KNN

KNN被認為是最經典的非參分類模型。對于一個未知label的樣本,需要計算它與其他所有樣本之間的距離,選擇其中距離最小的K個樣本,并且這K個樣本中類别數最多的一個被認為是這個未知樣本的label。KNN可以直接處理多分類問題。

樸素貝葉斯

NB是基于貝葉斯後驗機率(MAP)的一類分類器。盡管貝葉斯定理有要求樣本間條件獨立的假設,NB仍能很友善的擴充到多分類問題中,而且效果較好。

SVM

SVM分類器的思想是最大化從分離超平面到最近樣本之間的最小距離,基本的SVM用來處理二分類問題,但可以在優化條件中加入附加參數和限制來處理多分類問題。

【參考文獻】

[1]: Moya, M. and Hush, D. (1996). "Network constraints and multi- objective optimization for one-class classification". Neural Networks, 9(3):463–474. doi:10.1016/0893-6080(95)00120-4

[2]: Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer.

​​​​

繼續閱讀