logistic 回歸
Logistic 回歸( Logistic regression )是統計學習中的經典分類方法,和最大熵模型一樣同屬于對數線性模型是一種機率型非線性回歸模型,也是一種廣義線性回歸( Generalized linear model ),是以與多元線性回歸分析有很多相同之處,它們的模型形式基本上相同,都具有 w’x+b ,其中 w 和 b 是待估計的參數,其差別在于它們的因變量不同,多元線性回歸直接将 w’x+b 作為因變量,即 y=w’x+b ,而 logistic 回歸則通過函數 L 将 w’x+b 對應一個隐狀态 p ,其中 p=L(w’x+b) ,然後根據 p 與 1-p 的大小決定因變量的值。如果 L 是 logistic 函數,就是 logistic 回歸,如果 L 是多項式函數就是多項式回歸。Logistic 回歸的因變量可以是二分類的,也可以是多分類的(多類可以使用 softmax 方法進行處理),但實際中最為常用的是二分類的 logistic 回歸。常用于資料挖掘,疾病自動診斷,經濟預測等領域。
原理: 引入 Logistic 回歸是因為,如果直接将線性回歸的模型放到 Logistic 回歸中,會造成方程兩邊取值區間不同,因為 Logistic 回歸中因變量為分類變量,以某個機率作為方程的因變量估計值,取值範圍為 0-1 ,但是,方程右邊取值範圍是無窮大或者無窮小。
适用性:
(1)可用于機率預測,也可用于分類。
并不是所有的機器學習方法都可以做可能性機率預測(比如 SVM 就不行,它隻能得到 1 或者 -1 )。可能性預測的好處是結果有可比性:比如我們得到不同廣告被點選的可能性後,就可以展現點選可能性最大的前 N 個。這樣以來,哪怕得到的可能性都很高,或者可能性都很低,我們都能取最優的 topN。當用于分類問題時,僅需要設定一個門檻值即可,可能性高于門檻值是一類,低于門檻值是另一類。
(2)僅能用于線性問題
隻有在 feature 和 target 是線性關系時,才能用 Logistic Regression (不像 SVM 那樣可以應對非線性問題)。這有兩點指導意義,一方面當預先知道模型非線性時,果斷不使用 Logistic Regression ;另一方面,在使用 Logistic Regression 時注意選擇和 target 呈線性關系的 feature 。
(3)各 feature 之間不需要滿足條件獨立假設,但各個 feature 的貢獻是獨立計算的。邏輯回歸不像樸素貝葉斯一樣需要滿足條件獨立假設(因為它沒有求後驗機率)。但每個 feature 的貢獻是獨立計算的,即LR 是不會自動幫你 結合不同的特征進而産生新特征。舉個例子,如果你需要 TFIDF 這樣的特征,就必須明确的給出來,若僅僅分别給出兩維 TF 和 IDF 是不夠的,那樣隻會得到類似 aTF + bIDF 的結果,而不會有 cTF*IDF 的效果。
Logistic 函數或 logistic 曲線是一種常見的 S 形函數,它是皮埃爾·弗朗索瓦·韋呂勒在 1844 或 1845 年在研究它與人口增長的關系時命名的。廣義 logistic 曲線可以模仿一些情況人口增長( P )的 S 形曲線。起初階段大緻是指數增長;然後随着開始變得飽和,增加變慢;最後,達到成熟時增加停止。
Logistic 函數其實就是這樣一個函數:

其中 P0 為初始值,K 為終值,r 衡量曲線變化快慢。由于其圖像很像一個 S 型,是以又叫 sigmoid 曲線( S 型曲線)。當然我們回歸分析裡,在一般情況下的 logistic 函數是:
由于sigmoid函數的定義域為(-inf,inf),值域為(0,1)。設 X 是連續随機變量,若 X 服從 logistic 分布,則其分布函數為:
其密度函數為:
注意:式中的 μ 是位置參數,決定了函數中心所處的位置,當 μ=0 時,圖像關于點(0,0.5)對稱;γ 是形狀參數,且 γ > 0 ,當 γ 值越大分布函數的圖象越緩。當 μ=0 ,取不同 γ 值的分布函數如下圖所示。
由上圖可看出,分布函數的值在 μ 附近變化較為劇烈,其值域在 [0,1] 之間,和 sigmoid 函數一樣,這一性質使得該分布函數很适合作機率的分布函數,且當自變量取 0 時,函數值為 0.5 ,适合作分類。由圖像趨勢可以看出,綠線最緩,說明其 γ 值最大,藍線最陡,則其 γ 值最小。