前邊我們已經講過很多内容了。回顧一下,主要有相關分析,假設檢驗,和各種回歸。以及因子分析。我們知道,對于兩組連續變量,我們可以通過假設檢驗來判斷他們的分布是否相同,差異時候存在。不知道大家想過沒有,如果我們想讨論兩個分類變量的分布是否相同呢?這裡我們首先來讨論這個問題。
首先舉個例子,假設我們有兩個不同季節的某種衛生的是否達标的記錄。那麼我們就是有兩組二分類的變量(就是取值不是這個就是那個,隻有兩種取值的變量)。對于這兩組變量,如果你還想用均值檢驗來看看分布是不是一樣的話,那我真是被你蠢哭了。這個明顯是不适合用均值檢驗或者非參數檢驗的。它适合的是我們正在介紹的卡方檢驗。
做分析首先需要做的第一步是輸入資料。正常的輸入方法是類似均值檢驗的:我們設一列達标與否,打一堆1或者2上去表示這個個案是達标或者不達标的。然後在設一列季節變量,在打一堆1或者2上去表示對應的這個個案是那個季節的。但是大部分時候,出于效率的考慮,我們都不會這麼輸資料。我們會設三個變量。達标與否,季節,權重。這樣我們用四個個案就能表示了(1,1,第一個季節達标的數量)(1,2,第二個季節達标的數量)(2,1,第一個季節不達标的數量)(2,2,第二個季節不達标的數量)。這兩種輸入資料的方法都是正确的,但是明顯,後一種要簡潔一些是不是?
然後,首先用權重那個變量為我們的所有資料權重。然後打開菜單分析——描述統計——交叉表。行選季節,列選達标與否(或者行選達标與否,列選季節),勾選下邊的顯示複式條形圖。點開統計量,全部勾選。點開單元格,全部勾選。然後确定。(為了後邊的對應分析,我得節省點篇幅。)
第一個表是在概述你的資料情況,不用管它。第二個表是卡方檢驗表。這個表可要好好看。我相信到了現在大家已經認識到了p值是多麼可愛,多麼重要的一個名額了,可是這個表的問題在于,它的p值太多了。分别有:pearson卡方,連續矯正,似然比,fisher精确檢驗,線性和線性組合,mcnemar檢驗,哇,這麼多,我到底要看哪一個呢?
首先你要看先你的最後一行的有效案例是多少個,其次還要看你最下邊的标注,有幾個單元格的期望計數小于2,最小期望計數是多少。有了這三個資料就能判斷用哪個p值了。注意,下邊這段判斷方法很重要,你最好找張紙抄下來。
有效案例大于等于40,所有期望計數大于等于5的時候,用pearson卡方。有效案例大于等于40,有期望計數小于5但最小的期望計數大于1時,用校正卡方。總頻數小于40,或者,注意,是或者,有期望計數小于1的時候,用fisher精确。
p值小于0.05,則認為有差異。
現在把我們的例子在變一變,如果我們的衛生達标與否這個名額改為了一個三分類變量,不達标,合格,優秀。這三種類别呢?
操作過程和上邊是一樣的,但是結果隻會告訴你這三組是否有差異,到底那組和那組有差異還要自己從新在做四格表才能判斷。
另,在加一個變量,比如這個個案是公有性質或私有性質,三個名額放到一起來判斷的時候,就把性質這個變量放到交叉表的主面闆的層裡邊(就在行和列的框框下邊。)
粗略的說完卡方以後,我們就來介紹一下對應分析。
卡方檢驗通常用來處理比較簡單的問題,但是對于複雜一點的問題,它的效果會很糟糕哦。比如我的變量每個都有四五個分類,我想看看分類之間的分布是否有差别等等的,肯定不可能用卡方撒。是以這時候就用到了對應分析。
對應分析又叫做關聯分析,因為它不僅能反映出來那個分類和那個分類的分布有沒有差别,也能反映出來變量之間的分類誰和誰更容易接近。舉個例子,假設我有一個變量分類為1,2,3,4,5,另一個變量分類為a,b,c,d,e,f。那麼我不僅能觀察知道1,2,3,4,5之間誰和誰更接近,我還能觀察知道a是和1,2,3,4,5中的那個更親近,b又是和誰更親近,套用到實際問題裡就是我會知道,哪一類人更容易有那種行為,是以也叫關聯分析。(這個名是不是比對應分析響亮一些?想想啤酒與尿布的故事吧!注意,你已經開始涉及到一些機器學習的内容了。)
那麼為什麼對應分析算是降維分析的一種呢?主要是因為它的原理是主成分分析。粗糙的了解是這樣的,它通過把兩個多分類變量分别降維降到二維(就是用兩個成分來表示這個多分類變量,類似因子分析裡的成分圖),然後把兩張二維的圖通過某些轉換合到一塊(你湊合着這麼了解吧,不是簡單的往一塊和,在最一開始就是一塊降得),然後你就可以在一張平面上觀察了。是以它歸到降維裡的範疇。盡管它不像因子分析那樣,把多個變量降成較少的變量那樣好了解。
打開菜單分析——降維——對應分析,行和列各選擇一個分類變量。比如一個變量是年齡段的分類,另一個變量是對某種商品的喜愛程度。在行和列的框框下邊還有一個定義範圍,點開那個對話框,選擇你的最大值和最小值。定義好以後打開模型對話框,解得維數一般選2,處于一個好觀察的角度,也出于準确性,一般選擇2。然後在打開統計量,勾選對應表,行點概覽,列點概覽,列輪廓表。繪制對話框勾選雙标圖。然後就可以得到結果了。
對應表和簡要表是不怎麼重要的,可以忽略掉。注意看摘要表。首先要解釋兩個名詞。 奇異值。(這裡忍不住插嘴,世界上優秀的智能推薦的算法都是用的奇異值分解。)我們知道一個大矩陣通過這麼這麼分解,那麼那麼分解,最後能分解成幾個小矩陣。這些小矩陣就對應于我們的一個個的成分。是以奇異值的大小呢,就能反映這些小矩陣的重要程度。那麼奇異值和因子分析裡的特征值有什麼差別呢?特征值是用在方陣裡的,而奇異值是用在長方形的矩陣裡的。而慣量它是奇異值的方,就類似于特征值了。這兩個名詞了解就可以了,不需要詳細的知道。
在摘要表裡第一要看總計裡邊的p值。這個p值不小于0.05的話,那對應分析完全就是沒意義的。
第二要看慣量比例裡邊的解釋。對應的百分比。這個類似于因子分析裡解釋的總方差。都是反映的某一個維能夠解釋模變量的百分比。通常來說,前兩個維都要起碼累積到百分之九十。有的資料很好的話,可能隻能提取出兩個維,兩個維就能夠累計到百分之百了。
在下邊是概述點,如果你的摘要表表現很好的話,這個表就不怎麼用看啦。
最後是最重要的散點圖。
輕按兩下散點圖,在圖形編輯裡邊調整坐标的初始值,在行和列的0.0處加輔助線。然後這張圖就會别分成四大塊了。中心點就是(0,0)。那麼在這張圖上邊就會有兩類不同圖形的點點,比如圓形表示年齡段的分類,三角表示喜愛程度。在小圖形附近還會标注清楚每個小圖形對應那個程度。那麼這個圖怎麼看呢?
首先四個大塊就直覺的告訴我們那些點和那些點距離比較近了。比如代表20歲到40歲的點和非常喜愛的點靠的很近,那麼就可以認為20歲到40歲的人會非常喜愛這個産品。這是最基本的一個資訊。此外我們可以通過輔助線來進一步解釋這張圖。比如,我們找到代表非常喜愛的這個三角形,然後把這個點和(0,0)的中心點連線,連出一條直線來。然後把所有的小圓點向這條線做垂線。就是代表每個年齡段的小圓點都引一條垂線出來,垂點落到原來的那條直線上。假如我們分四個年齡段的話,那我們現在就有四個垂點啦。然後我們比較這四個垂點離代表非常喜愛的那個三角形的距離。注意,比較的是垂點哦。垂點離三角形越近,也就是說該年齡段的人越容易表達出非常喜愛哦。因為是垂點,是以從圖上看離得比較遠的兩個點未必就關聯程度比較低哦。
同樣的道理,我們也可以做出同一年齡段的人更容易喜愛還是不喜愛這個産品的直線圖。總之散點圖可以很直覺的解釋資訊哦。
簡單對應分析大概就是這樣了。注意,做簡單分析的時候,我們隻能觀察兩個變量啊。那怎麼觀察更多的變量呢?敬請期待下一講:多重對應分析。