天天看點

關鍵詞共現分析_【如何寫論文系列之 SPSS資料分析】資料的類型根據存儲方式劃分根據測量尺度劃分

在學習資料分析時,我們常會提到由于某某資料是某類型,是以采取對于的統計分析方法。是以對于資料類型的了解就變得十分必要。

根據存儲方式劃分

根據存儲方式,我們可以把資料分為結構化資料和非結構化資料。

  • 結構化資料:特征和觀察值以表格形式存儲(行列結構),例如存儲個體屬性資料的二維表、存儲在圖或鄰接矩陣的關系矩陣;
  • 非結構化資料:資料以自由實體形式存在,不符合任何标準的組織層次結構,例如伺服器日志、郵件、文本等;

非結構化資料一般可以通過資料預處理轉化為結構化資料,以便使用統計方法進行分析。例如,一段文字描述,可使用“字數/短語”,“特殊符号”,“文本相對長度”,“文本主題”來描述文本特征;發帖的文本,可以通過語義分析提取共現詞,形成關鍵詞共現矩陣。

根據測量尺度劃分

其中的結構化資料根據資料的測量尺度可以劃分為分類型資料和數值型資料。

  • 定量資料:用數字表示,并支援包括加法在内的數學運算;
  • 定性資料:用自然類别和文字表示,不支援數字格式和數學運算;

而定量資料可繼續分為離散型和連續型:

  • 離散型資料:計數類資料,取值為自然數或整數;
  • 連續型資料:測量類資料,取值為無限範圍區間;

以上的劃分較為粗略,統計學中一般根據測量尺度的不同把資料分為四類:

定類資料

定序資料

定距資料

定比資料

我們根據不同的資料類型才能選用相應的統計方法。

定類尺度(Nominal Measurement)

定類資料也稱作名義資料,是對事物的類别或屬性的一種劃分,按照事物的某種屬性對其進行分類或分組。其特點是其值僅代表了事物的類别和屬性,僅能表示類别差異,不能比較各類之間的大小,各類之間沒有順序或等級,

定類變量隻能計算頻數和頻率,不能進行大小的比較。

例如:

”性别“變量:分為男、女。男和女沒有次序之分,隻是表示不同類别。在 SPSS 編碼中,我們可以把”男“編碼為1,”女“編碼為2,這裡的“1“、“2”隻是表示類别的不同,沒有次序關系。我們可以計算男性和女性的頻數和頻率。地區變量:分為東部、中部、西部等。

在 SPSS 中使用度量标準(Measure)屬性對變量的測量尺度進行定義,其中定類尺度變量用名義(N) 來表示。能使用的定類尺度的資料可以是數值型變量,也可以是字元型變量。

要注意的是,使用定類變量對事物進行分類時,必須符合互相獨立和完全窮盡原則 (Mutually Exclusive Collectively Exhaustive,MECE)。互相獨立是指每個樣本都隻能歸為一個類别,而不能同時歸屬多個類别,完全窮盡是指每個樣本都必須歸為一個類别。

定序變量(Ordinal Measurement)

定序尺度是對事物之間等級或順序差别的一種測度,用數字表示個體在某個有序狀态中所處的位置,可以比較優劣或排序。定序變量比定類變量的資訊量多一些,不僅含有類别的資訊,還包含了次序的資訊;但是由于定序變量隻測度類别之間的順序,無法測出類别之間的準确內插補點,即測量數值不代表絕對的數量大小,是以其計量結果隻能排序,不能進行算術運算。對于定序變量除了可以計算頻率之外,還可以計算累計頻率。例如:

反映被調查者對某事物或主題的綜合态度的李克特量表就是定序變量,如非常同意、比較同意、一般、比較不同意、非常不同意。我們可以計算同意的人數和比例,還可以計算比較同意及非常同意的累計人數和比例。“學曆”變量:分為國小、國中、高中、大學、研究所學生。

定距尺度(Interval Measurement)

定距尺度是對事物類别或次序之間間距的測度。其特點是其不僅能将事物區分為不同類型并進行排序,而且可準确指出類别之間的差距是多少;定距變量通常以自然或實體機關為計量尺度,是以測量結果往往表現為數值,是以計量結果可以進行加減運算,生活中最典型的定距尺度變量就是溫度。

定比尺度(Scale Measurement)

定比尺度是能夠測算兩個測度值之間比值的一種計量尺度,它的測量結果同定距變量一樣也表現為數值,如職工月收入、企業銷售額等。

區分定距尺度和定比尺度

定距尺度和定比尺度的差别在于是否存在一個固定的絕對“零點”。定距尺度中沒有絕對的0 點,其中的“0”并不表示“沒有”,僅僅是一個測量值。比如溫度,0℃隻是一個普通的溫度(水的冰點),并非沒有溫度,是以它隻是定距變量。而定比尺度中的“0”則真正表示“沒有”。比如重量,則是定比變量,0 kg 就意味着沒有重量可言。

定比變量是測量尺度的最高水準,它除了具有其他 3 種測量尺度的全部特點外,還具有可計算兩個測度值之間比值的特點,是以可進行加、減、乘、除運算,而定距變量嚴格來說隻可進行加減運算。

SPSS 中預設的變量測量尺度就是定比尺度。但由于後兩種測量尺度在絕大多數統計分析中沒有本質上的差别,在 SPSS 中就将其合并為一類,統稱為“度量(S)”。這 3 種尺度有更為通俗的名稱:無序分類變量、有序分類變量和連續性變量。

以下是四種資料尺度的比較:
關鍵詞共現分析_【如何寫論文系列之 SPSS資料分析】資料的類型根據存儲方式劃分根據測量尺度劃分
資料尺度的比較

一般來說,資料的等級越高,應用範圍越廣泛,等級越低,應用範圍越受限。不同測度級别的資料,應用範圍不同。等級高的資料,可以兼有等級低的資料的功能,而等級低的資料,不能兼有等級高的資料的功能。

關鍵詞共現分析_【如何寫論文系列之 SPSS資料分析】資料的類型根據存儲方式劃分根據測量尺度劃分