天天看點

《誰說菜鳥不會資料分析》之資料分析

什麼是資料分析?

顧名思義,資料分析就是對資料進行分析。

可是,資料分析的真正定義是什麼呢?

資料分析是指利用适當的統計分析方法對收集來的大量資料進行分析,将他們加以彙總消化并了解,以最大化地開發資料功能,發揮資料的作用。

資料分析有哪幾類?

資料分析可分為:

* 描述性資料分析

* 探索性資料分析

* 驗證性資料分析

下面簡單介紹一下,描述性資料分析屬于初級資料分析,常用的資料分析方法有對比分析、平均分析、交叉分析等。

探索性資料分析側重于在資料發現未知的新的特征;驗證性分析側重于驗證已有假設的真僞證明。

後兩者屬于進階資料分析,常用的分析方法有相關性分析、因子分析、回歸分析等。

資料分析有什麼作用?

* 現狀分析
* 原因分析
* 預測分析
           

資料分析六部曲

* 明确分析目的和思路
* 資料收集
* 資料處理
* 資料分析
* 資料展現
* 報告撰寫
           

明确資料分析目的以及确定分析思路,是確定資料分析過程有效進行的先決條件,可以為資料收集、處理以及分析提供清晰的指引方向。

在明确資料分析目的後,就要梳理分析思路,搭建分析架構,并把分析目的分解成若幹個不同的分析要點,及如何開展資料分析,需要從那幾個角度進行分析,采用哪些分析名額。其中架構确定後還需要確定架構的體系化,體系化即整體分析思路架構的邏輯性。

資料挖掘與資料分析的關系

兩者的本質其實是一緻的,都是從大量的資料中發現規律,實作自己的目的。

簡單來說,資料挖掘是資料分析的進階。資料分析隻是用到統計分析方法,而資料挖掘不僅用到資料分析階段的數學知識,還需要用到計算機語言進行程式設計對資料進行處理。

一般來說,資料挖掘側重于解決四種資料分析問題:分類、聚類、關聯和預測。

字段、記錄、資料類型

字段是事物或現象的某種特征。簡單來說,就是資料庫中的列,一列為一個字段,對應着spss(統計學)中的變量。

記錄是事物或現象的具體表現。簡單來說,就是資料庫中的一行,一行為一條記錄,對應着spss(統計學)中的個案。

資料類型分為數值、文本、日期、貨币、時間、分析、百分比等。

總的可以分為字元型、數值型、日期型等大類。日期型屬于特殊的數值型資料。

變量尺度

在統計學中,按照對事物描述的精确程度,将采用的測量尺度從地低到高分為四個層次:定類尺度、定序尺度、定距尺度和定比尺度。

定類尺度

是對事物類别或屬性的一種測度,如性别、職業。

特點:隻能代表事物的類别與屬性,不能比較各類别的大小。

SPSS中用“名義”來表示。

分類原則:互相獨立、完全窮盡

定序尺度

對事物之間等級或順序的一種測量,如學曆、職級。

特點:隻能排序,不能算數計算。

SPSS中用“有序”表示。

定距尺度

對事物次序之間間距的一種測度,如溫度、時間

特點:隻能加減,不能乘除,可排序,能計算次序之間差距

定比尺度

測算兩個測量值之間比值的一種測度。

特點:可加減乘除,如收入、使用者量等

定比尺度與定距尺度最大的差別是它有一固定的絕對“0”值。兩者在絕大多數統計分析中沒有本質的差別,SPSS将他們合并為一類為“标度”。

資料類型與變量尺度

資料類型是資料庫用語,變量尺度是統計學用語。

兩者的關系可以用下表來表示。

《誰說菜鳥不會資料分析》之資料分析

工作簿與工作表

在Excel中,一個sheet為一個工作表,一個Excel為一個工作簿,工作簿中可以有多個工作表。

資料處理

資料處理分為資料清洗與資料加工。

資料清洗

(spss中【資料】菜單欄)

資料清洗,顧名思義就是把資料洗幹淨,處理成自己想要的資料。

資料清洗包括:

* 删除重複資料

* 補充缺失資料

* 改正錯誤資料(包括内容錯誤和邏輯錯誤)

删除重複資料:【資料】-【辨別重複個案】

資料加工

(spss中【轉換】菜單欄)

經過資料清洗過的資料也不一定是我們想要的資料。還需要對資料進行資訊提取、計算、分組、轉換等,将其變成我們想要的資料表。

資料抽取

字段拆分:【轉換】-【計算變量】-函數組-Substr(3),類似于excel中mid函數

随機抽樣:【資料】-【選擇個案】-【随機個案樣本】

資料合并

字段合并:【轉換】-【計算變量】-【函數組】-Concat函數

記錄合并:【資料】-【合并檔案】-【添加個例】

資料分組

可視化分箱:【轉換】-【可視化分箱】

重新編碼:【轉換】-【重新編碼為不同變量】

資料标準化

0-1标準化(離差标準化)、Z标準化(标準差标準化)

《誰說菜鳥不會資料分析》之資料分析

繼續閱讀