天天看點

統計學第一周

本周學習内容

本周是統計學學習小組-第二期的第一周,

我們這周的學習内容是【資料的圖表展示】,涉及到的二級知識點有三個,分别是:

  • 1、資料預處理:資料稽核、篩選、排序
  • 2、品質資料的整理與展示:分類資料的整理與展示、順序資料的整理與展示
  • 3、數值型資料的整理與展示:資料分組、資料展示(本周學習内容的參考章節:統計學(賈俊平第七版)第三章

資料的預處理:

資料的預處理是在對資料分類或分組之前的必要處理,内容包括資料的稽核,篩選,排序等。

資料稽核:也是資料分析的第一步。包括資料的完整性和準确性,如果說是通過其他管道獲得的二手資料應該着重稽核資料的适用性和實效性。

資料篩選:相當于SQL裡面的where 比方說篩選成績90分以上的學生,資料量小的話Excel大部分都可以處理,量大還是用SQL,Python處理比較好

資料排序:數字升序降序比較友善,但漢字可以按照筆畫,拼音首字母

品質資料的整理與展示:

分類資料的整理與展示:頻數和頻數分布(Excel制作資料透視表P41) 使用時注意要突出什麼主題,按照性别,按照年齡,按照身份,不同的次元來解釋問題。一張好的統計圖表往往勝過冗長的文字表述,但是也需要注意把思考的時間盡量放在資料上,不是特别意義的PPT的展示圖表,被必要浪費大量時間作圖。

常用的圖表:

統計學第一周
統計學第一周
統計學第一周

順序資料的整理與展示:上面的也都适用于順序資料的整理與展示。但有一些方法僅适用于順序資料,不适用分類資料。

累計頻數:将各有續類别或組的頻數逐級累加起來得到的頻數

累計頻率或累計百分比:是将各有序類别或組的百分比逐級累加起來

統計學第一周

統計學第一周

統計學第一周

數值型資料的整理與展示:

資料分組:資料分組是根據統計研究的需要,将原始資料按照某種标準分成不同的組别,分組後的資料稱為分組資料。主要目的是觀察資料的分布特征。離散變量是把每一個變量分為一組;而連續變量或變量值較多的情況下通常采用組距分組,将資料分成若幹區間後再把分組的區間進行觀察。一個組的最小值稱為下限,一個組的最大值稱為上限。組中值=(下限+上限)/  2

資料展示:也就是采用不同的圖表來展現不同的問題

不同圖表解釋不同的資料:

統計學第一周

如:

統計學第一周
統計學第一周
統計學第一周
統計學第一周
統計學第一周

本期為統計學學習第一周,主要是以概念執行個體為主,堅持學習。

繼續閱讀