天天看點

統計學基礎--資料基礎

文章目錄

    • 統計學與機率論間的關系
    • 标準差
    • 除法的雙重含義
    • 頻數分布表
    • 代表值
    • 四分位數
    • 變量與資料
    • 關于置信區間

統計學與機率論間的關系

機率論研究的是一個白箱子,你知道這個箱子的構造(裡面有幾個紅球、幾個白球,也就是所謂的分布函數),然後計算下一個摸出來的球是紅球的機率。而統計學面對的是一個黑箱子,你隻看得到每次摸出來的是紅球還是白球,然後需要猜測這個黑箱子的内部結構,例如紅球和白球的比例是多少?(參數估計)能不能認為紅球40%,白球60%?(假設檢驗)

标準差

統計學基礎--資料基礎

除法的雙重含義

統計學基礎--資料基礎

相同機關的比例是包含除,不同機關的比例是等分除

頻數分布表

組:将資料以相同間隔分開的區間。·

組中值:各組上下限中間的數值。·常以組中值代以落入改組中的資料。

頻數:各組中包含數值的數量。·

相對頻數:各組資料頻數在總頻數中的占比。·

累計相對頻數:逐級相對頻數相加的和。

分組取組段值時,可以參照JIS标準:

統計學基礎--資料基礎

矩形圖是将頻數分布表的組用橫軸表示、将頻數用縱軸表示繪制出的柱狀圖。

累計頻數分布圖:

統計學基礎--資料基礎

代表值

可以有平均數及中位數等:

統計學基礎--資料基礎

四分位數

統計學基礎--資料基礎
統計學基礎--資料基礎

B組,前版資料的中位數是35,後半資料的中位數是70.由四分位劃分的區間,是人數均等,箱體長度,表示為相同人數其分數分步的離散程度。如圖,35至40分間分布的人數均等,但是密度最大。

變量與資料

數值組成的整體被稱為“資料”,而測量對象對應的單個條目(例題中為考試分數)被稱為“變量”。

關于置信區間

了解的關鍵是我們是對這個構造置信區間的方法做機率描述,而非真值,也非我們算得的這個區間本身。

統計學基礎--資料基礎

每個樣本能生成一個置信區間。但是置信區間有一定随機性。

20個樣本,有19個樣本包含樣本均值(某種整體參數),有一個區間未包含樣本總體均值,則對于任一樣本,其包含樣本總體參數的機率是95%。

繼續閱讀