文章目錄
-
- 統計學與機率論間的關系
- 标準差
- 除法的雙重含義
- 頻數分布表
- 代表值
- 四分位數
- 變量與資料
- 關于置信區間
統計學與機率論間的關系
機率論研究的是一個白箱子,你知道這個箱子的構造(裡面有幾個紅球、幾個白球,也就是所謂的分布函數),然後計算下一個摸出來的球是紅球的機率。而統計學面對的是一個黑箱子,你隻看得到每次摸出來的是紅球還是白球,然後需要猜測這個黑箱子的内部結構,例如紅球和白球的比例是多少?(參數估計)能不能認為紅球40%,白球60%?(假設檢驗)
标準差

除法的雙重含義
相同機關的比例是包含除,不同機關的比例是等分除
頻數分布表
組:将資料以相同間隔分開的區間。·
組中值:各組上下限中間的數值。·常以組中值代以落入改組中的資料。
頻數:各組中包含數值的數量。·
相對頻數:各組資料頻數在總頻數中的占比。·
累計相對頻數:逐級相對頻數相加的和。
分組取組段值時,可以參照JIS标準:
矩形圖是将頻數分布表的組用橫軸表示、将頻數用縱軸表示繪制出的柱狀圖。
累計頻數分布圖:
代表值
可以有平均數及中位數等:
四分位數
B組,前版資料的中位數是35,後半資料的中位數是70.由四分位劃分的區間,是人數均等,箱體長度,表示為相同人數其分數分步的離散程度。如圖,35至40分間分布的人數均等,但是密度最大。
變量與資料
數值組成的整體被稱為“資料”,而測量對象對應的單個條目(例題中為考試分數)被稱為“變量”。
關于置信區間
了解的關鍵是我們是對這個構造置信區間的方法做機率描述,而非真值,也非我們算得的這個區間本身。
每個樣本能生成一個置信區間。但是置信區間有一定随機性。
20個樣本,有19個樣本包含樣本均值(某種整體參數),有一個區間未包含樣本總體均值,則對于任一樣本,其包含樣本總體參數的機率是95%。