本文目的
章節聯系
個人認為本書可以分為三大部分:
機率統計基礎
第一章 資訊圖形化
第二章 集中确實的度量:中庸之道
第三章 分散性與變異性的量度:強大的距
第四章 機率計算:把握機會
第五章 離散機率分布的運用:善用期望
第六章 排列與組合
常見機率分布
第七章 幾何分布、二項分布及泊松分布:堅持離散
第八章 正太分布的運用:保持正太
第九章 在談正太分布的運用:超越正太
機率統計應用
第十章 統計抽樣的運用:抽取樣本
第十一章 總體和樣本的估計:進行預測
第十二章 置信區間的建構:自信地猜測
第十三章 假設檢驗的運用:研究證據
第十四章 卡方分布:繼續探讨 ……
第十五章 相關與回歸:我的線條如何?
前六章
前六章的内容比較基礎,主要講了直方圖,條形圖,折線圖,均值,中位數,衆數,四分位數,k分位數,方差,标準差,韋恩圖(高中稱之為“文氏圖”),互斥事件,相關事件,獨立事件,條件機率,貝葉斯定理(這個與“獨立事件機率”在文本自動分類中被廣泛運用),機率分布,期望,排列與組合。這些概念高中課本全都涉及,如果高中數學這部分基礎紮實,那麼看起來會比較輕松。值得強調的是每章内容都會設計一個場景來将所有知識點穿起來,這樣比較生動,記憶深刻。比如“小孩遊泳班的平均年齡異常”引出“衆數”這個概念。用“輪盤賭每格的顔色和奇偶性”引出“相關事件”和“相關事件的機率”。還有很多例子,這裡不一一舉例了。
七、八、九章
這幾章主要講解了一些常見的離散的機率分布:
幾何分布:事件機率相同且獨立事件第一次發生的機率
二項分布:事件機率相同且獨立的事件在n次中發生指定次數的機率
珀松分布:單獨事件在給定區間的次數,求出發生特定次數的機率
特備值得指數的是二項分布在n很大時,計算量很大,如果此時機率p很小(p<0.1),那麼可以用珀松分布近似計算二項分布。除了介紹離散的機率分布外,還介紹了應用最為廣泛的連續機率分布——正太分布(又稱“高斯分布”)。因為自然界中很多現象都可以用正太分布模組化,比如人類的身高,體重等。如果能夠用正太分布模組化,那麼可以很友善的計算出機率(通過标準化後查表獲得)。正太分布還有一個特性:當n很大,并且p符合一定條件時,可以用正太分布近似計算“二項分布”(np>5且nq>5)和“珀松分布”(λ>15時),但是需要進行連續性修正。
後面六章
接下來的章節主要介紹了機率統計在實際中的運用:
抽樣:如果需要研究的整體比較大,基本上無法對所有機關進行度量,因為這樣費時費力,那麼就需要通過抽取相對較小的一部分來研究總體,這個過程叫抽樣。抽取過程中需要使用一些技巧使得樣本無偏,也就是使得樣本最大限度的代表整體,有樣本的特性估計整體特性(如期望和方差)。其實抽樣的過程也是符合機率的。樣本無偏的機率是可以記過正太分布計算出來的,而且最重要的是,樣本越大,無偏的幾率也就越大。同時,了解到抽樣方差除以n-1是為了是猜測的方差結果更接近總體方差。
置信區間:仍然是通過樣本估計總體,但是不是給出精确的數字,而是給出對總體特性估計的範圍和處于此範圍的機率。
假設檢驗:采用樣本資料,判斷總體的斷言是否可信。主要的思想是先假設成立,然後在樣本中努力找到證據推翻假設。
卡方分布:卡方分布是另外一種連續的正太分布,可以用于優度拟合(檢驗分布與樣本期望的相關性)和獨立性檢驗。
相關與回歸:此章講解了最小二乘線性回歸的運用,同時引出了相關系數(又稱“皮爾森系數”)的使用場景(此系數在度量向量關系方面使用廣泛)。
結語
OK,流水賬式的講解完了《Head First 統計學》的所有内容。讀完本書的的整體感受是:對統計學相關内容有了信心,以後遇到相關内容也不會那麼畏懼了,大不了google一下。
<b>聲明:如有轉載本博文章,請注明出處。您的支援是我的動力!文章部分内容來自網際網路,本人不負任何法律責任。</b>
本文轉自bourneli部落格園部落格,原文連結:http://www.cnblogs.com/bourneli/archive/2012/12/11/2813459.html,如需轉載請自行聯系原作者