版權聲明:本文為部落客原創文章,未經部落客允許不得轉載。 https://blog.csdn.net/ESA_DSQ/article/details/71076504
Chapter 1 Introduction
本部分内容是我這學期公選課《應用統計學》的學習筆記,主要參考書目為如下兩本:
賈俊平,《統計學》(第五版),中國人民大學出版社,2012.
何曉群,《多元統計分析》(第三版),中國人民大學出版社,2012.
本篇為第一章節,也就是Introduction(簡介)部分。
1.從問題說起
常常聽到的一句話,好的科學論文解決一個科學問題,科學的誕生本身就和問題離不開。老生常談的就是像牛頓被蘋果砸了之後,就想到一個問題,為啥蘋果不飛上天和太陽肩并肩呢?
我答:因為會被烤焦。
。。。
嗯,幽默一下。
總結下來說,科研中有很多問題跟統計學相關(筆者是地學和生态學背景,就提點接地氣的問題)。
譬如:
(1)人口研究當中,我們希望了解65歲以上老年人所占的比例,以便于我們更好地研究老齡化的問題。
(2)從幾個監測站點的汽車尾氣監測推斷今天北京市的汽車尾氣排放是否達到大氣污染物排放标準。
(3)影響植物光合作用的因素是什麼,各個因素的影響有多大?
以及等等等。
總結來說,可以分為以下的幾類:
(1)統計量問題;(2)參數(推斷統計)問題;(3)歸因問題;(4)預測問題。
2.統計學及其研究過程
那麼統計學又是什麼呢?
statistics: the science of collecting,analyzing, presenting, and interpreting data.
Copyright 1994-2000 Encyclopaedia Britannica, In
翻譯過來就是
統計學是收集、分析、表述和解釋資料的科學( 不列颠百科全書)
是以統計學包括了:
- 資料收集:取得資料
- 資料處理:整理與圖表展示
- 資料分析:利用統計分析方法分析資料
- 資料解釋:結果的說明
- 得到結論:從資料分析中得出客觀結論。
同時跟統計學密切相關的就是機率論。這二者都是研究随機現象數量規律的學科。而二者的差別可以用一張圖來形象展現:
也就是說,機率論是——我知道箱子裡面是什麼樣的,我想知道我拿在手裡的球是什麼樣的可能性分别有多大。統計學則是——我不知道箱子裡面是什麼樣的,但是我已經知道我拿在手裡的球是什麼樣的,我想靠我手裡的球的樣子去推斷箱子是什麼樣的。
有興趣的也可以檢視知乎上的回答。
https://www.zhihu.com/question/20269390
總結起來,統計學的研究過程就像下面的流程圖。
Created with Raphaël 2.1.0實際問題收集資料(取得資料)整理資料(處理資料)分析資料(研究資料)解釋資料(結果說明)
當然這裡面很容易出問題的是解釋資料——數學上有意義,并不代表現實中有意義,非常容易出現很多的悖論。
比如太陽升起的時間與每個人起床時間相關性很高,但是我不能說因為每個人都起床了,是以太陽升起了。
3.統計方法及其應用領域
從前面提到的我們知道,統計方法是通過已知的觀測資料去分析随機現象的數量規律。是以統計方法就包括了兩大部分:描述統計與推斷統計。
其實核心就在于我們所觀測的樣本是否等于總體。
樣本=總體,那麼使用描述統計就能夠用來描述我們所研究的現象。
樣本≠總體,那麼使用推斷統計才能較為準确地描述我們所研究的現象。
事實上,近年來火熱的大資料就是因為技術(傳感器等)發展,我們足夠擷取可以近似等于全樣本甚至全樣本的資料而不是以往的樣本資料所引起的一場變革,也就是說是由資料驅動的變革。
Created with Raphaël 2.1.0統計方法樣本=總體?描述統計結論推斷統計分布已知?假設檢驗參數估計yesnoyesno
統計學應用領域十分廣泛,這裡就不細談了。
4.統計資料類型
由于應用廣泛,是以統計資料類型也是多樣化的。不同的劃分标準類型也不相同:
(1)按照計量層次劃分
- 分類資料
- 順序資料
- 數值資料
(2)按收集方法劃分
- 調查觀察資料
- 試驗資料
(3)按時間狀況劃分
- 截面資料
- 時序資料
5.統計學中的幾個基本概念
統計學中的基本概念分别是:
- 總體(population)
- 樣本(sample)
- 參數(parameter)
- 統計量(statistic)
- 變量(variable)
總體——研究對象的全體
樣本——研究對象的部分個體,觀測資料
參數——用來描述總體的數學度量
統計量——用來描述樣本的數學度量
變量——描述現象的某種特征
Created with Raphaël 2.1.0總體(參數)樣本(統計量)