本節書摘來自異步社群《社會調查資料管理——基于stata 14管理cgss資料》一書中的第3章,第3.2節,作者 唐麗娜,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視
和資料管理密不可分的另一個專業是統計學。
在資訊資料時代,每個人都要具備一定的統計學知識[1]。否則可能因為無法讀懂資料、統計分析結果而錯失良機,也有可能錯誤地解讀各種資料,給個人生活和工作造成不便。
統計,即把數字統一起來計算。統計是一門關于數字的學科,包括統計描述和統計推斷。所謂統計描述,指的是對原始資料進行概括總結的方法,而統計推斷指的是基于樣本資料來推斷總體的某些特征或趨勢的方法。
接下來介紹的都是和資料管理有關的統計學基礎知識。
在統計學中,變量(variable)指的是要調查或測量的對象的某種特征或屬性,如性别、年齡、受教育程度、态度等。
取值(value):指的是調查對象某種特征或屬性的全部可能。取值不一定都是數字,也可以是文字,如性别的取值是男性和女性。
統計量(statistics):對抽樣資料進行統計計算得出的數值,如平均值(mean)、總和(sum)、最大值(max value)、最小值(min value)。
參數(parameter):對研究總體進行統計計算得出的數值。
總體(population):要研究或調查的對象的全體。比如,要調查某個公司的員工平均收入,那麼總體就是現在就職于該公司的所有員工。
樣本(sampling):總體的一個子集。比如,要調查某跨國公司的員工平均收入,這個公司非常龐大,員工有幾萬人,且分布在世界各地,可以采用科學的抽樣方法從中抽取3000人作為一個樣本,隻調查這3000名員工的收入情況。
信度(reliability):指的是測量方法的品質,即對同一現象進行重複觀察是否可以得到相同的資料(艾爾·芭比,2014)。在社會調查中,信度和社會調查人員的工作品質息息相關(虛假資料的信度為零),嚴格按照調查項目的規定工作,方能保證執行過程的信度。社會調查資料采集完成後,科學、客觀的資料管理是確定資料信度的有效方法。在社會調查中,常見的測量資料信度的方法是對分法,即把資料随機等分成兩份,看兩組資料的統計結果是否很接近,如果差異很大,測量信度就有可能有問題。
效度(validity):指的是實證社會調查問卷中的問題在多大程度上反映了要研究問題的真實含義。有效性關注的是提出的問題、收集的資料以及資料分析的正确性[2]。效度是研究設計優劣的一個非常重要的名額,很多研究耗費了大量的研究經費、調查了大量的研究對象,但研究問題并沒有很好地測量到想要研究的問題或感興趣的點,這樣的研究和研究資料的效度就很低。
常見的檢驗效度有效性的标準有表面效度、标準關聯效度、建構效度和内容效度[3]。
信度和效度是一對互相關聯的概念,好的研究和資料必須效度和信度都要高。
均值(mean):調查對象某個特征(如收入)的總體平均情況,用數值表述是某個變量的算術平均值,類别變量(如性别)沒有均值,即使能夠算出一個均值,這個均值也沒有實際意義。
衆數(mode):調查對象在某個特征上出現次數最多的一種情況,用數值表述是某個變量有多個取值,調查對象選擇次數最多的那個值就是衆數。
中位數(median):是一個位置值,指的是位于中間(n/2或50%)的那個調查對象選擇的取值。把調查對象在某個特征上(如收入)的所有可能出現的情況排序,位于第50%個位置上的人選擇的特征(某一特定收入)就是中位數。用數值表述是把變量的取值按順序排列,并列出每個取值出現的頻數,第50%所在的取值就是中位數。
分位數(quartile):也是一個位置值,指的是第幾個百分位數,和中位數的計算方法一樣,中位數是分位數的一種,即中間分位數,常見的有上四分位數——25%分位數,下四分位數——75%分位數。其中下四分位數和上四分位數的差就是分位數差。
标準差(standard deviation):調查對象在某個特征上(如收入)的差異情況。用數值表述就是某個變量的均值減去每個取值的差的平方和,然後除以調查對象個數,再取平方根,這個平方根就是标準差,這個統計量隻能用于定量變量。
資料管理和資料分析離不開統計,統計量是檢驗資料清理、資料分析的重要标準,資料管理人員必須掌握基礎的統計知識。市面上的統計書籍已經相當豐富,且分門别類的十分詳盡,如社會統計學、醫學統計學、生物統計學等,可以根據自己的專業和工作需要選擇閱讀。