天天看點

《社會調查資料管理——基于Stata 14管理CGSS資料》一第2章 資料管理的流程及内容2.1 資料管理的工作流程

本節書摘來自異步社群《社會調查資料管理——基于stata 14管理cgss資料》一書中的第2章,第2.1節,作者 唐麗娜,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視

社會調查資料管理——基于stata 14管理cgss資料

資料管理是一個過程,不是一蹴而就的單項工作任務。随着資料化時代的到來,資料在生活和工作中扮演着越來越重要的角色。資料量的劇增對資料管理工作提出了巨大的挑戰。資料管理工作和圖書管理工作有些類似,單個資料就相當于一本書,管理很多資料就相當于建立一個資料館(資料庫),使用者按照一定的步驟操作,就能找到自己所需的資料。資料管理和圖書管理的一大差別是:每個資料除了資料本身以外,還有一系列的比對資料,如編碼手冊、調查問卷、抽樣設計方案、調查手冊、權重計算方案、缺失值處理方案等。是以,資料管理是一個多層次、跨時段的工作過程。

和資料分析一樣,一項好的資料管理工作流程應該具有可複制性。也就是說,一個從來沒有接觸過某一資料的人,在看完該資料的管理工作檔案後,能夠了解該資料,并能以同樣的方法操作于資料。

這個世界上沒有一種資料管理工作流程适用于所有的資料管理項目或科學調查研究項目,任何一項具體的資料管理工作都有自己獨特的特點,但不可否認的是,不同的資料管理項目之間仍存在一定的相同之處,具有一些共性。本書的重點放在資料管理工作的共性上。要把資料管理工作做好,并非易事。資料管理工作的核心和靈魂是有想法和思考的管理架構。

資料管理并非雜亂無章,而是有一定的章法可循。根據社會調查項目的進展,可以把資料管理分為三個階段:收集資料前的資料管理、收集資料中的資料管理、資料回收後的資料管理。

每個階段的資料管理工作内容不同,側重點也有所差異。

資料是社會調查中最寶貴的資料。一些資料管理者或研究人員常常把資料的管理工作集中在已經回收的資料上,通過清理回收的資料,來控制資料的品質,但是他們卻忽視了:一份好的資料一定是建立在良好的前期管理的基礎上。這些前期的管理應該包括以下幾個方面。

(1)問卷設計。問卷設計與資料管理密不可分。對于社會調查的研究人員來說,問卷是他們與被訪者對話的橋梁。問卷傳遞着研究者想要擷取的資訊,同時也表達了受訪者的回報。好的問卷設計能高效地将兩者結合在一起。受訪者能明白問卷含義,根據題意回答問題,研究者能夠得到想要的資訊,而不是一份無效問卷。

問卷設計本身就是一門學問。一份合格的問卷至少應該包括:問卷編号、卷首語、題号、提示語、被訪者聯系方式和緻謝語。此外,研究者也可根據自己的調查特點增加新的部分。

(2)抽樣設計。一般而言,抽樣調查是一種非全面的調查,即不是普查。從分類上來看,抽樣包括非機率抽樣(如友善抽樣)和機率抽樣(或稱随機抽樣)。抽樣設計是收集資料前的一項重大工作。抽樣設計應當科學、嚴密、具有可行性。目前,抽樣設計在我國仍然沒有得到足夠的重視,很多調查由于抽樣設計環節的問題,導緻回收的資料嚴重偏離,甚至無法使用。是以,抽樣設計與資料管理息息相關。

(3)人員安排。人是資料管理的主體。在資料管理中,需要做好資料管理者和通路員的合理安排。本書提倡一個社會調查都需要至少配備一名資料管理人員,全程參與社會調查過程和後期的資料管理。

人們常常把資料比做菜,如果資料管理人員是擇菜和洗菜人,那麼通路員就是摘菜人。每一份資料都需要通路員回收回來,是以,做好通路員的教育訓練是一項十分重要的工作。

(4)制定編碼手冊。在一項社會調查中,編碼手冊(codebook)是解讀資料的工具。編碼手冊基于問卷,通過把問題轉換成變量,确定變量的取值範圍、加貼标簽等工作,對問卷所有内容進行編碼。最後制定成編碼手冊,友善使用者在使用資料時通過閱讀編碼手冊來了解資料管理人員對資料所做的處理。

和這一階段資料管理有關的詳細内容,參見第4章。

收集資料前的資料管理為好的資料品質打下了基礎,收集資料中的資料管理工作最終決定了資料的品質。

在實地調查的三個環節(問卷的填答、問卷的稽核和問卷的送出)中,每一個環節完成的好壞都直接決定資料品質的優劣。資料一旦收集完成,資料品質就定了,之後的種種紛繁複雜的資料處理都隻是更好地保障資料品質,而無法改變原始資料的品質。但是,資料的收集過程是一個動态的過程,在這個過程中可以随時加入調查者、研究者的幹預,進而及時糾正出現的影響資料品質的問題。是以,在收集資料的過程中一定要時時關注資料品質,邊收集,邊分析,邊協調。

隻有做好收集資料中的資料管理,才能真正拿到高品質的資料,為之後的資料清理和資料分析提供最好的資料。

資料回收後的資料管理工作,側重對資料完整如實的錄入以及思路清晰的清理。問卷回收并送出錄入後,經過一系列錄入校對的工作,就得到了錄入的資料,我們通常稱之為原始資料;常常有人認為拿到這些資料,就可以直接從事相關的資料分析了。但事實上,原始資料到統計資料之間隔着一座橋梁,就是資料的清理工作。當調查結束資料回收後,資料管理工作主要包括檢查送出的錄入資料,檢查資料中的變量,檢查資料中的取值,給取值添加多套不同語種的标簽,給資料添加變量,删除資料中的敏感變量和儲存資料及相關資料這7個部分。

檢查送出的錄入資料之前,要先檢視資料格式,如果送出的資料不是.dta格式,需要對資料進行格式轉換,保證資料是stata格式。在确定工作路徑前提下,要用stata14讀入資料,在讀入資料之前,需要對資料進行轉碼處理,轉碼用到的指令為unicode,第7章将會詳細介紹轉碼的方法和轉碼過程中的注意事項;成功讀入資料之後做的第一項工作就是檢查觀測值和變量數量,以確定資料沒有少錄,保證資料的完整性;同時,也要檢查資料是否有重複錄入的情況;為了更好地讓資料呈現在資料使用者面前,資料管理者還需要給資料加标簽,添加注釋,必要時對觀測值和變量進行排序。

變量和取值的檢查是資料管理工作中的重點。其中變量的檢查包括:變量名,變量标簽,變量的存儲類型,變量的存儲格式,需要時還可以對變量添加注釋;取值的檢查包括:取值是否合理,有無取值标簽,多個變量間的取值是否有邏輯上的一緻性。

為了友善不同國家、不同語種的資料使用者使用資料,可以給取值添加多套不同語種的标簽,多套标簽間可以根據使用者的需求自由切換。為了使呈現更全面和更好地管理資料,有時需要給資料添加變量,但是前提條件是保證不改動原資料。出于研究倫理,資料管理者有義務對被訪者的相關資訊進行保密,是以,在資料使用前,需要對資料中的敏感變量進行删除處理。最後需要強調的是,資料和相關資料的儲存也是資料管理的重要部分,尤其需要引起資料管理工作者重視。

資料管理沒有方程式,因人、因項目而異,本書提供的隻是一種思路和一種方法,供讀者參考,你可以在具體的工作中學習、總結、提煉,摸索出适合自己項目的管理流程。

繼續閱讀