天天看點

《社會調查資料管理——基于Stata 14管理CGSS資料》一第3章 概念與術語3.1 和計算機及軟體有關的術語

本節書摘來自異步社群《社會調查資料管理——基于stata 14管理cgss資料》一書中的第3章,第3.1節,作者 唐麗娜,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視

社會調查資料管理——基于stata 14管理cgss資料

在開始講解資料管理每個流程的工作内容之前,需要簡單介紹一下和資料管理相關的概念。

在講解相關概念和術語之前,首先需要了解一下什麼是資料。很多耳熟能詳、天天挂在嘴邊的詞,不見得人人都能對其做出精準的解釋。

資料:在人類曆史很長一段時期中,資料指的就是數字。當計算機誕生後,得益于資料處理技術的飛速發展,資料的外延不斷擴大,而今,資訊時代的資料除了包含數字資料外,還包括文本、圖檔、錄音、錄像等,資料的表現形式變得多樣化,資料已無形化解于個人生活和工作的每個細節中。資料已經變成了一種非常重要的生産資料。

資料管理是一個專業性、綜合性、跨學科的事業。好的資料管理人員要具備的基礎知識背景主要包括:社會調查技術、抽樣技術、統計學、計算機科學,此外,針對專業的資料,如經濟資料、心理資料、醫療資料等,還需具備深厚的專業知識,方能做好資料管理。

現在,資料管理和計算機技術的發展密不可分,而且從某種意義上講,計算機技術的發展推動了資料管理,計算機科學的發展提高了資料的使用率和效用,是以,要做好資料管理工作,必需具備一定的計算機基礎知識。

程式(program):簡言之,就是讓計算機做事的指令。人們通過程式和計算機發生互動。

程式設計(programming):就是編寫計算機程式。采用某種程式設計語言,根據一定的算法編寫計算機程式。

程式設計語言(programming language):人與人之間通過語言溝通交流。人與計算機進行溝通交流的語言,就是程式設計語言。現在全世界有幾千種語言,同樣,程式設計語言也有很多,如常見的basic、java、c、pyhon、php等。

算法(algorithm):是計算機完成某個工作所遵循的一系列步驟。比如,要計算出一個班級的平均英語成績,其算法是:先把全班同學的成績加總,然後用這個加總值除以全班人數,算出這個班的平均英語成績。當然,在計算機中,程式的算法會更加複雜,但基本原理一樣。

軟體(包)(software):是一系列程式的集合。比如,excel是一個軟體,它裡面包含大量的程式,像sum就是其中的一個小程式,通過輸入指令=sum告訴計算機做求和任務。再如word軟體,同時輸入control和b就能完成給字型加粗的任務。

文法(syntax):相信很多人都聽說過“程式設計語言”,我們知道語言都有一定文法,否則無法用于交流和書寫。程式設計語言也有自己的文法,下面就是stata的指令文法:

變量(variable):在計算機裡,變量是用來存儲資料的工具。記憶體中的海量資料以變量作為它們的标簽,當研究者使用資料時,隻需要知道變量名,就能調用所需的資料。

在社會調查裡,變量指的是調查對象某一特征的變化情況。比如,如果調查對象是人,那麼性别就是調查對象的一個特征,這個變量的變化隻有兩種可能:男和女。

變量的分類标準很多,如根據存儲格式分為數值型變量和字元型變量,根據取值分為數字變量和字元變量,依據測量水準分為定類變量、定序變量、定比變量和定距變量。

定量變量(quantitative variable):從取值角度講,定量變量是數值變量,如在cgss中調查對象的年齡就是一個變量,這個變量的取值範圍是18~100周歲。從計算角度講,定量變量可以用于各種數學運算(包括加、減、乘、除等)和統計分析。

類别變量(qualitative variable):從取值角度講,類别變量是字元變量,如性别這個變量的取值就是男和女。從計算角度講,類别變量隻能用于簡單的統計描述和統計分析。

類别變量和定量變量之間的區分不是絕對的,定量變量可以轉化成類别變量,如年齡這個變量,取值可以是數字從18~100周歲,也可以是青年人、中年人、老年人三個類别。

變量名(variable name):變量和變量名是一回事,如我們說gender這個變量,它的變量名就是gender。初學者很容易被一些術語搞得暈頭轉向。特别是同一個概念的不同叫法更具有迷惑性。不要着急,多看,多練,自然就能娴熟于心。

繼續閱讀