天天看點

《Stata統計分析與應用(第2版)》一2.2 資料的導入

本節書摘來自華章出版社《stata統計分析與應用(第2版)》一書中的第2章,第2.2節,作者 周廣肅,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

能夠将不同形式的資料正确導入是運用stata進行資料分析的第一步,本節将針對此來進行介紹。

在現實的經濟學研究中,大部分資料都是由使用者自行輸入建立的,是以本節首先介紹兩種輸入資料的方法:一種是通過菜單方式輸入,另一種是通過指令方式輸入。

使用菜單方式輸入資料

假定要建立一個成績資料表(chengji.dta),内容如表2.8所示,利用stata的菜單操作的方法如下。

《Stata統計分析與應用(第2版)》一2.2 資料的導入

首先,單擊工具欄中的圖示,則會彈出資料編輯器,在其中輸入相應資料,如圖2.8所示。需要注意的是,每當輸入完一個單元格的内容之後,需要按Enter鍵确認。

其次,需要給變量命名。在所有資料輸入完成之後,滑鼠輕按兩下var1,将彈出如圖2.9所示的對話框,在name欄中填入變量的名稱“name”,label欄填入标簽的内容為“姓名”,單擊ok按鈕完成操作。同樣将var2命名為remarks。

《Stata統計分析與應用(第2版)》一2.2 資料的導入

最後,儲存已經建立的資料檔案。單擊工具欄中的圖示,然後給檔案命名和選擇存儲路徑即可。

使用指令方式輸入資料

首先必須了解資料輸入的基本指令,具體語句如下:

[type]表示輸入的變量類型,若省略,則為stata預設的float型;varname表示變量的名稱。在這句指令之後,依次輸入資料即可。

若要輸入如表2.8所示的内容,可輸入指令如下:

save chengji(将資料檔案儲存在預設檔案夾data中,檔案名為chengji)

在以上指令語句中,clear表示清除記憶體;input str10 name remarks表示輸入兩個變量name和remarks,其中要将變量的類型寫在名稱前面,如str10表示name的類型為長度為10的字元型,而remarks前面沒寫資料類型,表示其類型為預設的浮點型;mike 98~kite 96表示資料的内容,一定要按照前面指令語句中變量name和remarks的順序填寫;end表示結束資料輸入;save chengji将資料檔案儲存在預設檔案夾data中,完整檔案名為chengji.dta。

通過比較可以看出,利用指令方式實作資料的輸入較為煩瑣,是以一般并不使用。

stata預設的資料格式是.dta,這種格式的檔案可以直接打開應用,指令為use,具體内容已在本章第2.1.1節做了詳細介紹,這裡不再贅述。

當資料檔案為其他格式時,也可以導入stata軟體中進行處理,常用的指令主要有insheet、infile、infix指令,下面将通過執行個體進行詳細介紹。

使用insheet指令,讀取ascii資料

ascii資料是指原始的文本資料,由電子表格和資料庫程式生成的資料檔案,每一行代表一個觀測值(case),數值由逗号或制表符隔開,第一行可以包含變量名稱,利用insheet讀取時的基本指令語句如下:

insheet [varlist] using filename [,options]

在這個語句中,insheet代表導入資料的指令,[varlist] using filename代表資料檔案中的某個變量,這裡的options包括的選項及其含義如表2.9所示。

《Stata統計分析與應用(第2版)》一2.2 資料的導入
《Stata統計分析與應用(第2版)》一2.2 資料的導入

例如,将資料citywater.csv導入stata中,就不能直接使用use指令了,.csv資料類型表示使用逗号分隔的一種資料類型,其具體格式如圖2.10所示。

《Stata統計分析與應用(第2版)》一2.2 資料的導入

将其導入stata的指令如下:

使用infile指令,讀取沒有固定格式的ascii資料

infile在某種程度上可以完成與insheet指令相同的功能,其與insheet指令的最大差別是前者必須指明變量名稱,尤其是字元型變量。使用infile指令讀取資料的基本指令語句如下:

例如,同樣将資料citywater.csv導入stata中,我們可輸入如下指令語句:

這個指令的操作結果與insheet指令相同。

使用infix指令,讀取固定格式的ascii資料

這種固定格式的資料有固定的位數,當位數不夠時,前面用0補齊,對于這種資料可用infix指令讀入,其具體形式如下:

例如,将下列一組資料(資料檔案chengji.csv)轉化成如表2.10所示的資料形式。chengji這組資料為用逗号隔開的資料類型,如圖2.11所示,其中gender(性别)隻有0和1兩個數字組成,number(學号)這一欄必須由三位數組成,math和english的成績必須由兩位數組成,是以這是一個固定格式的資料,應該使用infix指令。

《Stata統計分析與應用(第2版)》一2.2 資料的導入

具體的指令語句為:

在這個指令語句中,“infix gender 1”說明第1位資料為性别,“number 3-5”表示第3~5位為學号,“math 7-8”表示第7~8位為數學成績,“english 10-11”表示第10~11位為英語成績,“using c:/data/chengji.csv”表示原始資料檔案的路徑。

繼續閱讀