天天看點

STATA資料分析入門-時間序列面闆S17-資料查驗和比較_

作者:211統計

關注二幺幺統計:課堂公衆号可以加入學術交流群、免費獲得各種資料資源。大家好,歡迎來到say 塔資料分析入門課程。我是車水老師。本節課要講的内容是資料的查驗和比較,主要分為兩個部分。第一部分是查驗變量,第二部分是查驗兩種資料。

查驗變量方面主要學習三個指令。第一個是count,它的作用是用來計算,尤其是來進行特定條件下的技術。比如在這份工作婦女工資資料下面我想知道這個工資工作小時數是缺失值的,觀測值有多少個?我使用方法就是先填,先寫count,然後再寫 if。

·如果然後面加上要進行的條件篩選的條件就可以了,然後條件确認來确認這個資料裡面是否滿足我的條件。比如我想知道這份婦女工資的資料裡面是否所有的工資數值都大于零,那我就a search,然後直接加入我的這個條件就可以了不用加一。然後這兩個都如果你有多個條件,可以直接在後面加條件,然後中間用 and符号或者是用這個豎線或來進行篩選。

·如果是兩個條件要同時滿足就是and,如果是兩個條件滿足,其一就是用豎線來表示。第三個指令是 ur, 它的作用是用來比較兩個變量,大小是用sat示範一下。打開 stat,然後打開度文檔。引用一下這個婦女工資的資料,還是要把這個先儲存一下,那叫資料。

STATA資料分析入門-時間序列面闆S17-資料查驗和比較_

比如我想這個年齡最小值是三十四,最大值是四十六。我想知道這一份資料裡面年齡小于四十的有多少關詞值,我就可以用 cont,然後面加入條件,r a 值小于四十就可以啦。然後他會告訴你滿足你這個條件的資料有一千二百四十八個。

然後我還想知道,不僅想知道年齡小于四十,同時這個是白種人的數。這個樣本有多少個?那我可以後面再加一個條件。我先看一下白種人該如何表示cat book,然後race 這個變量。

STATA資料分析入門-時間序列面闆S17-資料查驗和比較_

·如果是一代表的是黑種人,二代表的是一代表的是白種人,二代表的是黑種人,三代表的是其他人種。那麼如果我想知道年齡小于四十同時是白種人,那我後面應該加一個 and。然後這個race是一等于一,他的個數是八百七十三個。如果我想知道年齡小于四十或者是白種人,那我後面應該加一個豎線,用或的關系來表示,是有兩千零一一二個。是以count這個指令就是用來記述特定條件下的樣本個數,它是作用。

·再來看第二個條件确認。比如比如意識裡,在意識裡這個工資應該是大于零的。我想知道這一份資料裡面,是以有的婦女工資都是大于零的。就可以看判判這個位置大于零。沒有。意思就是确定我的這份資料是滿足的。我想知道這個小時工資是不是都大于五,這個有七十六個資料,其中有七百五十七個不滿足,小時工資大于五的這個條件。是以最後的結局是結果是确認失敗。

STATA資料分析入門-時間序列面闆S17-資料查驗和比較_

是以這個指令的作用就是是來确認一下這份資料裡面是否都滿足我的條件,對于大樣本的資料來說這個變量是非常有用的。然後下一個是比較兩個變量之間的大小用content,後面直接加入兩個變量的名稱就可以了。再引用一下fold這份資料clear,先清除資料,然後再來引用alt。

·為什麼有進來先 STATA資料來統計一下?這裡和汽車資料那份資料不一樣的點在于,原來是r e p7,現在有一個r e p7,它們兩個定義方式都是一樣的。但是這個ip7有六十九個觀測值,然而ip7隻有六十六個觀測值。我想知道在這個變量之間,它們兩個就是哪個大。

STATA資料分析入門-時間序列面闆S17-資料查驗和比較_

可以直接用cx78來比較比較直接寫兩個變量的名稱r e p7和r e p7來運作一下。就發現它這個結果是非常詳細的。就說r e p7的觀測值,小于r p7有七個觀測值,兩兩者相等的有四十三個觀測值,r e p8更大的有十六個觀測值。

·兩個兩組資料都兩個變量都有,的資料有六十六個然後rep7缺失。而rep7有三個,然後兩個變量都缺失的有五個觀測值,一共是有七十四個管測值。

·然後這個意思就是它們兩個的內插補點裡面最大值最小值均值。是以就是表格告訴這兩個變量之間內插補點在哪了,誰大誰小都分别有多少個資料。然後确實值得兩個,兩組兩個變量的這個确實值得分布,什麼的就非常的詳細。

再來看一下兩組資料的查驗,剛剛學的這些都是用來查驗變量的。現在來看一下兩組資料分為兩兩個。指令第一個指令是c f,它的作用是查驗兩組資料的觀察值是否一緻,相當于就是縱向的。第二個c f a r s是用來查驗兩組資料的變量是否一緻。

STATA資料分析入門-時間序列面闆S17-資料查驗和比較_

先來看第一個查驗兩組資料的觀察值是否一緻。比如說我現在的這份資料web full auto,然後我把它删掉其中一個,我删掉其中的變量。比如說r e p7和m pe都給它删了,然後再儲存一下,儲存一下data 1。然後重新引用一下剛剛這個忘記儲存了,好棒進來了。那我要因為我這現在的目的,要檢查兩組資料的觀察觀察值是否一緻,是以要把觀察值給他做一些手腳。比如說我把price大于一萬的都換成一萬replaceprice等于一萬price等于一萬,給他做一下手腳,等于這裡多寫了一個等于。

STATA資料分析入門-時間序列面闆S17-資料查驗和比較_

然後現在來比較這兩份資料是否一緻,用的指令就是c f,後面添加變量,再引用另一份資料就是另一份資料的資料的名稱。比如說要查驗兩組資料的全部關,全部觀察值是否一緻,後面就要加一個杠二來表示c f,usingdata一,跟剛剛這一份資料來比較。

它的結果是這樣的,就是對于現在這份資料來說,就是價格有十個是不一樣的。對方這個資料,就是m pe這個變量是在被使用的另一份資料裡面是不存在的,r e p 七七在對方資料裡面也是不存在的。是以這個結果會告訴大家就是兩份資料不一樣的點,具體在哪,具體是每個變量、每個關、每個變量、哪些變量不一樣、哪些觀測值不一樣這樣的。

STATA資料分析入門-時間序列面闆S17-資料查驗和比較_

另一個指令就是c f,v r s是用來檢查查驗兩組資料的變量是否一緻,使用方法就是c f,a r s不用 using就直接引用另一份資料就可以了。來試一下c f、a r s應用另一份資料叫data一,然後會告訴大家就是兩個資料集都有的變量名稱是這些這些,隻存在于目前的這一份資料集裡面的變量是m pe和r pe7,因為剛剛把帶他一裡面的m pe和r e p 7給他删了,是以這兩個變量就隻存在于目前的這份資料集裡面了。

是以這兩個這個c f和c f、v r s它兩個的差別就在于c f,它隻能不是c f,除了可以看兩個變量的內插補點差一之外還可以看觀測值的差異,而 c f、a r s隻能看變量名稱,就是它們之間有什麼差異。

這就是本節課内容主要學習了如何查驗變量、如何計數、如何條件确認如何比較變量的大小以及如何查驗兩組資料,包括查驗兩組資料的觀察值和變量。

繼續閱讀