STATA数据分析入门-时间序列面板S17-数据查验和比较_

关注二幺幺统计：课堂公众号可以加入学术交流群、免费获得各种数据资源。大家好，欢迎来到say 塔数据分析入门课程。我是车水老师。本节课要讲的内容是数据的查验和比较，主要分为两个部分。第一部分是查验变量，第二部分是查验两种数据。

查验变量方面主要学习三个命令。第一个是count，它的作用是用来计算，尤其是来进行特定条件下的技术。比如在这份工作妇女工资数据下面我想知道这个工资工作小时数是缺失值的，观测值有多少个？我使用方法就是先填，先写count，然后再写 if。

·如果然后面加上要进行的条件筛选的条件就可以了，然后条件确认来确认这个数据里面是否满足我的条件。比如我想知道这份妇女工资的数据里面是否所有的工资数值都大于零，那我就a search，然后直接加入我的这个条件就可以了不用加一。然后这两个都如果你有多个条件，可以直接在后面加条件，然后中间用 and符号或者是用这个竖线或来进行筛选。

·如果是两个条件要同时满足就是and，如果是两个条件满足，其一就是用竖线来表示。第三个命令是 ur，它的作用是用来比较两个变量，大小是用sat演示一下。打开 stat，然后打开度文档。引用一下这个妇女工资的数据，还是要把这个先保存一下，那叫数据。

比如我想这个年龄最小值是三十四，最大值是四十六。我想知道这一份数据里面年龄小于四十的有多少关词值，我就可以用 cont，然后面加入条件，r a 值小于四十就可以啦。然后他会告诉你满足你这个条件的数据有一千二百四十八个。

然后我还想知道，不仅想知道年龄小于四十，同时这个是白种人的数。这个样本有多少个？那我可以后面再加一个条件。我先看一下白种人该如何表示cat book，然后race 这个变量。

·如果是一代表的是黑种人，二代表的是一代表的是白种人，二代表的是黑种人，三代表的是其他人种。那么如果我想知道年龄小于四十同时是白种人，那我后面应该加一个 and。然后这个race是一等于一，他的个数是八百七十三个。如果我想知道年龄小于四十或者是白种人，那我后面应该加一个竖线，用或的关系来表示，是有两千零一一二个。所以count这个命令就是用来记述特定条件下的样本个数，它是作用。

·再来看第二个条件确认。比如比如意识里，在意识里这个工资应该是大于零的。我想知道这一份数据里面，所以有的妇女工资都是大于零的。就可以看判判这个位置大于零。没有。意思就是确定我的这份数据是满足的。我想知道这个小时工资是不是都大于五，这个有七十六个数据，其中有七百五十七个不满足，小时工资大于五的这个条件。所以最后的结局是结果是确认失败。

所以这个命令的作用就是是来确认一下这份数据里面是否都满足我的条件，对于大样本的数据来说这个变量是非常有用的。然后下一个是比较两个变量之间的大小用content，后面直接加入两个变量的名称就可以了。再引用一下fold这份数据clear，先清除数据，然后再来引用alt。

·为什么有进来先 STATA数据来统计一下？这里和汽车资料那份数据不一样的点在于，原来是r e p7，现在有一个r e p7，它们两个定义方式都是一样的。但是这个ip7有六十九个观测值，然而ip7只有六十六个观测值。我想知道在这个变量之间，它们两个就是哪个大。

可以直接用cx78来比较比较直接写两个变量的名称r e p7和r e p7来运行一下。就发现它这个结果是非常详细的。就说r e p7的观测值，小于r p7有七个观测值，两两者相等的有四十三个观测值，r e p8更大的有十六个观测值。

·两个两组数据都两个变量都有，的数据有六十六个然后rep7缺失。而rep7有三个，然后两个变量都缺失的有五个观测值，一共是有七十四个管测值。

·然后这个意思就是它们两个的差值里面最大值最小值均值。所以就是表格告诉这两个变量之间差值在哪了，谁大谁小都分别有多少个数据。然后确实值得两个，两组两个变量的这个确实值得分布，什么的就非常的详细。

再来看一下两组数据的查验，刚刚学的这些都是用来查验变量的。现在来看一下两组数据分为两两个。命令第一个命令是c f，它的作用是查验两组数据的观察值是否一致，相当于就是纵向的。第二个c f a r s是用来查验两组数据的变量是否一致。

先来看第一个查验两组数据的观察值是否一致。比如说我现在的这份数据web full auto，然后我把它删掉其中一个，我删掉其中的变量。比如说r e p7和m pe都给它删了，然后再保存一下，保存一下data 1。然后重新引用一下刚刚这个忘记保存了，好棒进来了。那我要因为我这现在的目的，要检查两组数据的观察观察值是否一致，所以要把观察值给他做一些手脚。比如说我把price大于一万的都换成一万replaceprice等于一万price等于一万，给他做一下手脚，等于这里多写了一个等于。

然后现在来比较这两份数据是否一致，用的命令就是c f，后面添加变量，再引用另一份数据就是另一份数据的数据的名称。比如说要查验两组数据的全部关，全部观察值是否一致，后面就要加一个杠二来表示c f，usingdata一，跟刚刚这一份数据来比较。

它的结果是这样的，就是对于现在这份数据来说，就是价格有十个是不一样的。对方这个数据，就是m pe这个变量是在被使用的另一份数据里面是不存在的，r e p 七七在对方数据里面也是不存在的。所以这个结果会告诉大家就是两份数据不一样的点，具体在哪，具体是每个变量、每个关、每个变量、哪些变量不一样、哪些观测值不一样这样的。

另一个命令就是c f，v r s是用来检查查验两组数据的变量是否一致，使用方法就是c f，a r s不用 using就直接引用另一份数据就可以了。来试一下c f、a r s应用另一份数据叫data一，然后会告诉大家就是两个数据集都有的变量名称是这些这些，只存在于当前的这一份数据集里面的变量是m pe和r pe7，因为刚刚把带他一里面的m pe和r e p 7给他删了，所以这两个变量就只存在于当前的这份数据集里面了。

所以这两个这个c f和c f、v r s它两个的区别就在于c f，它只能不是c f，除了可以看两个变量的差值差一之外还可以看观测值的差异，而 c f、a r s只能看变量名称，就是它们之间有什么差异。

这就是本节课内容主要学习了如何查验变量、如何计数、如何条件确认如何比较变量的大小以及如何查验两组数据，包括查验两组数据的观察值和变量。

STATA数据分析入门-时间序列面板S17-数据查验和比较_

继续阅读

推荐系统-资源整理一、综合性文章四、算法详解：

别轻易转数据分析了！太卷了

python中哪些函数可以进行列表排序？

This application failed to start because it could not find or load the Qt platform plugin "

R语言| 中介效应分析，Mediation包和BruceR包，循环Process函数

一套完整实用的IT规划方法论

miRNA与转录组联合分析

高级数据分析师凭什么月薪三万？一文解答你所有困惑

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

SQL常见计算方法总结

一篇文章带你使用建模的思路解决泰迪杯-智慧政务问题（答复意见评价含代码）

数据分析实战20绝技

Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

从大数据看技术，为什么天猫双11是史上最大数字经济节日

MATLAB环境下计算时间同步平均信号的差分信号算法运行环境为MATLABR2021B，计算时间同步平均信号的差分信号。

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开