1. R语言中有哪些数据结构?
R语言的数据结构包括以下几种类型:
- 向量(Vector):一组相同类型的数据元素。向量中的成员叫做成分(Component)。
- 列表(List): 是R语言中包括不同类型元素(数值、字符串、向量或者另一个列表)的对象。
- 矩阵(Matrix): 是一个二维数据结构,由相同长度的向量构成。矩阵中的元素需为同一类型(例如数值或者字符等)。
- 数据框(Dataframe): 更广义的矩阵。不同的列可以具有不同的数据类型。它结合了矩阵和列表的特征,更像是一个矩形列表。
2. R语言中如何读取csv文件?
可以用read.csv()函数读取csv文件,例如:
stock
3.图像语法(Grammar of graphics)有哪些不同的组成部分?
在ggplot2库中实现了分层图像语法,其中包括数据(Data)层,美学(Aesthetics)层,几何(Geometry)层,小平面(Facet)层,坐标(Co-ordinate)层和主题层。
延伸阅读:The grammar of graphics
https://cfss.uchicago.edu/notes/grammar-of-graphics/
4.什么是RMarkdonw?它有什么用途?
RMarkdown是R语言中生成报表的工具。我们可以利用RMarkdown产生好看的报表。它可以产生HTML,PDF以及Word版本的报表。
5.如何在R语言里安装程序包?
R语言的程序包是由R语言的用户自己开发的函数和数据的集合。这些程序包大大提高了R语言的功能。用户在用这些程序包之前,需要自己安装。例如要安装mice程序包,就可以用
install.packages("mice")
6.R语言里怎么跑线性回归?
首先,我们利用sample.split()函数把数据分为训练集(Training dataset)和测试集。
第二步,就可以用lm()函数建立线性模型了。
第三步,我们可以用predict()函数做预测。
最后,我们可以计算RMSE等指标,评估模型水平。
7.R语言中有哪些程序包可以用来数据归责(data imputation)?
在统计学里,数据归责是用一定的数值代替缺失数据(missing data)的过程。R语言中用于数据归责的程序包有:
- mice
- Amelia
- missForest
- Hmisc
- Mi
- imputeR
8.什么是R语言中的混淆矩阵(Confusion matrix)?
混淆矩阵用于衡量模型的精度。它产生观察值和预测值之间的表格。以下是H2O程序包产生的混淆矩阵。

当然,你也可以用confusionMatrix()函数产生混淆矩阵。
9.R语言里怎么自己定义函数?
不论R语言有多少个程序包,你总是会需要自己定义一些函数。这个和别的语言大同小异。R语言中自定义函数的格式为:
=function(x){…………}
我们来看一个例子。你要定义一个名为JT的函数,当数值大于4的时候,返回1,否则返回0。(你可以理解为我们玩一个掷骰子游戏,1,2,3,4算你赢,5,6算我赢。)
> JT function(x){ifelse(x>4,1,0) }> v > v > JT function(x){ifelse(x>4,1,0) }> v > v > v输出结果:[1] 0 0 0 0 1 1
原来v中的值为1-6。在使用了JT函数后,前4个数变成了0,而后两个数变成了1。
10. 请列举一些dplyr中的函数。
程序包dplyr中的函数包括filter,select, mutate, arrange, count等。