1. R語言中有哪些資料結構?
R語言的資料結構包括以下幾種類型:
- 向量(Vector):一組相同類型的資料元素。向量中的成員叫做成分(Component)。
- 清單(List): 是R語言中包括不同類型元素(數值、字元串、向量或者另一個清單)的對象。
- 矩陣(Matrix): 是一個二維資料結構,由相同長度的向量構成。矩陣中的元素需為同一類型(例如數值或者字元等)。
- 資料框(Dataframe): 更廣義的矩陣。不同的列可以具有不同的資料類型。它結合了矩陣和清單的特征,更像是一個矩形清單。
2. R語言中如何讀取csv檔案?
可以用read.csv()函數讀取csv檔案,例如:
stock
3.圖像文法(Grammar of graphics)有哪些不同的組成部分?
在ggplot2庫中實作了分層圖像文法,其中包括資料(Data)層,美學(Aesthetics)層,幾何(Geometry)層,小平面(Facet)層,坐标(Co-ordinate)層和主題層。
延伸閱讀:The grammar of graphics
https://cfss.uchicago.edu/notes/grammar-of-graphics/
4.什麼是RMarkdonw?它有什麼用途?
RMarkdown是R語言中生成報表的工具。我們可以利用RMarkdown産生好看的報表。它可以産生HTML,PDF以及Word版本的報表。
5.如何在R語言裡安裝程式包?
R語言的程式包是由R語言的使用者自己開發的函數和資料的集合。這些程式包大大提高了R語言的功能。使用者在用這些程式包之前,需要自己安裝。例如要安裝mice程式包,就可以用
install.packages("mice")
6.R語言裡怎麼跑線性回歸?
首先,我們利用sample.split()函數把資料分為訓練集(Training dataset)和測試集。
第二步,就可以用lm()函數建立線性模型了。
第三步,我們可以用predict()函數做預測。
最後,我們可以計算RMSE等名額,評估模型水準。
7.R語言中有哪些程式包可以用來資料歸責(data imputation)?
在統計學裡,資料歸責是用一定的數值代替缺失資料(missing data)的過程。R語言中用于資料歸責的程式包有:
- mice
- Amelia
- missForest
- Hmisc
- Mi
- imputeR
8.什麼是R語言中的混淆矩陣(Confusion matrix)?
混淆矩陣用于衡量模型的精度。它産生觀察值和預測值之間的表格。以下是H2O程式包産生的混淆矩陣。

當然,你也可以用confusionMatrix()函數産生混淆矩陣。
9.R語言裡怎麼自己定義函數?
不論R語言有多少個程式包,你總是會需要自己定義一些函數。這個和别的語言大同小異。R語言中自定義函數的格式為:
=function(x){…………}
我們來看一個例子。你要定義一個名為JT的函數,當數值大于4的時候,傳回1,否則傳回0。(你可以了解為我們玩一個擲骰子遊戲,1,2,3,4算你赢,5,6算我赢。)
> JT function(x){ifelse(x>4,1,0) }> v > v > JT function(x){ifelse(x>4,1,0) }> v > v > v輸出結果:[1] 0 0 0 0 1 1
原來v中的值為1-6。在使用了JT函數後,前4個數變成了0,而後兩個數變成了1。
10. 請列舉一些dplyr中的函數。
程式包dplyr中的函數包括filter,select, mutate, arrange, count等。