這篇文章介紹的是我平時寫程式遇到的各種小問題，以及解決他們的小技巧

#1.R語言讀取EXCEL

用R語言讀取EXCEL時，可以使用readxl包的read_excel函數，不要使用xlsx這個包，因為xlsx它要加載JAVA，很麻煩，而使用readxl不需要加載JAVA。

#2.如何在R中構造一個hash函數

這在R中或許有許多包能夠實作，但是，其實我們自己來實作也是很簡單的，要知道

environment

的原理也是一個hash函數，我們隻需要利用environment，來負責存儲我們所需要的映射清單就可以了。接下來我們可以利用

digest

包的散列函數

digest()

,這個函數可以将任意的R對象映射為一個md5值，或者sha1等，他的md5值就是我們所需要的key，以下是使用例子：

有如下這樣的資料

> df<-data.frame(x=1:4,y=2:5,z=3:6,k=4:7)
> df
  x y z k
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7

假設我想将x,y映射到z，将y,z映射為k，先定義兩個函數，一個是

SetKeyValue

，負責設定key,value對，第二個是

GetValue

，輸入一個key，傳回key對應的value。

library(digest)
SetKeyValue<-function(envir,key,value){
  envir[[digest(key)]]<-value
  return(envir)
}
GetValue<-function(envir,key){
  return(envir[[digest(key)]])
}

hash<-new.env()
for(i in 1:nrow(df)){
  hash<-SetKeyValue(hash,df[i,1:2],df[i,3])
  hash<-SetKeyValue(hash,df[i,2:3],df[i,4])
}

這樣我們就得到了一個由environment構造的hash函數了，我們可以這樣去得到值：

> GetValue(hash,df[1,1:2]) #得到當x=1 y=2時的z值
[1] 3

當然，如果想要更快的速度，可以使用

fastdigest

這個包，裡面的散列函數比

digest

包要快，隻需将

digest()

替換成

fastdigest()

就可以了。

#3.如何用最快最簡單的方法加快R的執行速度？

答案是使用

compiler

包，這個包的作用就是将R代碼編譯成位元組碼，這在很多情況下都能加快運作的速度，當然也會有一些時候作用沒有那麼大，使用非常簡單，以下是一個使用例子：

> library(microbenchmark)
> library(compiler)
> f1<-function(){
+   x=1:100
+   for(i in 1:100){
+     x[i]=x[i]+1
+   }
+ }
> f2<-function(){
+   x=1:100
+   x+1
+ }
> f3<-cmpfun(f1)
> f4<-cmpfun(f2)
> microbenchmark(
+   f1(),
+   f2(),
+   f3(),
+   f4()
+ )
Unit: nanoseconds
 expr    min     lq      mean median     uq    max neval cld
 f1() 170077 175453 178277.64 177652 179363 227746   100   c
 f2()    978   1467   2028.94   1956   2444   5865   100 a  
 f3()  11730  12219  12873.79  12708  13196  20039   100  b 
 f4()    978   1466   1564.65   1467   1955   2933   100 a

可以看到編譯後的f3,f4跟編譯前的f1,f2,快了将近2倍到10倍，這麼簡單就能提升運作速度，何樂而不為呢？

我寫的一個小代碼，可以批量地把環境變量中所有的函數都編譯一次：

funlist<-c(lsf.str())
for(f in funlist){
  assign(f,cmpfun(get(f)))
}

如何想要更快，可以參考Windows使用OpenBLAS加速R語言計算速度

#4.如何讀取一個檔案夾所有的檔案？

我們可以利用

list.files

進行比對，通過其中參數

pattern

可以填寫正規表達式，用來比對檔案夾下滿足條件的檔案名。然後再利用

lapply

來導入檔案。

filenames <- list.files("C:/Users/qj/Desktop/demo_data/", pattern = ".txt") 

datalist <- lapply(filenames, function(name) { 
  read.table(paste0("C:/Users/qj/Desktop/demo_data/", name),sep=',',header = T) 
})

#5.如何把data.frame按照行來對應生成清單

> set.seed(1)
> df <- data.frame(i=3:1,  y = runif(3))
> df
  i         y
1 3 0.2655087
2 2 0.3721239
3 1 0.5728534

我想把這個data.frame變成一個list 并且i要與list中的序号對應。

解決方法如下：

> i=df$i
> df=df[,2]
> dflist<-split(df,i)
> names(dflist)<-NULL
> dflist
[[1]]
[1] 0.5728534

[[2]]
[1] 0.3721239

[[3]]
[1] 0.2655087

#6.如何标記每個組别中出現的次數，他們出現的順序。

有這麼個資料：

> df=data.frame(group=c(1,1,2,2,3,3,3))
> df
  group
1     1
2     1
3     2
4     2
5     3
6     3
7     3

現在想添加一列，标記的id列，讓它變成：

group id
1:     1  1
2:     1  2
3:     2  1
4:     2  2
5:     3  1
6:     3  2
7:     3  3

可以利用data.table實作：

> dt<-data.table(df)
> dt[,id:=1:.N,by=group]
> dt
   group id
1:     1  1
2:     1  2
3:     2  1
4:     2  2
5:     3  1
6:     3  2
7:     3  3

#7.R語言讀取SPSS格式檔案

可以使用

library(memisc)

這個包，雖然foreign也能做到，但是有的時候格式會很混亂，而memisc就可以完美讀取。

#8.R語言for循環的小貼士

看一個例子，這個例子是一個簡單的for循環，它在大部分情況下是沒有任何問題的。

n=nrow(x)
for(i in 1:n){
x[i]
}

但是如果當x是一個空值時，這就會出問題了，當x是空值時，我們并不希望這個for循環會執行，但是在這裡n=0，那麼i in 1:0 就會産生1和0，這就會導緻出現各種各樣的錯誤，而且這些錯誤并不固定，它會随着你的for循環裡面的内容改變而改變，進而很難定位bug的所在。一個解決的方法是，我們可以使用

seq.int(length.out = n)

循環來代替1:n

n=nrow(x)
for(i in seq.int(length.out = n)){
x[i]
}

這樣當n=0的時候，這個循環就不會執行了。

#9.使用foreach包并行計算時看到裡面print的方法

在linux的時候，我們可以在makeCluster上加上

outfile=""

使用

""

就會預設輸出到控制台，不過這個功能在windows好像不能用，在windows的時候建議輸出到檔案裡，

outfile="d:/log.txt"

，這樣就可以了。

library(parallel)
library(foreach)
library(doParallel)
cl<-makeCluster(2,outfile="d:/log.txt") #work for windows
cl<-makeCluster(2,outfile="") #work for linux
registerDoParallel(cl)
x <- foreach(i=1:100,.combine = rbind,.inorder = F) %dopar% {
  print(i)
  sqrt(i)
}
stopCluster(cl)

将任意對象與字元串互相轉換

## an object that you want to recreate
m2 <- matrix(1:4,2,2)
## use capture.output to save structure as a string in a varible
xx <- capture.output(dput(m2))

## recreate the object 
m2_ <- eval(parse(text=xx))

作為分享主義者(sharism)，本人所有網際網路釋出的圖文均遵從CC版權，轉載請保留作者資訊并注明作者a358463121專欄:http://blog.csdn.net/a358463121，如果涉及源代碼請注明GitHub位址：https://github.com/Jie-Qiao。商業使用請聯系作者。

R語言實用小技巧将任意對象與字元串互相轉換

将任意對象與字元串互相轉換

繼續閱讀

IBM Power程式設計馬拉松——以“碼”會友，把手言歡！

R語言| 中介效應分析，Mediation包和BruceR包，循環Process函數

Excel多行轉多列

淺談資料挖掘評估技術

【R語言】GARCH模型的應用一、資料來源二、資料分析三、模型建立四、模型優化五、結論六、實作代碼七、參考資料

壓測--部署[email protected] - PerfMon Metrics Collector

Jmeter監聽器圖形結果插件

Python TensorFlow循環神經網絡RNN-LSTM神經網絡預測股票市場價格時間序列和MSE評估準确性

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

Lagrange插值的R語言實作

LoadRunner(5)_LoadRunner工作過程

Excel如何将小寫轉大寫金額

個項目的開發過程及成員組成

R語言-相關性分析函數

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

多線程擷取随機數性能對比（C vs C++）