這篇文章介紹的是我平時寫程式遇到的各種小問題,以及解決他們的小技巧
#1.R語言讀取EXCEL
用R語言讀取EXCEL時,可以使用readxl包的read_excel函數,不要使用xlsx這個包,因為xlsx它要加載JAVA,很麻煩,而使用readxl不需要加載JAVA。
#2.如何在R中構造一個hash函數
這在R中或許有許多包能夠實作,但是,其實我們自己來實作也是很簡單的,要知道
environment
的原理也是一個hash函數,我們隻需要利用environment,來負責存儲我們所需要的映射清單就可以了。接下來我們可以利用
digest
包的散列函數
digest()
,這個函數可以将任意的R對象映射為一個md5值,或者sha1等,他的md5值就是我們所需要的key,以下是使用例子:
有如下這樣的資料
> df<-data.frame(x=1:4,y=2:5,z=3:6,k=4:7)
> df
x y z k
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
假設我想将x,y映射到z,将y,z映射為k,先定義兩個函數,一個是
SetKeyValue
,負責設定key,value對,第二個是
GetValue
,輸入一個key,傳回key對應的value。
library(digest)
SetKeyValue<-function(envir,key,value){
envir[[digest(key)]]<-value
return(envir)
}
GetValue<-function(envir,key){
return(envir[[digest(key)]])
}
hash<-new.env()
for(i in 1:nrow(df)){
hash<-SetKeyValue(hash,df[i,1:2],df[i,3])
hash<-SetKeyValue(hash,df[i,2:3],df[i,4])
}
這樣我們就得到了一個由environment構造的hash函數了,我們可以這樣去得到值:
> GetValue(hash,df[1,1:2]) #得到當x=1 y=2時的z值
[1] 3
當然,如果想要更快的速度,可以使用
fastdigest
這個包,裡面的散列函數比
digest
包要快,隻需将
digest()
替換成
fastdigest()
就可以了。
#3.如何用最快最簡單的方法加快R的執行速度?
答案是使用
compiler
包,這個包的作用就是将R代碼編譯成位元組碼,這在很多情況下都能加快運作的速度,當然也會有一些時候作用沒有那麼大,使用非常簡單,以下是一個使用例子:
> library(microbenchmark)
> library(compiler)
> f1<-function(){
+ x=1:100
+ for(i in 1:100){
+ x[i]=x[i]+1
+ }
+ }
> f2<-function(){
+ x=1:100
+ x+1
+ }
> f3<-cmpfun(f1)
> f4<-cmpfun(f2)
> microbenchmark(
+ f1(),
+ f2(),
+ f3(),
+ f4()
+ )
Unit: nanoseconds
expr min lq mean median uq max neval cld
f1() 170077 175453 178277.64 177652 179363 227746 100 c
f2() 978 1467 2028.94 1956 2444 5865 100 a
f3() 11730 12219 12873.79 12708 13196 20039 100 b
f4() 978 1466 1564.65 1467 1955 2933 100 a
可以看到編譯後的f3,f4跟編譯前的f1,f2,快了将近2倍到10倍,這麼簡單就能提升運作速度,何樂而不為呢?
我寫的一個小代碼,可以批量地把環境變量中所有的函數都編譯一次:
funlist<-c(lsf.str())
for(f in funlist){
assign(f,cmpfun(get(f)))
}
如何想要更快,可以參考Windows使用OpenBLAS加速R語言計算速度
#4.如何讀取一個檔案夾所有的檔案?
我們可以利用
list.files
進行比對,通過其中參數
pattern
可以填寫正規表達式,用來比對檔案夾下滿足條件的檔案名。然後再利用
lapply
來導入檔案。
filenames <- list.files("C:/Users/qj/Desktop/demo_data/", pattern = ".txt")
datalist <- lapply(filenames, function(name) {
read.table(paste0("C:/Users/qj/Desktop/demo_data/", name),sep=',',header = T)
})
#5.如何把data.frame按照行來對應生成清單
> set.seed(1)
> df <- data.frame(i=3:1, y = runif(3))
> df
i y
1 3 0.2655087
2 2 0.3721239
3 1 0.5728534
我想把這個data.frame變成一個list 并且i要與list中的序号對應。
解決方法如下:
> i=df$i
> df=df[,2]
> dflist<-split(df,i)
> names(dflist)<-NULL
> dflist
[[1]]
[1] 0.5728534
[[2]]
[1] 0.3721239
[[3]]
[1] 0.2655087
#6.如何标記每個組别中出現的次數,他們出現的順序。
有這麼個資料:
> df=data.frame(group=c(1,1,2,2,3,3,3))
> df
group
1 1
2 1
3 2
4 2
5 3
6 3
7 3
現在想添加一列,标記的id列,讓它變成:
group id
1: 1 1
2: 1 2
3: 2 1
4: 2 2
5: 3 1
6: 3 2
7: 3 3
可以利用data.table實作:
> dt<-data.table(df)
> dt[,id:=1:.N,by=group]
> dt
group id
1: 1 1
2: 1 2
3: 2 1
4: 2 2
5: 3 1
6: 3 2
7: 3 3
#7.R語言讀取SPSS格式檔案
可以使用
library(memisc)
這個包,雖然foreign也能做到,但是有的時候格式會很混亂,而memisc就可以完美讀取。
#8.R語言for循環的小貼士
看一個例子,這個例子是一個簡單的for循環,它在大部分情況下是沒有任何問題的。
n=nrow(x)
for(i in 1:n){
x[i]
}
但是如果當x是一個空值時,這就會出問題了,當x是空值時,我們并不希望這個for循環會執行,但是在這裡n=0,那麼i in 1:0 就會産生1和0,這就會導緻出現各種各樣的錯誤,而且這些錯誤并不固定,它會随着你的for循環裡面的内容改變而改變,進而很難定位bug的所在。一個解決的方法是,我們可以使用
seq.int(length.out = n)
循環來代替1:n
n=nrow(x)
for(i in seq.int(length.out = n)){
x[i]
}
這樣當n=0的時候,這個循環就不會執行了。
#9.使用foreach包并行計算時看到裡面print的方法
在linux的時候,我們可以在makeCluster上加上
outfile=""
使用
""
就會預設輸出到控制台,不過這個功能在windows好像不能用,在windows的時候建議輸出到檔案裡,
outfile="d:/log.txt"
,這樣就可以了。
library(parallel)
library(foreach)
library(doParallel)
cl<-makeCluster(2,outfile="d:/log.txt") #work for windows
cl<-makeCluster(2,outfile="") #work for linux
registerDoParallel(cl)
x <- foreach(i=1:100,.combine = rbind,.inorder = F) %dopar% {
print(i)
sqrt(i)
}
stopCluster(cl)
将任意對象與字元串互相轉換
## an object that you want to recreate
m2 <- matrix(1:4,2,2)
## use capture.output to save structure as a string in a varible
xx <- capture.output(dput(m2))
## recreate the object
m2_ <- eval(parse(text=xx))
作為分享主義者(sharism),本人所有網際網路釋出的圖文均遵從CC版權,轉載請保留作者資訊并注明作者a358463121專欄:http://blog.csdn.net/a358463121,如果涉及源代碼請注明GitHub位址:https://github.com/Jie-Qiao。商業使用請聯系作者。