天天看點

r語言折線圖_R語言:相關分析(R基礎)

目  錄

  • 前言
  • 導入資料
  • 散點圖
  • 正态性檢驗
  • 相關分析
  • 常用相關性檢驗:
    • pearson相關性檢驗
    • spearman秩檢驗
    • kendall檢驗
  • cor.test()函數
  • End

前言

判斷兩個數值變量之間有無直線相關關系,并回答相關方向和相關程度時,可采用相關分析。相關分析是研究變量間互相關系, 測定它們聯系的緊密程度,揭示其變化的具體形式和規律性的統計方法。 兩個變量按照相關方向的不同, 可分為正相關、負相關和零相關。若x,y同時增大或減小,變化趨勢是同向的,稱為正相關;若x,y之間呈反向變化,稱為負相關;若x,y散點分布沒有直線相關關系稱為零相關。

r語言折線圖_R語言:相關分析(R基礎)

正相關或負相關并不一定表示一個變量的改變是另一個變量變化的的原因,有可能同受另一個因素的影響,是以, 相關關系并不一定是因果關系 。 導入資料

r語言折線圖_R語言:相關分析(R基礎)

散點圖

通過不同變量之間的散點圖可以直覺地了解它們之間的關系和相關程度。

plot(test)
           
r語言折線圖_R語言:相關分析(R基礎)

從圖上可以看出,資料點分布接近直線,可以推測x,y之間存在正相關關系。

注意:如果圖中有明顯遠離主體資料的觀測值,稱為離群值,注意對離群值的處理。

正态性檢驗

本公衆号前面文章t檢驗中介紹了正态性檢驗的方法。

shapiro.test(test$x)
shapiro.test(test$y)
           
r語言折線圖_R語言:相關分析(R基礎)

從結果可以看出,兩個p值都>0.05,說明兩個變量都服從正态分布。

注意:即使變量符合正态分布,但是當樣本量過大時,也可以出現有統計學意義的結果,即變量不服從正态分布。是以,對于大樣本量,可以作圖來判斷正态性。

相關分析

cor.test(~x+y,data = test)
           
r語言折線圖_R語言:相關分析(R基礎)

因為

p=2.154e-05 < 0.05

, 故拒絕原假設, 進而認為變量x與y相關。

相關系數為

0.905

95%

置信區間為

(0.705 ~ 0.971)

常用相關性檢驗:

pearson相關性檢驗

Pearson相關系數

也稱

Pearson積差相關系數

,用來反映了變量間的線性相關程度的大小。

Pearson

相關要求:

x,y

為兩連續變量,并且服從雙變量正态分布。

spearman秩檢驗

spearman相關系數

又稱秩相關系數,是對兩變量的秩次大小作線性線性相關分析,對原始變量不做要求,屬于非參數統計方法,适用範圍更廣些。

對于服從

Pearson

相關系數的資料亦可計算

Spearman

相關系數,但統計效能要低一些。

秋相關或等級相關适用下列資料:

  1. 不服從雙變量正态分布;
  2. 總體分布類型未知;
  3. 原始資料是用等級表示。

kendall檢驗

用于反映分類變量相關性的名額,适用于兩個分類變量均為有序分類的情況。

對相關的有序變量進行非參數相關檢驗;取值範圍在

-1 ~ +1

之間,此檢驗适合于正方形表格(即行與列的數量相同)。

cor.test()函數

cor.test(x, y,  # x,y為長度相同的數字向量
         alternative = c("two.sided", "less", "greater"),  # alternative是備擇假設, 預設“two.side”
         method = c("pearson", "kendall", "spearman"),  # method是選擇檢驗方法, 預設Pearson檢驗
         exact = NULL,  # 邏輯詞,是否計算精确p值,method為"kendall", "spearman"時使用;
         conf.level = 0.95,  # coef.level是置信水準, 預設0.95.
         continuity = FALSE, ...)  # 邏輯詞,預設為FALSE。為TRUE, 則"kendall", "spearman"沒有計算精确值時使用連續性校正。
另一種調用方法:
cor.test(formula, # 公式,形如‘u+v’,‘u’,‘v’, 必須是具有相同長度的數值向量;
         data,  # 矩陣或資料框;
         subset, # 可選擇向量, 表示觀察值的子集
         na.action, ...)
           
"cor", "tau", "rho" 分别對應 "pearson","kendall","spearman"。
           

End

參考資料:

1.《醫學統計學》第4版 孫振球

2.《R語言與統計分析》 湯銀才

往期回顧

資料處理

R語言統計與繪圖:資料的讀取

R語言統計與繪圖:基礎資料處理(二)

R語言統計與繪圖:基礎資料處理(三)

R語言統計與繪圖:基礎資料處理(四)

R語言統計與繪圖:基礎資料處理(五)

R語言統計與繪圖:缺失值的處理

R語言統計與繪圖:日期/時間資料的處理

統計分析 R語言統計與繪圖:計量資料的基本統計描述 R語言統計與繪圖:計數資料的基本統計描述 R語言統計繪圖:t 檢驗怎麼做?

R語言統計與繪圖:臨床論文中基線特征表1怎麼做?

R語言統計與繪圖:COX回歸模型怎麼建?

統計作圖

R語言統計與繪圖:R語言圖形輸出 R語言統計與繪圖:基礎圖形參數整理 R語言統計與繪圖:ggplot2圖形參數—坐标軸 R語言統計與繪圖:ggplot2圖形參數—圖例 R語言統計與繪圖:ggplot2圖形參數—注解 R語言統計與繪圖:ggplot2圖形參數—圖形外觀

R語言統計與繪圖:KM曲線繪制

R語言統計與繪圖:Kaplan-Meier生存曲線更新

R語言統計與繪圖:Kaplan-Meier生存曲線的進階畫法

R語言與統計:ROC曲線怎麼畫?

R語言統計與繪圖:ROC曲線怎麼畫?(二)

R語言統計與繪圖:森林圖(forestplot)怎麼畫?

R語言統計與繪圖:ggplot2繪制簇狀條形圖

R語言統計與繪圖:ggplot2繪制散點圖

R語言統計與繪圖:怎麼畫全國疫情趨勢?(折線圖)

繼續閱讀