Spark計算相關性系數（皮爾森、斯皮爾曼、卡方檢驗）

2023-08-03 04:10:59

皮爾森、斯皮爾曼（pearson spearman）：

import spark.implicits._
   import org.apache.spark.mllib.stat.Statistics
   import spark.sql  
   val df = sql(s"select * from xxxx ")
    
   val columns = List("xx","xx","xx")
   for(col <- columns){
      
     val df_real = df.select("label", col) 
     val rdd_real = df_real.rdd.map(x=>(x(0).toString.toDouble ,x(1).toString.toDouble ))
     val label = rdd_real.map(x=>x._1.toDouble )
     val feature = rdd_real.map(x=>x._2.toDouble )
     
     val cor_pearson:Double = Statistics.corr(label, feature, "pearson")
     println( s"${col}------" + cor_pearson )
 
     val cor_spearman:Double = Statistics.corr(label, feature, "spearman")
     println(s"${col}------" + cor_spearman )
   }

卡方檢驗計算卡方值：

import org.apache.spark.mllib.linalg.{Matrix, Matrices, Vectors }
   import org.apache.spark.mllib.regression.LabeledPoint 
   import org.apache.spark.mllib.stat.Statistics
   import spark.implicits._ 
   import spark.sql
   val df_real = sql(s"select * from  xxxx ")
    
    val columns = List("xx", "xx","xx","xx" )
  
  val featInd = columns.map(df_real.columns.indexOf(_))
  val targetInd = df_real.columns.indexOf("label") 
  val lp_data = df_real.rdd.map(r => LabeledPoint(
   r.getString(targetInd).toDouble,   
   Vectors.dense(featInd.map(r.getString(_).toDouble).toArray) 
))
   val vd=Statistics.chiSqTest(lp_data) 
     
  vd.foreach(x=>println(x.statistic))
  columns.foreach(println(_))

Spark計算相關性系數（皮爾森、斯皮爾曼、卡方檢驗）

繼續閱讀

Hive最全常見錯誤及解決方案hive --service metastore &

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

《快學Scala》——基礎

《快學scala》第13章練習答案

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

HiveQl語句應用執行個體：WordCount具體步驟如下：

Spark實作wordcount

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method