概述

xgboost可以在spark上運作，我用的xgboost的版本是0.7的版本，目前隻支援spark2.0以上版本上運作,

編譯好jar包，加載到maven倉庫裡面去：

mvn install:install-file -Dfile=xgboost4j-spark-0.7-jar-with-dependencies.jar -DgroupId=ml.dmlc -DartifactId=xgboost4j-spark -Dversion=0.7 -Dpackaging=jar

添加依賴:

[html] view plain copy

<dependency>
<groupId>ml.dmlc</groupId>
<artifactId>xgboost4j-spark</artifactId>
<version>0.7</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>2.0.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-mllib_2.10</artifactId>
<version>2.0.0</version>
</dependency>
</dependencies>

RDD接口：

[python] view plain copy

package com.meituan.spark_xgboost
import org.apache.log4j.{ Level, Logger }
import org.apache.spark.{ SparkConf, SparkContext }
import ml.dmlc.xgboost4j.scala.spark.XGBoost
import org.apache.spark.sql.{ SparkSession, Row }
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.ml.feature.LabeledPoint
import org.apache.spark.ml.linalg.Vectors
object XgboostR {
def main(args: Array[String]): Unit = {
Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
val spark = SparkSession.builder.master("local").appName("example").
config("spark.sql.warehouse.dir", s"file:///Users/shuubiasahi/Documents/spark-warehouse").
config("spark.sql.shuffle.partitions", "20").getOrCreate()
spark.conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
val path = "/Users/shuubiasahi/Documents/workspace/xgboost/demo/data/"
val trainString = "agaricus.txt.train"
val testString = "agaricus.txt.test"
val train = MLUtils.loadLibSVMFile(spark.sparkContext, path + trainString)
val test = MLUtils.loadLibSVMFile(spark.sparkContext, path + testString)
val traindata = train.map { x =>
val f = x.features.toArray
val v = x.label
LabeledPoint(v, Vectors.dense(f))
}
val testdata = test.map { x =>
val f = x.features.toArray
val v = x.label
Vectors.dense(f)
}
val numRound = 15
//"objective" -> "reg:linear", //定義學習任務及相應的學習目标
//"eval_metric" -> "rmse", //校驗資料所需要的評價名額用于做回歸
val paramMap = List(
"eta" -> 1f,
"max_depth" ->5, //數的最大深度。預設值為6 ,取值範圍為：[1,∞]
"silent" -> 1, //取0時表示列印出運作時資訊，取1時表示以緘默方式運作，不列印運作時資訊。預設值為0
"objective" -> "binary:logistic", //定義學習任務及相應的學習目标
"lambda"->2.5,
"nthread" -> 1 //XGBoost運作時的線程數。預設值是目前系統可以獲得的最大線程數
).toMap
println(paramMap)
val model = XGBoost.trainWithRDD(traindata, paramMap, numRound, 55, null, null, useExternalMemory = false, Float.NaN)
print("sucess")
val result=model.predict(testdata)
result.take(10).foreach(println)
spark.stop();
}
}

DataFrame接口：

[python] view plain copy

package com.meituan.spark_xgboost
import org.apache.log4j.{ Level, Logger }
import org.apache.spark.{ SparkConf, SparkContext }
import ml.dmlc.xgboost4j.scala.spark.XGBoost
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import org.apache.spark.sql.{ SparkSession, Row }
object XgboostD {
def main(args: Array[String]): Unit = {
Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
val spark = SparkSession.builder.master("local").appName("example").
config("spark.sql.warehouse.dir", s"file:///Users/shuubiasahi/Documents/spark-warehouse").
config("spark.sql.shuffle.partitions", "20").getOrCreate()
spark.conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
val path = "/Users/shuubiasahi/Documents/workspace/xgboost/demo/data/"
val trainString = "agaricus.txt.train"
val testString = "agaricus.txt.test"
val train = spark.read.format("libsvm").load(path + trainString).toDF("label", "feature")
val test = spark.read.format("libsvm").load(path + testString).toDF("label", "feature")
val numRound = 15
//"objective" -> "reg:linear", //定義學習任務及相應的學習目标
//"eval_metric" -> "rmse", //校驗資料所需要的評價名額用于做回歸
val paramMap = List(
"eta" -> 1f,
"max_depth" -> 5, //數的最大深度。預設值為6 ,取值範圍為：[1,∞]
"silent" -> 1, //取0時表示列印出運作時資訊，取1時表示以緘默方式運作，不列印運作時資訊。預設值為0
"objective" -> "binary:logistic", //定義學習任務及相應的學習目标
"lambda" -> 2.5,
"nthread" -> 1 //XGBoost運作時的線程數。預設值是目前系統可以獲得的最大線程數
).toMap
val model = XGBoost.trainWithDataFrame(train, paramMap, numRound, 45, obj = null, eval = null, useExternalMemory = false, Float.NaN, "feature", "label")
val predict = model.transform(test)
val scoreAndLabels = predict.select(model.getPredictionCol, model.getLabelCol)
.rdd
.map { case Row(score: Double, label: Double) => (score, label) }
//get the auc
val metric = new BinaryClassificationMetrics(scoreAndLabels)
val auc = metric.areaUnderROC()
println("auc:" + auc)
}
}

xgboost之spark上運作-scala接口概述添加依賴:RDD接口：DataFrame接口：

概述

添加依賴:

RDD接口：

DataFrame接口：

繼續閱讀

pyspark調用spark以及執行帶in語句參數的hql示例

用寫sql的思路寫 pyspark

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結