保序回歸算法原理及Spark MLlib調用執行個體(Scala/Java/python)

2023-06-19 15:17:02

保序回歸

算法介紹：

保序回歸是回歸算法的一種。保序回歸給定一個有限的實數集合

保序回歸算法原理及Spark MLlib調用執行個體(Scala/Java/python)

代表觀察到的響應，以及

保序回歸算法原理及Spark MLlib調用執行個體(Scala/Java/python)

代表未知的響應值，訓練一個模型來最小化下列方程：

保序回歸算法原理及Spark MLlib調用執行個體(Scala/Java/python)

其中

保序回歸算法原理及Spark MLlib調用執行個體(Scala/Java/python)

，

保序回歸算法原理及Spark MLlib調用執行個體(Scala/Java/python)

為權重是正值。其結果方程稱為保序回歸，而且其解是唯一的。它可以被視為有順序限制下的最小二乘法問題。實際上保序回歸在拟合原始資料點時是一個單調函數。我們實作池旁者算法，它使用并行保序回歸。訓練資料是DataFrame格式，包含标簽、特征值以及權重三列。另外保序算法還有一個參數名為isotonic，其預設值為真，它指定保序回歸為保序（單調遞增）或者反序（單調遞減）。

訓練傳回一個保序回歸模型，可以被用于來預測已知或者未知特征值的标簽。保序回歸的結果是分段線性函數，預測規則如下：

1.如果預測輸入與訓練中的特征值完全比對，則傳回相應标簽。如果一個特征值對應多個預測标簽值，則傳回其中一個，具體是哪一個未指定。

2.如果預測輸入比訓練中的特征值都高（或者都低），則相應傳回最高特征值或者最低特征值對應标簽。如果一個特征值對應多個預測标簽值，則相應傳回最高值或者最低值。

3.如果預測輸入落入兩個特征值之間，則預測将會是一個分段線性函數，其值由兩個最近的特征值的預測值計算得到。如果一個特征值對應多個預測标簽值，則使用上述兩種情況中的處理方式解決。

參數：

featuresIndex:

類型：整數型。

含義：當特征列維向量時提供索引值，否則不進行處理。

featuresCol:

類型：字元串型。

含義：特征列名。

isotonic:

類型：布爾型。

含義：輸出序列為保序/增序（真）或者反序/降序（假）。

labelCol:

類型：字元串型。

含義：标簽列名。

predictionCol:

類型：字元串型。

含義：預測結果列名。

weightCol:

類型：字元串型。

含義：列權重。

調用示例：

Scala:

import org.apache.spark.ml.regression.IsotonicRegression

// Loads data.
val dataset = spark.read.format("libsvm")
  .load("data/mllib/sample_isotonic_regression_libsvm_data.txt")

// Trains an isotonic regression model.
val ir = new IsotonicRegression()
val model = ir.fit(dataset)

println(s"Boundaries in increasing order: ${model.boundaries}")
println(s"Predictions associated with the boundaries: ${model.predictions}")

// Makes predictions.
model.transform(dataset).show()

Java:

import org.apache.spark.ml.regression.IsotonicRegression;
import org.apache.spark.ml.regression.IsotonicRegressionModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

// Loads data.
Dataset<Row> dataset = spark.read().format("libsvm")
  .load("data/mllib/sample_isotonic_regression_libsvm_data.txt");

// Trains an isotonic regression model.
IsotonicRegression ir = new IsotonicRegression();
IsotonicRegressionModel model = ir.fit(dataset);

System.out.println("Boundaries in increasing order: " + model.boundaries());
System.out.println("Predictions associated with the boundaries: " + model.predictions());

// Makes predictions.
model.transform(dataset).show();

Python:

from pyspark.ml.regression import IsotonicRegression, IsotonicRegressionModel

# Loads data.
dataset = spark.read.format("libsvm")\
    .load("data/mllib/sample_isotonic_regression_libsvm_data.txt")

# Trains an isotonic regression model.
model = IsotonicRegression().fit(dataset)
print("Boundaries in increasing order: " + str(model.boundaries))
print("Predictions associated with the boundaries: " + str(model.predictions))

# Makes predictions.
model.transform(dataset).show()

保序回歸算法原理及Spark MLlib調用執行個體(Scala/Java/python)

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

hdu7108哈希