【阿裡雲MVP月度分享】基于PAI平台和Pokemon資料集判斷精靈是否為極品精靈

2021-11-16 10:29:03

一、背景

資料集包含No, Name, Type1, Type2, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed, Generation, Legendary等資訊。

二、資料集介紹

本資料集包含800個精靈的相關參數，每個參數字段含義如下：

字段

含義

類型

編号

bigint

name

名稱

string

type1

屬性

type2

attack

攻擊

defense

防禦

atk

特攻

def

特防

speed

速度

generation

第幾代

legendary

是否為極品

三、實驗過程

從左側欄中選擇DataWorks，進入工作區

【阿裡雲MVP月度分享】基于PAI平台和Pokemon資料集判斷精靈是否為極品精靈

建立腳本檔案，并導入資料。

執行完成後，點選右上角的“機器學習平台”

資料的具體結構如下：

首先，這個場景是希望利用精靈能力值來判斷精靈是否為極品精靈。将legendary作為目标列時，因其取值為1或0兩種，故此場景為一個二分類的監督學習。因資料品質很好，而不需要進行其他額外的處理。

實驗流程如下，

（1）資料預處理：資料與處理主要通過"類型轉換元件“将特征由bigint轉化為double類型，以及用“歸一化元件”對資料進行去量綱處理，把全部數值都歸一化到0和1之間。

（2）模型訓練：首先對資料集進行拆分，拆分比例為0.7，拆分原則按照随機采樣的算法實作，70%的資料用來訓練模型，30%的資料用來預測。

在模型選擇的時候，為了對比不同模型之間的效果，故模型選取了PAI平台自帶的四種模型：GBDT、PS-SMART、線性SVM和邏輯回歸。

特征使用的是hp、attack、defense、atk、def、speed和generation，目标向量為legendary。

（3）預測。直接采用PAI平台自身的“預測元件”對資料進行預測。

（4）模型評估。因為本場景為二分類監督學習，故采用“二分類評估元件”對結果進行評估。

這個實驗流程如下圖所示：

GBDT

PS-SMART

線性SVM

邏輯回歸

AUC

0.5

0.8287

0.9857

0.9618

0.6549

0.9685

0.867

F1 Score

0.0952

0.6316

0.85

0.6809

evaluate_tsmpl

240

evaluate_psmpl

evaluate_nsmpl

228

215

222

218

目前僅為資料的初步實驗，因精靈的屬性相值等特征之間的關系處理比較複雜，故會在後期慢慢進行更為細緻的分析。

因為最近看到大家都開始對吃雞遊戲進行資料分析，便引發了自己對比較喜歡的遊戲進行分析的想法。剛好看到Kaggle上有pokemon的資料集，便拿來一試。

我們目前更多看到的是人工智能在娛樂、電商、工業等大的行業帶來的變革，其實，人工智能就在我們的身邊，隻要有資料，就可以利用阿裡雲機器學習PAI平台，随時随地進行資料分析。比如Pokemon、LOL、王者、吃雞等遊戲，比如基金、股票等理财方式，再比如圖像識别、推薦系統等等。

大資料時代，資料無處不在，算法平台信手拈來，隻要你想得到，都可以拿來分析，讓工作更輕松，讓生活充滿樂趣。

【阿裡雲MVP月度分享】基于PAI平台和Pokemon資料集判斷精靈是否為極品精靈

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希