天天看點

【阿裡雲MVP月度分享】基于PAI平台和Pokemon資料集判斷精靈是否為極品精靈

一、背景

資料集包含No, Name, Type1, Type2, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed, Generation, Legendary等資訊。

二、資料集介紹

本資料集包含800個精靈的相關參數,每個參數字段含義如下:

 字段

 含義

 類型

 no

 編号

 bigint

 name

 名稱

 string

 type1

 屬性

 type2

 hp

 attack

 攻擊

 defense

 防禦

 atk

 特攻

 def

 特防

 speed

 速度

 generation

 第幾代

 legendary

 是否為極品

三、實驗過程

從左側欄中選擇DataWorks,進入工作區

【阿裡雲MVP月度分享】基于PAI平台和Pokemon資料集判斷精靈是否為極品精靈

建立腳本檔案,并導入資料。

執行完成後,點選右上角的“機器學習平台”

資料的具體結構如下:

【阿裡雲MVP月度分享】基于PAI平台和Pokemon資料集判斷精靈是否為極品精靈

首先,這個場景是希望利用精靈能力值來判斷精靈是否為極品精靈。将legendary作為目标列時,因其取值為1或0兩種,故此場景為一個二分類的監督學習。因資料品質很好,而不需要進行其他額外的處理。

實驗流程如下,

(1)資料預處理:資料與處理主要通過"類型轉換元件“将特征由bigint轉化為double類型,以及用“歸一化元件”對資料進行去量綱處理,把全部數值都歸一化到0和1之間。

【阿裡雲MVP月度分享】基于PAI平台和Pokemon資料集判斷精靈是否為極品精靈

(2)模型訓練:首先對資料集進行拆分,拆分比例為0.7,拆分原則按照随機采樣的算法實作,70%的資料用來訓練模型,30%的資料用來預測。

在模型選擇的時候,為了對比不同模型之間的效果,故模型選取了PAI平台自帶的四種模型:GBDT、PS-SMART、線性SVM和邏輯回歸。

特征使用的是hp、attack、defense、atk、def、speed和generation,目标向量為legendary。

(3)預測。直接采用PAI平台自身的“預測元件”對資料進行預測。

(4)模型評估。因為本場景為二分類監督學習,故采用“二分類評估元件”對結果進行評估。

這個實驗流程如下圖所示:

【阿裡雲MVP月度分享】基于PAI平台和Pokemon資料集判斷精靈是否為極品精靈

<b>四、實驗結果</b>

 GBDT

 PS-SMART

 線性SVM

 邏輯回歸

 AUC

 0.5

 0.8287

 0.9857

 0.9618

 KS

 0.6549

 0.9685

 0.867

 F1 Score

 0.0952

 0.6316

 0.85

 0.6809

 evaluate_tsmpl

 240

 evaluate_psmpl

12

 25

 18

 22

 evaluate_nsmpl

 228

 215

 222

 218

<b>五、總結</b>

目前僅為資料的初步實驗,因精靈的屬性相值等特征之間的關系處理比較複雜,故會在後期慢慢進行更為細緻的分析。

因為最近看到大家都開始對吃雞遊戲進行資料分析,便引發了自己對比較喜歡的遊戲進行分析的想法。剛好看到Kaggle上有pokemon的資料集,便拿來一試。

我們目前更多看到的是人工智能在娛樂、電商、工業等大的行業帶來的變革,其實,人工智能就在我們的身邊,隻要有資料,就可以利用阿裡雲機器學習PAI平台,随時随地進行資料分析。比如Pokemon、LOL、王者、吃雞等遊戲,比如基金、股票等理财方式,再比如圖像識别、推薦系統等等。

大資料時代,資料無處不在,算法平台信手拈來,隻要你想得到,都可以拿來分析,讓工作更輕松,讓生活充滿樂趣。

繼續閱讀