一、背景
資料集包含No, Name, Type1, Type2, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed, Generation, Legendary等資訊。
二、資料集介紹
本資料集包含800個精靈的相關參數,每個參數字段含義如下:
字段
含義
類型
no
編号
bigint
name
名稱
string
type1
屬性
type2
hp
attack
攻擊
defense
防禦
atk
特攻
def
特防
speed
速度
generation
第幾代
legendary
是否為極品
三、實驗過程
從左側欄中選擇DataWorks,進入工作區
建立腳本檔案,并導入資料。
執行完成後,點選右上角的“機器學習平台”
資料的具體結構如下:
首先,這個場景是希望利用精靈能力值來判斷精靈是否為極品精靈。将legendary作為目标列時,因其取值為1或0兩種,故此場景為一個二分類的監督學習。因資料品質很好,而不需要進行其他額外的處理。
實驗流程如下,
(1)資料預處理:資料與處理主要通過"類型轉換元件“将特征由bigint轉化為double類型,以及用“歸一化元件”對資料進行去量綱處理,把全部數值都歸一化到0和1之間。
(2)模型訓練:首先對資料集進行拆分,拆分比例為0.7,拆分原則按照随機采樣的算法實作,70%的資料用來訓練模型,30%的資料用來預測。
在模型選擇的時候,為了對比不同模型之間的效果,故模型選取了PAI平台自帶的四種模型:GBDT、PS-SMART、線性SVM和邏輯回歸。
特征使用的是hp、attack、defense、atk、def、speed和generation,目标向量為legendary。
(3)預測。直接采用PAI平台自身的“預測元件”對資料進行預測。
(4)模型評估。因為本場景為二分類監督學習,故采用“二分類評估元件”對結果進行評估。
這個實驗流程如下圖所示:
<b>四、實驗結果</b>
GBDT
PS-SMART
線性SVM
邏輯回歸
AUC
0.5
0.8287
0.9857
0.9618
KS
0.6549
0.9685
0.867
F1 Score
0.0952
0.6316
0.85
0.6809
evaluate_tsmpl
240
evaluate_psmpl
12
25
18
22
evaluate_nsmpl
228
215
222
218
<b>五、總結</b>
目前僅為資料的初步實驗,因精靈的屬性相值等特征之間的關系處理比較複雜,故會在後期慢慢進行更為細緻的分析。
因為最近看到大家都開始對吃雞遊戲進行資料分析,便引發了自己對比較喜歡的遊戲進行分析的想法。剛好看到Kaggle上有pokemon的資料集,便拿來一試。
我們目前更多看到的是人工智能在娛樂、電商、工業等大的行業帶來的變革,其實,人工智能就在我們的身邊,隻要有資料,就可以利用阿裡雲機器學習PAI平台,随時随地進行資料分析。比如Pokemon、LOL、王者、吃雞等遊戲,比如基金、股票等理财方式,再比如圖像識别、推薦系統等等。
大資料時代,資料無處不在,算法平台信手拈來,隻要你想得到,都可以拿來分析,讓工作更輕松,讓生活充滿樂趣。