天天看點

阿裡雲機器學習平台PAI使用簡明教程(二)

概述

前面在 阿裡雲機器學習平台PAI使用簡明教程 介紹了使用DataStudio在maxcompute中手動導入資料進行PAI Studio模型的搭建、訓練及線上部署調用。實際在使用過程中使用者的資料可能在其它的資料源,目前PAI Studio并不支援直接接入第三方資料源。官方推薦的方式是使用Dataworks的資料內建功能,将資料通過離線同步将資料導入到maxcompute中,然後進行後續操作。本文以Mysql資料庫為例,結合GBDT二分類算法元件,示範相關過程的操作流程。

Step By Step

1、Dataworks 資料內建

  • 1.1 配置資料源
阿裡雲機器學習平台PAI使用簡明教程(二)
阿裡雲機器學習平台PAI使用簡明教程(二)
白名單 目前支援的資料源
  • 1.2 Mysql資料庫表
/*------- CREATE SQL---------*/
CREATE TABLE `paitable` (
  `f0` double DEFAULT NULL,
  `f1` double DEFAULT NULL,
  `f2` double DEFAULT NULL,
  `f3` double DEFAULT NULL,
  `label` bigint(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8           
INSERT INTO `paitable` VALUES(1,0,0,0,0);
INSERT INTO `paitable` VALUES(0,1,0,0,0);
INSERT INTO `paitable` VALUES(0,0,1,0,1);
INSERT INTO `paitable` VALUES(0,0,0,1,1);
INSERT INTO `paitable` VALUES(1,0,0,0,0);
INSERT INTO `paitable` VALUES(0,1,0,0,0);

SELECT * FROM paitable;           
阿裡雲機器學習平台PAI使用簡明教程(二)
  • 1.3 maxcompute資料表
drop table if exists dual;
create table dual (f0 DOUBLE ,f1 DOUBLE ,f2 DOUBLE ,f3 DOUBLE,label BIGINT);           

特别提示 特别提示 特别提示

目前因為PAI Studio相容的資料類型有限,是以在maxcompute中建表的資料類型隻能是如下幾種:
bigint
double
decimal
boolean
datatime
string
本身maxcompute支援的資料類型很多,如果表中字段包含了其它類型,在PAI Studio 讀資料表元件查詢不到相關的表。           

1.4 配置離線同步

阿裡雲機器學習平台PAI使用簡明教程(二)
阿裡雲機器學習平台PAI使用簡明教程(二)
阿裡雲機器學習平台PAI使用簡明教程(二)

1.5 離線同步

阿裡雲機器學習平台PAI使用簡明教程(二)
2020-02-29 13:00:13.384 [job-226408512] INFO  JobContainer -
任務啟動時刻                    : 2020-02-29 12:59:49
任務結束時刻                    : 2020-02-29 13:00:13
任務總計耗時                    :                 24s
任務平均流量                    :                1B/s
記錄寫入速度                    :              0rec/s
讀出記錄總數                    :                   6
讀寫失敗總數                    :                   0           
阿裡雲機器學習平台PAI使用簡明教程(二)

2 PAI Studio GBDT二分類元件使用

2.1 子產品搭建及參數配置

阿裡雲機器學習平台PAI使用簡明教程(二)
阿裡雲機器學習平台PAI使用簡明教程(二)
阿裡雲機器學習平台PAI使用簡明教程(二)
阿裡雲機器學習平台PAI使用簡明教程(二)

2.2 訓練及結果檢視

阿裡雲機器學習平台PAI使用簡明教程(二)
阿裡雲機器學習平台PAI使用簡明教程(二)

阿裡雲機器學習平台PAI使用簡明教程(二)

參考連結

GBDT二分類