天天看點

ODPS,PAI 入門筆記

新學者,記錄自己的探索軌迹

odps是一套獨立于hadoop/spark/的計算平台,優勢:

1 依托阿裡雲的強大算力

2. dtpai圖形界面可以給你單機gui資料挖掘(類似spss/sas)的友善,能調用并行資源,

3. 内置很多機器學習算法

4. 其他輔助資料很多,比如郡縣圖治

5. pyodps也有了,dataframe等

<b>使用流程</b>

1. 阿裡雲官網開通大資料計算服務

2. 阿裡雲官網odps控制台建立項目:http://odps.console.aliyun.com

    資料管理和big table 定義平台:http://ide.shuju.aliyun.com

    左側圖示是table mgmt

3. 數加官網資料開發控制台關聯資料開發項目:

<b>主要教程</b>和文檔

幫助:文法基礎

http://pyodps.readthedocs.org/zh_cn/latest/df-element-zh.html#id3

pai gui:

https://help.aliyun.com/document_detail/shujia/machine-learning/pai-quickstart.html?spm=5176.docshujia/machine-learning/pai-summary.6.178.qtpkqr

odps機器學習手冊

https://help.aliyun.com/document_detail/shujia/machine-learning/pai-manual.html?spm=5176.docshujia/machine-learning/pai-faq.6.179.ud4nrr

gui工作流最後編譯為pai指令

ODPS,PAI 入門筆記
ODPS,PAI 入門筆記
ODPS,PAI 入門筆記

<b>坑</b>

開通後dtpai裡預覽資料是右鍵。execute

小心安裝時候如果有system proxy可能會出md5 校驗錯

sql語句獨特格式:

select a,b from tablea distrbt by a order by b (類似paritition 分析函數,但是分發到不同機器處理,否則速度無法接受)

select a from tablea order by a limit 10 (否則也有巨大延時

繼續閱讀