新學者,記錄自己的探索軌迹
odps是一套獨立于hadoop/spark/的計算平台,優勢:
1 依托阿裡雲的強大算力
2. dtpai圖形界面可以給你單機gui資料挖掘(類似spss/sas)的友善,能調用并行資源,
3. 内置很多機器學習算法
4. 其他輔助資料很多,比如郡縣圖治
5. pyodps也有了,dataframe等
<b>使用流程</b>
1. 阿裡雲官網開通大資料計算服務
2. 阿裡雲官網odps控制台建立項目:http://odps.console.aliyun.com
資料管理和big table 定義平台:http://ide.shuju.aliyun.com
左側圖示是table mgmt
3. 數加官網資料開發控制台關聯資料開發項目:
<b>主要教程</b>和文檔
幫助:文法基礎
http://pyodps.readthedocs.org/zh_cn/latest/df-element-zh.html#id3
pai gui:
https://help.aliyun.com/document_detail/shujia/machine-learning/pai-quickstart.html?spm=5176.docshujia/machine-learning/pai-summary.6.178.qtpkqr
odps機器學習手冊
https://help.aliyun.com/document_detail/shujia/machine-learning/pai-manual.html?spm=5176.docshujia/machine-learning/pai-faq.6.179.ud4nrr
gui工作流最後編譯為pai指令
<b>坑</b>
開通後dtpai裡預覽資料是右鍵。execute
小心安裝時候如果有system proxy可能會出md5 校驗錯
sql語句獨特格式:
select a,b from tablea distrbt by a order by b (類似paritition 分析函數,但是分發到不同機器處理,否則速度無法接受)
select a from tablea order by a limit 10 (否則也有巨大延時