看雲栖說雲栖 —— 機器學習PAI

以下是一段用蒙特卡洛法求PAI近似值的python程式

程式每疊代一百萬次列印一下結果。

以下内容來自阿裡雲2019杭州雲栖大會《機器學習專場》。

說實話，在這個分會場我聽懂的東西并不太多。那我就近似的講一講吧，假如偏差比較大的話，那是因為疊代的次數還不夠多。

開場演講的題目叫做《機器學習平台的建設和思考》。

首先回顧了阿裡雲機器學習平台PAI的建設曆程，最初在阿裡巴巴也是各個業務團隊自建機器學習平台，在2014年阿裡雲完成登月計劃統一大資料分析平台後也開始統一機器學習平台，當時的叫法是大規模參數伺服器。這個平台在2015年支撐了淘寶的千人前面的推薦，正好在2015年Google開源了TensorFlow，引發了深度學習的熱潮，降低了算法開發的門檻，阿裡雲在2016年釋出了PAI1.0，但是很多人還是希望使用深度學習，在2017年PAI 2.0釋出，引入了深度學習，從2018年以來，PAI更加注重平台化和系統化，更加注重AI的自動化，讓使用者更加關注模型本身，由PAI來完成各種異構硬體的高效優化和執行，加速使用者上線業務模型的速度，通過PAI系統的優化能力來提高效率，降低成本。後面的幾個演講都是圍繞PAI如何進行系統的優化來提高效率的，包括《支援超大規模稀疏資料訓練的深度學習引擎PAI-Tensorflow》、《PAI-Blade 一站式通用推理優化架構》、《EFlops叢集：面向大規模AI訓練的硬體基礎設施》。從打磨Tensorflow架構到推理引擎的優化、再到網絡和硬體基礎設施層面的優化，總之阿裡巴巴有很多人用圍繞深度學習做了大量的優化工作，比起自己攢機器鼓搗Tensorflow肯定是要事倍功半。

還有兩個演講分别是有關Flink和Spark生态的。

《PAI-Alink：基于Flink的通用算法平台》講的是阿裡巴巴基于Flink的線上實時機器學習庫，包含常用的統計分析、機器學習、文本處理、推薦、異常檢測等算法，覆寫了資料分析、模組化和部署的全部流程。這個平台的關鍵優勢是支援數十種資料源的流/批式讀寫。

批式讀寫支援：

MaxCompute
CSV
Mongo
MySQL
AliHbase
TDDL
随機表/張量

流式讀寫：

DataHub
Tair
MetaQ
Notify
SLS
Swift
Surfire
TableStore
Kafka
ElasticSearch

從Flink 1.9開始，Flink原有的機器學習庫FlinkML已經不再支援，轉為使用Alink的算法，目标是覆寫SparkML的全部算法并在性能上持平或超過。

《基于Spark和TensorFlow的機器學習實踐》講的是在阿裡雲EMR托管Hadoop叢集上的Tensorflow on Spark。假如您對Hadoop生态情有獨鐘，并希望使用Tensorflow也可以使用這個産品。

TensorFlow on Spark的設計目标包括：

友善的與現有的Spark資料處理流程結合
使用者現有TensorFlow程式不需要改動就可以遷移
支援TensorFlow的所有功能
支援高效的資料傳輸，加速從特征工程到訓練時間
PAI TensorFlow底層的通信優化及大量的算法元件
快速支援各種架構接入，包括MXNet，Caffe

在客戶分享環節，請到了攜程和一家一站式育兒服務平台「親寶寶」來進行分享。在攜程的案例中主要使用了Flink和TensorFlow來進行異常檢測的實時告警，而在親寶寶的案例中使用MaxCompute和PAI來進行使用者畫像和個性化推薦。

 前面講了那麼多，最後一個演講《雲原生一站式機器學習平台PAI》才是整體介紹PAI這個産品的。

PAI這個産品最大的應用場景就是手機淘寶的個性化推薦，手機淘寶擁有7.55億移動月活使用者、數十億的商品、需要結合使用者的購買力、興趣、年齡、家庭等要素進行推薦。

從2012年發展到現在，目前整個PAI平台包括五大部分：

PAI-AutoLearning、自動學習，可零門檻使用。
PAI-Studio、可視化模組化，通過拖拉拽的方式組合200種算法，可支援百億特征樣本。
PAI-DSW、NoteBook模組化，提供jupyter開發環境和深度優化的TensorFlow實作神經網絡的可視化編輯，新近增加pytorch支援。
PAI-EAS、模型線上服務，通過上述三種方式建立的模型可以一鍵部署到雲端。
智能生态市場、就像淘寶一樣連結技術提供與業務需求方。

看雲栖說雲栖 —— 機器學習PAI

繼續閱讀

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

hdu7108哈希