學習筆記TF065:TensorFlowOnSpark

2017-11-12 23:50:00

修改配置檔案，設定環境變量，啟動Hadoop:$HADOOP_HOME/sbin/start-all.sh。檢出TensorFlowOnSpark源代碼：

源代碼打包，送出任務使用：

設定TensorFlowOnSpark根目錄環境變量：

啟動Spark主節點(master):

配置兩個工作節點(worker)執行個體，master-spark-URL連接配接主節點：

送出任務，MNIST zip檔案轉換為HDFS RDD 資料集：

檢視處理過的資料集：

檢視儲存圖檔、标記向量：

把訓練集、測試集分别儲存RDD資料。

args = parser.parse_args()

送出訓練任務，開始訓練，在HDFS生成mnist_model，指令：

mnist_dist.py 建構TensorFlow 分布式任務，定義分布式任務主函數，啟動TensorFlow主函數map_fun，資料擷取方式Feeding。擷取TensorFlow叢集和伺服器執行個體：

TFNode調用tfspark.zip TFNode.py檔案。

mnist_spark.py檔案是訓練主程式，TensorFlowOnSpark部署步驟：

預測指令：

還可以Amazon EC2運作及在Hadoop叢集采用YARN模式運作。

參考資料：

《TensorFlow技術解析與實戰》

歡迎推薦上海機器學習工作機會，我的微信：qingxingfengzi

繼續閱讀