天天看點

學習筆記TF065:TensorFlowOnSpark

修改配置檔案,設定環境變量,啟動Hadoop:$HADOOP_HOME/sbin/start-all.sh。檢出TensorFlowOnSpark源代碼:

源代碼打包,送出任務使用:

設定TensorFlowOnSpark根目錄環境變量:

啟動Spark主節點(master):

配置兩個工作節點(worker)執行個體,master-spark-URL連接配接主節點:

送出任務,MNIST zip檔案轉換為HDFS RDD 資料集:

檢視處理過的資料集:

檢視儲存圖檔、标記向量:

把訓練集、測試集分别儲存RDD資料。

args = parser.parse_args()

送出訓練任務,開始訓練,在HDFS生成mnist_model,指令:

mnist_dist.py 建構TensorFlow 分布式任務,定義分布式任務主函數,啟動TensorFlow主函數map_fun,資料擷取方式Feeding。擷取TensorFlow叢集和伺服器執行個體:

TFNode調用tfspark.zip TFNode.py檔案。

mnist_spark.py檔案是訓練主程式,TensorFlowOnSpark部署步驟:

預測指令:

還可以Amazon EC2運作及在Hadoop叢集采用YARN模式運作。

參考資料:

《TensorFlow技術解析與實戰》

歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi