Dataworks小技巧：巧用模闆提升效率

2021-07-19 23:50:00

我在使用DataWork開發機器學習算法的時候，喜歡使用ODPS SQL+PAI指令（我叫它PAI SQL）的開發模式。PAI SQL的優點是簡單易用，便于跟蹤維護。缺點代碼複用性較差（因為不支援函數），尤其是進行不斷探索的時候，經常需要在上一版的代碼上修改幾個變量，或者幾個參數，這個時候如果直接修改的時候效率很低而且容易出錯。我發現這部分問題通過用編寫代碼生成函數（Python）和代碼模闆來解決。

代碼如下：

def template(filename,outfilename,template):

with open(filename, "r+") as myfile:
    strcontent=myfile.read()
for key in template.keys():
    strcontent=strcontent.replace(key,template[key])
    print(key)
with open(outfilename, "w") as myfile:
    myfile.write(strcontent)

通過優化模闆可以大幅減少BUG、生成的代碼可以無人值守的執行，一次性對多個實驗方案進行驗證，效率很高。

Dataworks小技巧：巧用模闆提升效率

繼續閱讀

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

筆試面試題目：滑動視窗(二)

27. Remove Element(清單)題目代碼

資料結構與算法（27）——排序（二）

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

sqlServer根據經緯查距離

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

hdu7108哈希