找到可以在MaxCompute上運作的包
您可以選擇在pypi或GitHub下載下傳jieba,本文以github下載下傳為例,如圖所示,下載下傳zip壓縮包。
pypi.org下載下傳 GitHub下載下傳
上傳第三方包
在 DataWorks 建立業務流程
上傳已下載下傳至本地的jieba-master.zip
上傳完畢,務必記得送出資源至maxcompute開發環境。
建立測試資料表及資料
建表不做示範,DDL語句附後。
CREATE TABLE `jieba_test` (
`id` STRING,
`content` STRING
);
建立臨時查詢,插入測試資料
insert into jieba_test values('1','阿裡雲大資料團隊');
insert into jieba_test values('2','結巴分詞測試');
編寫代碼驗證
在 DataWorks 建立業務流程-->建立PyODPS節點
def test(input_var):
import jieba
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
result=jieba.cut(input_var, cut_all=True)
return "Full Mode: " + "/ ".join(result)
hints = {
'odps.isolation.session.enable': True
}
libraries =['jieba-master.zip']
iris = o.get_table('jieba_test').to_df()
print iris.content.map(test).execute(hints=hints, libraries=libraries)
在DataStudio直接運作驗證分詞結果