天天看點

DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證

找到可以在MaxCompute上運作的包

您可以選擇在pypi或GitHub下載下傳jieba,本文以github下載下傳為例,如圖所示,下載下傳zip壓縮包。

pypi.org下載下傳 GitHub下載下傳
DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證

上傳第三方包

在 DataWorks 建立業務流程

DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證

上傳已下載下傳至本地的jieba-master.zip

DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證

上傳完畢,務必記得送出資源至maxcompute開發環境。

DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證

建立測試資料表及資料

建表不做示範,DDL語句附後。

DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證
CREATE TABLE `jieba_test` (
    `id` STRING,
    `content` STRING
);           

建立臨時查詢,插入測試資料

DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證
insert into jieba_test values('1','阿裡雲大資料團隊');
insert into jieba_test values('2','結巴分詞測試');           

編寫代碼驗證

在 DataWorks 建立業務流程-->建立PyODPS節點

DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證
def test(input_var):
    import jieba
    import sys 
    reload(sys) 
    sys.setdefaultencoding('utf-8')
    result=jieba.cut(input_var, cut_all=True)
    return "Full Mode: " + "/ ".join(result)
    
  hints = {
    'odps.isolation.session.enable': True
  }
  
  libraries =['jieba-master.zip']
  
  iris = o.get_table('jieba_test').to_df()
  print iris.content.map(test).execute(hints=hints, libraries=libraries)           

在DataStudio直接運作驗證分詞結果

DataWorks PyODPS節點實作結巴中文分詞找到可以在MaxCompute上運作的包上傳第三方包建立測試資料表及資料編寫代碼驗證