
Tableau Prep 正在被越來越多的資料粉使用,作為專業的資料準備工具,Prep 提供了常用的資料處理功能,例如分組、轉置、計算等,還提供了對 R 語言和 Python 腳本的支援。
● 之前分享過栗子:用 Prep 輕松實作資料去重、用 Prep 資料去重的三種場景、用 Prep 正規表達式拆分複雜字段。
不過,有一些複雜的場景,比如:需要計算相關系數,Tableau 本身提供的相關系數計算方法 CORR() 隻能一次計算兩個字段的相關系數,如果遇到需要建立相關系數矩陣的情況,處理起來就比較麻煩。
這種情況,可以通過 Prep 調用 Python 腳本來加速資料清理,實作對多個字段計算皮爾遜相關系數( Pearson correlation coefficient,更多資訊可自行了解)。
如何在 Prep 調用 Python 腳本?今天的🌰學起來!
本期《舉個栗子》,我們要給大家分享的 Tableau 技巧是:在 Prep 中調用 Python 處理複雜資料。
為友善學習,栗子使用 Tableau 自帶的“示例-超市”資料。掌握栗子方法後,資料粉可嘗試使用自己的資料源。懶癌患者可通過以下連結擷取栗子資料源:
https://www.dkmeco.com/cms/course/detail/539?suid=5
具體步驟如下:
1、安裝 Python
首先,安裝 Python 。因為 TabPy 暫不支援最新版本的 Python,是以安裝 Python3.7 即可(安裝步驟不贅述,教程可自行上網搜尋)。
安裝 TabPy(Python 的擴充包),用于 Tableau 與 Python 進行資料互動。另外,由于資料是以 pandas.DataFrame 格式存儲的,是以需要同時安裝 pandas。
此時,可以使用浏覽器通路 http://localhost:9004/,會出現 TabPy 的歡迎頁面。
2、編寫腳本
接着,需要編寫計算相關系數的 Python 腳本,以供 Tableau Prep 調用。
➤ 腳本首先必須引入 pandas ,才能識别 Tableau Prep 傳遞的資料。
➤ 建立 get_output_schema() 方法,Tableau Prep 需要該通路指明傳回的資料對象格式。
prep_string() 和 prep_decimal() 都是 Prep 支援的資料類型的名稱,直接寫即可。附 Prep 的資料類型如下:
➤ 建立計算相關系數的方法,input 是 prepy 調用該方法時傳入的資料對象,即該腳本步驟所傳入的資料表。
編寫完成後,儲存檔案名為 tabpy.py。
3、Prep 調用 Python
然後,打開 Tableau Prep,單擊頂部菜單欄“幫助”,下拉菜單選擇:設定和性能-管理分析擴充程式連接配接。
鍵入第二步建立的 TabPy 伺服器資訊,分析程式類型選擇 Tableau Python(TabPy) 伺服器,伺服器填預設:Localhost, 端口預設:9004,使用者名和密碼沒有設定的可以不用填寫。
4、建構資料矩陣
最後,在 Prep 中建立流程。
使用“示例-超市”資料集中的訂單資料,取用“銷售額”、“數量”、“折扣”、“利潤”四個度量字段。
建立一個腳本步驟:單擊資料表右側
按鈕,下拉菜單選擇:腳本。
連接配接類型選擇:TableuPython(TabPy)伺服器,選擇第三步儲存的 tabpy.py 檔案,并填寫 get_corr 方法名。
完成後,就可以在右側視窗看到銷售額等四個字段的相關系數矩陣。
本期的 Tableau 技巧,你 Get 到了嗎?趕快試試看吧!
下一期,再見~
文章部分資訊來源于網絡,如有侵權請告知