1.利用python做udf時,python的list對應pig的bag。
2.宏裡面對參數和傳回值的引用任何時候總是帶$。
3.不要讓int和long進行比較因為
java.lang.Long cannot be cast to java.lang.Integer
4.使用pig python udf的時候,不要在python裡面定義很大的map或者list,可以寫成字元串然後用代碼解析。
5.在python udf中import 另一個含有outputSchema聲明的函數的python udf時,需要把下面的代碼加入到含有被import的python udf檔案的第一行.
6.不要在兩個pig語句之間試圖通過python udf共享臨時生成的資料,這是做不到的。因為兩個pig語句完全可能在不同的機器上運作,是兩組不同的MR任務。
7.pig不能判斷一個字段是否在一個關系中,下面的語句是錯誤的
8.兩個relation join時需要確定兩個relation都不為空且join的key不為空或者null。
9.pig讀入的東西傳給python udf時是unicode類型的。