天天看點

python2.7 pyspark顯示以及插入hive表中文編碼問題

我用python2.7的環境下讀取excel,這個時候print pandas的dataframe時中文是可以顯示的,說明不是python2.7的問題,然後将其轉換成spark的dataframe的時候,show或者write到hive表的時候出現了中文亂碼,這個時候我使用了pyspark.sql.functions.decode和encode函數,首先将它從utf-8進行解碼,然後以ISO-8859-1進行編碼,此時中文可以正常顯示。

df = df.withColumn(column,encode(decode(col(column),'UTF-8'),'ISO-8859-1'))

繼續閱讀