天天看點

python2.7中文字元編碼python2.7中文字元編碼格式混淆錯誤:

python2.7中文字元編碼格式混淆錯誤:

最常見的中文編碼格式當屬utf-8和gbk兩種,這兩種編碼格式都能使中文在python代碼中正常顯示,但是必須要注意:前後的編碼格式必須統一,比如從txt中讀取了gbk編碼的中文字元串,就不能在代碼的起始處使用#encode utf-8,否則你後面寫入的中文字元串将不能正确對應txt中的相同字元,最明顯的就是使用if語句進行判斷兩者是否相等,會發現其實記憶體中實際存儲的是兩部分完全不同的内容,極易給我們帶來誤解。

如果還需要将這些内容輸出至指定檔案,那麼混淆兩種編碼格式的效果将會更加明顯,小編自己就犯過這種錯誤,從gbk格式的txt中讀取了中文字元,但是python腳本中确使用了utf-8的編碼格式,在原txt内容後增加了些内容和标簽,輸出到csv檔案。結果打開時發現,若使用excel打開,則前半部分不亂碼,新增的内容亂碼,用UE打開,則是原内容亂碼,新增的正常。無論哪一種都不是我們期望的,希望大家不要犯和小編一樣的錯誤。

作為一個新手菜鳥,需要學習和注意的地方還是很多的,僅以此篇部落格紀念自己程式員生涯的起點。

這裡分享兩篇相應内容的部落格

[1]: https://blog.csdn.net/haha_point/article/details/77948830

[2]: https://www.cnblogs.com/codefish/p/5016312.html

繼續閱讀