中文字元亂碼問題簡單解決 python

2023-04-06 14:10:27

使用python2進行中文文本的時候，由于編碼的問題，會出現亂碼。

原因就是，python内部使用unicode進行字元的處理，但我們輸入進去的字元編碼可能是各式各樣的。

是以需提前對輸入文本進行decode操作。但是decode需要指定解碼的類型比如，gbk，gb2312等，需要對文本進行判斷。python中有内置子產品可以檢視chardet

import chardet

text = open(fileName,'r').read()

print chardet.detect(text)

然後根據查詢的結果進行解碼。

但遇到的問題就是，查詢的結果是gb2312，但是解碼還是出錯。

這時我們要清楚一個問題，字元集的大小問題

GB2312，GBK，GB18030，是相容的，包含的字元個數，以此更多，可以寫成：

GB2312 < GBK < GB18030

這樣，python中再遇到中文亂碼問題時，可以通過字元集的大小進行實驗。即：

、設定gb2312為解碼方式，如果解碼失敗;
    text = text.decode('gb2312')
、設定gbk為解碼方式，如果解碼失敗；
    text = text.decode('gbk')
、設定gb18030為解碼方式，如果失敗；
        text = text.decode('gb18030')
、此方法無效，請google其他方法。

注意

在最後寫入檔案時，一定要用encode進行編碼操作。
text = text.encode('utf8')

中文字元亂碼問題簡單解決 python

注意

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Netty——自定義協定解決TCP粘包拆包問題什麼是TCP粘包拆包自定義協定解決拆包粘包問題

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入