爬取的文檔突然中文全部亂碼 - Python

2022-11-04 18:02:25

爬取網站内容時, 有可能會出現非法字元, 進而導緻整個文檔中文亂碼.

全部變成一下格式的内容:

å<9c>¨å<85>¨å<9b>½æ<94>¿æ³<95>æ<9c>ºå<85>³å¼<80>å±<95>ç¤¾ä¼<9a>ä¸»ä¹<89>æ³<95>æ²»ç<90><86>å¿µæ<95><99>è<82>²ï¼<8c>æ<98>¯ä¸å¤®æ<94>¿æ³<95>å§<94>ç»§20__å¹´é<83>¨ç½²å¼<80>å±<95>â<80><9c>è§<84>è<8c><83>æ<89>§æ³<95>è¡<8c>ä¸ºï¼<8c>ä¿<83>è¿<9b>æ<89>§æ³<95>å<85>¬æ£â<80><9d>ä¸<93>é¡¹æ<95>´æ<94>¹æ´»å<8a>¨ä¹<8b>å<90><8e>ç<9a><84>å<8f><88>ä¸<80>é<87><8d>å¤§å<86>³ç<96>ï¼<8c>å<85>·æ<9c><89>é<87><8d>å¤§è<80><8c>æ

本文針對剛開始文檔内容中文正常顯示, 後面突然全部中文亂碼, 遇到這種情況該如何解決?

首先, 打開檔案時,

f = open('存儲路徑', 'a', encoding='utf-8')

, 要設定編碼. 爬蟲在爬取内容儲存時,可以這樣寫入

f.write(json.dumps(擷取的内容, ensure_ascii=False) + '\n')

忽略到非法字元, 然後重新讀取文檔内容, 另外儲存到一個檔案中即可

f_path = '亂碼的文檔的路徑'
f_content = '想要儲存的正常文檔的路徑'
f = open(f_content, 'a', encoding='utf-8')
with open(f_path, 'r', encoding='utf-8', errors='ignore') as fr:
    for line in fr.readlines():
        f.write(line)

f.close()

爬取的文檔突然中文全部亂碼 - Python

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入