lxml xpath 爬取并正常顯示中文内容

2021-11-17 02:36:33

在使用python爬蟲提取中文網頁的内容，為了能正确顯示中文的内容，在轉為字元串時一定要聲明編碼為utf-8，否則無法正常顯示中文，而是顯示原編碼的字元，并沒有正确轉換。比如下面這個簡單的爬取百度頁面的title的示例：

如果不在tostring函數中正确配置的話，會列印出：

而正确的應該是：

，如需轉載請自行聯系原部落客。

繼續閱讀