在使用python爬蟲提取中文網頁的内容,為了能正确顯示中文的内容,在轉為字元串時一定要聲明編碼為utf-8,否則無法正常顯示中文,而是顯示原編碼的字元,并沒有正确轉換。比如下面這個簡單的爬取百度頁面的title的示例:
如果不在tostring函數中正确配置的話,會列印出:
而正确的應該是:
,如需轉載請自行聯系原部落客。
在使用python爬蟲提取中文網頁的内容,為了能正确顯示中文的内容,在轉為字元串時一定要聲明編碼為utf-8,否則無法正常顯示中文,而是顯示原編碼的字元,并沒有正确轉換。比如下面這個簡單的爬取百度頁面的title的示例:
如果不在tostring函數中正确配置的話,會列印出:
而正确的應該是:
,如需轉載請自行聯系原部落客。