天天看點

lxml xpath 爬取并正常顯示中文内容

在使用python爬蟲提取中文網頁的内容,為了能正确顯示中文的内容,在轉為字元串時一定要聲明編碼為utf-8,否則無法正常顯示中文,而是顯示原編碼的字元,并沒有正确轉換。比如下面這個簡單的爬取百度頁面的title的示例:

如果不在tostring函數中正确配置的話,會列印出:

而正确的應該是:

,如需轉載請自行聯系原部落客。