天天看點

豆瓣出版社爬取

最近在看視訊學習時提到的爬取豆瓣出版社的一個訓練,代碼如下:

注意點:decode使用

import urllib.request
import re
url="https://read.douban.com/provider/all"
data=urllib.request.urlopen(url).read().decode("utf-8")
pat1='<div class="name">(.*?)</div>'
result=re.compile(pat1).findall(data)
context=(",".join([*result]))
outfile="publishing_house.csv"
afile=open(outfile,"w+")
afile.write("Press"+"\n")
afile.write(context.replace(",","\n"))
afile.close()
           

輸出檔案内容如下:

豆瓣出版社爬取