天天看點

爬蟲的具體步驟

1、所需要資料對應的真實URL位址
2、找到對應的請求方式 
3、使用第三方包,構造請求(注意需要進行僞裝,headers的僞裝,最重要的是需要進行浏覽器僞裝--User-Agent)
4、發送請求
5、收到響應之後,需要對響應體資料進行解析(普通的頁面text,如果是多媒體檔案是content)
6、将拿到的頁面或者多媒體檔案按照需求進行提取(正則)
7、将擷取到的目标檔案進行儲存