天天看點

python 爬取淘寶第二彈(淘寶資料爬取)python 爬取淘寶第二彈(淘寶資料爬取)

python 爬取淘寶第二彈(淘寶資料爬取)

經過上次淘寶登入以後,可以進行淘寶商品的采集了,首先我們需要知道的是我們需要的資料在哪裡,我通過搜尋第一個手機的名字可以看到在這個頁面中有我們想要的資料,但是他是鑲嵌在script标簽裡面的我們隻能通過正則拿到他。

python 爬取淘寶第二彈(淘寶資料爬取)python 爬取淘寶第二彈(淘寶資料爬取)

首先經驗可知get請求一般搜尋關鍵字都會在連結裡出現,頁數也是會顯示在連結裡面 淘寶我們不能隻采集一頁,是以說我們需要分析連結進行翻頁操作。

‘https://s.taobao.com/search?q=%E6%89%8B%E6%9C%BA&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44’
           

我大概翻了幾頁可以看到s是頁數,可以拼接一下每頁會增加44,是以s=page*44,q代表的是關鍵字搜尋。

然後我們就可以構造請求了。

python 爬取淘寶第二彈(淘寶資料爬取)python 爬取淘寶第二彈(淘寶資料爬取)

在去請求前需要我們之前登陸淘寶的session,是以這裡我們去調用登入子產品,使session能夠攜帶登陸資訊。

将頁面拿下來之後需要我們進行正則比對,這裡說明一下正則是我從一位大佬那裡直接拿過來的。因為我并不怎麼會正則。可以看到拿下來的資料,然後我們隻需先将資料變成json格式,在根據我們想要什麼直接将資料拿下來。

python 爬取淘寶第二彈(淘寶資料爬取)python 爬取淘寶第二彈(淘寶資料爬取)

需要注意的是,采集的時候我們淘寶會封ip,需要有ip代理池。有興趣要源碼的同學可以評論留下你的微信~