天天看點

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

今天樂視的股價可以說是從水深火熱到激情澎湃,振幅高達 19.5%,不知大家都賺到了嗎?

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

不管賺沒賺到,買股票前收集資料進行調研還是必須的。

上市公司資訊釋出哪裡權威呢,自然是巨潮資訊,畢竟是中國證監會指定資訊披露網站。

如何抓取其中樂視相關 pdf 檔案呢,從網站上一個個下載下傳多累,還未必能找全,我教你個辦法,自動化抓取,一勞永逸。下面開始示範。

一、搜尋

這裡以從巨潮資訊網 全站樂視 相關 pdf 為例,巨潮網址:

​​http://www.cninfo.com.cn​​

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

注意裡面用了 site 和 filetype 兩個操作符,這兩個啥用途呢?

site 用于列出某域名下所有網頁(包含檔案)

filetype 用于篩選檔案類型

二者結合就起到列出網站下所有搜尋詞相關 pdf 檔案的目的。

二、抓取

現在連結有了,如何抓取呢,這裡就該 Web Scraper 出場了。

1、​​建立 Sitemap​​。

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

2、按如下結構​​建立選擇器​​。

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案
如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案
如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

3、抓取并導出 Excel 如下。

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

三、下載下傳

連結有了,如何下載下傳呢,迅雷上呗。

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

下載下傳任務圓滿完成:

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

四、思考

1、樂視抓完了,格力呢?巨潮會抓了,别的網站呢?

2、如果把搜尋詞樂視去掉又會如何?這裡面有什麼花頭可挖?

3、filetype 後面換個别的檔案類型呢,比如 ppt,doc,xls?

4、百度進階搜尋 界面如下,你還能想出什麼玩法?

繼續閱讀