想要分析的時候,沒有資料,就是巧婦難為無米之炊。以前想找一個資料需要費盡心思再往上去搜,最終還找不到自己想要的資料。通過程式設計爬蟲資料學習成本太高,又不是想要成為爬蟲工程師,隻是想要拿到資料來分析。那有沒有傻瓜式的擷取資料方法呢?
下面介紹4種擷取資料的方法,選擇一種适合你自己的方法就可以。
方法一:從資料競賽平台擷取
國内中文平台:
1)阿裡雲天池
資料下載下傳辦法:
2)DF資料集
有的檔案下載下傳後會顯示字尾是.zip, .zip是個壓縮包,下載下傳後需要減壓後才能看到壓縮包裡的excel檔案
3)科賽
國外英文平台:如何在Kaggle上查找資料
方法二:直接擷取10大行業免費資料
1)如何選擇行業?
不知道如何選擇行業的,可以在下面網站裡看到各個行業的分析報告:
如何選擇入職行業 :
https://www.zhihu.com/question/24995484/answer/516813008艾瑞研究-艾瑞網(行業報告):
http://report.iresearch.cnTalkingdata報告(行業報告):
http://mi.talkingdata.com199IT網際網路資料中心(行業報告,内容多,支援搜尋):
http://www.199it.com2)10大行業免費資料彙總
【優點】直接拿來使用
【缺點】資料有限,可能不是最新的資料。
根據你确定的行業,選擇一個自己感興趣的資料集。比如你确定了電商行業,然後就找一個電商的資料集。
10大行業公開資料集免費下載下傳:電商零售行業
10大行業公開資料集免費下載下傳:金融行業
10大行業公開資料集免費下載下傳:遊戲行業
10大行業公開資料集免費下載下傳:教育行業
10大行業公開資料集免費下載下傳:旅遊行業
10大行業公開資料集免費下載下傳:文化娛樂行業(電影,音樂等)
10大行業公開資料集免費下載下傳:醫療行業
10大行業公開資料集免費下載下傳:汽車及出行
10大行業公開資料集免費下載下傳:房産行業
10大行業公開資料集免費下載下傳:自媒體等行業
方法三:谷歌資料搜尋引擎
谷歌推出了一個幫助資料分析、資料科學領域的人查找資料的搜尋引擎Dataset Search (需要科學上網後打開,位址:
https://toolbox.google.com/datasetsearch打開這個資料搜尋引擎,如果我們想要搜尋電商亞馬遜的資料,搜出關鍵詞「亞馬遜」,就能看到亞馬遜相關的資料,在搜尋結果裡有的資料是要收費的,有的資料是免費的。
【優點】可以直接擷取想要的資料
【缺點】國内打不開;需要自己慢慢去查找免費的資料,有的是英文資料
方法四:選擇下面一個傻瓜式爬蟲工具(不需要程式設計)
在網站上爬取你感興趣領域網站的資料
1)工具: 後羿,同時有mac,windows版本
網址:
http://www.houyicaiji.com/打開官網後點選下圖“教程”的地方有入門教程。
點選“關于我們”有官網qq群,遇到問題可以在群裡提問。
2)工具:集搜客,隻有windows版本
操作指南隻需要看下面紅框中的内容就可以,遇到問題在它的官網QQ群提問就可以解決。操作指南位址:
https://www.gooseeker.com/tuto/tutorial.html爬取多少資料?
資料量少一般說明不了什麼問題,起碼的超過幾萬條資料。
多嘗試、思維邏輯要清晰,一定要知道自己做什麼,爬取什麼樣的資料,提前規劃好了,整個過程就不會走太多的彎路。
案例:
https://zhuanlan.zhihu.com/p/39733403【優點】可以擷取到自己想要的領域資料
【缺點】需要看官網教程來學習,學習過程中遇到問題咨詢官網QQ群可以解決
歡迎留言補充更多行業資料。
上面提到3種擷取資料的方法,選擇一種适合你自己方法。擷取資料後分析,可以使用這個裡面的方法來研究:如何分析資料?