天天看點

資料分析和挖掘有哪些公開的資料來源?

想要分析的時候,沒有資料,就是巧婦難為無米之炊。以前想找一個資料需要費盡心思再往上去搜,最終還找不到自己想要的資料。通過程式設計爬蟲資料學習成本太高,又不是想要成為爬蟲工程師,隻是想要拿到資料來分析。那有沒有傻瓜式的擷取資料方法呢?

下面介紹4種擷取資料的方法,選擇一種适合你自己的方法就可以。

方法一:從資料競賽平台擷取

國内中文平台:

1)阿裡雲天池

資料下載下傳辦法:

2)DF資料集

有的檔案下載下傳後會顯示字尾是.zip, .zip是個壓縮包,下載下傳後需要減壓後才能看到壓縮包裡的excel檔案

3)科賽

國外英文平台:如何在Kaggle上查找資料

方法二:直接擷取10大行業免費資料

1)如何選擇行業?

不知道如何選擇行業的,可以在下面網站裡看到各個行業的分析報告:

如何選擇入職行業 :

https://www.zhihu.com/question/24995484/answer/516813008

艾瑞研究-艾瑞網(行業報告):

http://report.iresearch.cn

Talkingdata報告(行業報告):

http://mi.talkingdata.com

199IT網際網路資料中心(行業報告,内容多,支援搜尋):

http://www.199it.com

2)10大行業免費資料彙總

【優點】直接拿來使用

【缺點】資料有限,可能不是最新的資料。

根據你确定的行業,選擇一個自己感興趣的資料集。比如你确定了電商行業,然後就找一個電商的資料集。

10大行業公開資料集免費下載下傳:電商零售行業

10大行業公開資料集免費下載下傳:金融行業

10大行業公開資料集免費下載下傳:遊戲行業

10大行業公開資料集免費下載下傳:教育行業

10大行業公開資料集免費下載下傳:旅遊行業

10大行業公開資料集免費下載下傳:文化娛樂行業(電影,音樂等)

10大行業公開資料集免費下載下傳:醫療行業

10大行業公開資料集免費下載下傳:汽車及出行

10大行業公開資料集免費下載下傳:房産行業

10大行業公開資料集免費下載下傳:自媒體等行業

方法三:谷歌資料搜尋引擎

谷歌推出了一個幫助資料分析、資料科學領域的人查找資料的搜尋引擎Dataset Search (需要科學上網後打開,位址:

https://toolbox.google.com/datasetsearch

打開這個資料搜尋引擎,如果我們想要搜尋電商亞馬遜的資料,搜出關鍵詞「亞馬遜」,就能看到亞馬遜相關的資料,在搜尋結果裡有的資料是要收費的,有的資料是免費的。

【優點】可以直接擷取想要的資料

【缺點】國内打不開;需要自己慢慢去查找免費的資料,有的是英文資料

方法四:選擇下面一個傻瓜式爬蟲工具(不需要程式設計)

在網站上爬取你感興趣領域網站的資料

1)工具: 後羿,同時有mac,windows版本

網址:

http://www.houyicaiji.com/

打開官網後點選下圖“教程”的地方有入門教程。

點選“關于我們”有官網qq群,遇到問題可以在群裡提問。

2)工具:集搜客,隻有windows版本

操作指南隻需要看下面紅框中的内容就可以,遇到問題在它的官網QQ群提問就可以解決。操作指南位址:

https://www.gooseeker.com/tuto/tutorial.html

爬取多少資料?

資料量少一般說明不了什麼問題,起碼的超過幾萬條資料。

多嘗試、思維邏輯要清晰,一定要知道自己做什麼,爬取什麼樣的資料,提前規劃好了,整個過程就不會走太多的彎路。

案例:

https://zhuanlan.zhihu.com/p/39733403

【優點】可以擷取到自己想要的領域資料

【缺點】需要看官網教程來學習,學習過程中遇到問題咨詢官網QQ群可以解決

歡迎留言補充更多行業資料。

上面提到3種擷取資料的方法,選擇一種适合你自己方法。擷取資料後分析,可以使用這個裡面的方法來研究:如何分析資料?

繼續閱讀