大資料時代,用資料做出理性分析顯然更為有力。做資料分析前,能夠找到合适的的資料源是一件非常重要的事情,擷取資料的方式有很多種,不必局限。下面将從公開的資料集、爬蟲、資料采集工具、付費API等等介紹。給大家推薦一些能夠用得上的資料擷取方式。
一、公開資料庫
1.常用資料公開網站
UCI:經典的機器學習、資料挖掘資料集,包含分類、聚類、回歸等問題下的多個資料集。很經典也比較古老,但依然活躍在科研學者的視線中。

國家資料:資料來源中華人民共和國國家統計局,包含了我國經濟民生等多個方面的資料,并且在月度、季度、年度都有覆寫,全面又權威。
CEIC:最完整的一套超過128個國家的經濟資料,能夠精确查找GDP、CPI、進口、出口、外資直接投資、零售、銷售以及國際利率等深度資料。其中的“中國經濟資料庫”收編了300,000多條時間序列資料,資料内容涵蓋宏觀經濟資料、行業經濟資料和地區經濟資料。
萬得:簡要介紹:被譽為中國的Bloomberg,在金融業有着全面的資料覆寫,金融資料的類目更新非常快,據說很受國内的商業分析者和投資人的親睐。
搜數網:已加載到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計資料,彙集了中國資訊行自92年以來收集的所有統計和調查資料,并提供多樣化的搜尋功能。
中國統計資訊網:國家統計局的官方網站,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計資訊,建立了以統計公報為主,統計年鑒、階段發展資料、統計分析、經濟新聞、主要統計名額排行等。
亞馬遜:來自亞馬遜的跨科學雲資料平台,包含化學、生物、經濟等多個領域的資料集。
figshare:研究成果共享平台,在這裡可以找到來自世界的大牛們的研究成果分享,擷取其中的研究資料。
github:一個非常全面的資料擷取管道,包含各個細分領域的資料庫資源,自然科學和社會科學的覆寫都很全面,适合做研究和資料分析的人員。
2.政府開放資料
北京市政務資料資源網:包含競技、交通、醫療、天氣等資料。
深圳市政府資料開放平台:交通、文娛、就業、基礎設施等資料。
上海市政務資料服務網:覆寫經濟建設、文化科技、信用服務、交通出行等12個重點領域資料。
貴州省政府資料開放平台:貴州省在政務資料開放方面做的确實不錯。
Data.gov:美國政府開放資料,包含氣候、教育、能源金融等各領域資料。
3.資料競賽網站
競賽的資料集通常幹淨且科研究性非常高。
DataCastle:專業的資料科學競賽平台。
Kaggle:全球最大的資料競賽平台。
天池:阿裡旗下資料科學競賽平台。
Datafountain:CCF制定大資料競賽平台。
二、利用爬蟲可以獲得有價值資料
這裡給出了一些網站平台,我們可以使用爬蟲爬取網站上的資料,某些網站上也給出擷取資料的API接口,但需要付費。
1.财經資料
(1)新浪财經:免費提供接口,這篇部落格教授了如何在新浪财經上擷取擷取曆史和實時股票資料。
(2)東方财富網:可以檢視财務名額或者根據财務名額選股。
(3)中财網:提供各類财經資料。
(4)黃金頭條:各種财經資訊。
(5)StockQ:國際股市指數行情。
(6)Quandl:金融資料界的維基百科。
(7)Investing:投資資料。
(8)整合的96個股票API合集。
(9)Market Data Feed and API:提供大量資料,付費,有試用期。
2.網貸資料
(1)網貸之家:包含各大網貸平台不同時間段的放貸資料。
(2)零壹資料:各大平台的放貸資料。
(4)網貸天眼:網貸平台、行業資料。
(5)76676網際網路金融門戶:網貸、P2P、理财等互金資料。
3.公司年報
(1)巨潮資訊:各種股市咨詢,公司股票、财務資訊。
(2)SEC.gov:美國證券交易資料
(3)HKEx news披露易:年度業績報告和年報。
4.創投資料
(1)36氪:最新的投資資訊。
(2)投資潮:投資資訊、上市公司資訊。
(3)IT桔子:各種創投資料。
5.社交平台
(1)新浪微網誌:評論、輿情資料,社交關系資料。
(2)Twitter:輿情資料,社交關系資料。
(3)知乎:優質問答、使用者資料。
(4)微信公衆号:公衆号營運資料。
(5)百度貼吧:輿情資料
(6)Tumblr:各種福利圖檔、視訊。
6.就業招聘
(1)拉勾:網際網路行業人才需求資料。
(2)中華英才網:招聘資訊資料。
(3)智聯招聘:招聘資訊資料。
(4)獵聘網:高端職位招聘資料。
7.餐飲食品
(1)美團外賣:區域商家、銷量、評論資料。
(2)百度外賣:區域商家、銷量、評論資料。
(3)餓了麼:區域商家、銷量、評論資料。
(4)大衆點評:點評、輿情資料。
8.交通旅遊
(1)12306:鐵路運作資料。
(2)攜程:景點、路線、機票、酒店等資料。
(3)去哪兒:景點、路線、機票、酒店等資料。
(4)途牛:景點、路線、機票、酒店等資料。
(5)貓途鷹:世界各地旅遊景點資料,來自全球旅行者的真實點評。
類似的還有同程、驢媽媽、途家等
9.電商平台
(1)亞馬遜:商品、銷量、折扣、點評等資料
(2)淘寶:商品、銷量、折扣、點評等資料
(3)天貓:商品、銷量、折扣、點評等資料
(4)京東:3C産品為主的商品資訊、銷量、折扣、點評等資料
(5)當當:圖書資訊、銷量、點評資料。
類似的唯品會、聚美優品、1号店等。
10.影音資料
(1)豆瓣電影:國内最受歡迎的電影資訊、評分、評論資料。
(2)時光網:最全的影視資料庫,評分、影評資料。
(3)貓眼電影專業版:實時票房資料,電影票房排行。
(4)網易雲音樂:音樂歌單、歌手資訊、音樂評論資料。
11.房屋資訊
(1)58同城房産:二手房資料。
(2)安居客:新房和二手房資料。
(3)Q房網:新房資訊、銷售資料。
(4)房天下:新房、二手房、租房資料。
(5)小豬短租:短租房源資料。
12.購車租車
(1)網易汽車:汽車資訊、汽車資料。
(2)人人車:二手車資訊、交易資料。
(3)中國汽車工業協會:汽車制造商産量、銷量資料。
13.新媒體資料
新榜:新媒體平台營運資料。
清博大資料:微信公衆号營運榜單及輿情資料。
微問資料:一個針對微信的資料網站。
知微傳播分析:微網誌傳播資料。
14.分類資訊
(1)58同城:豐富的同城分類資訊。
(2)趕集網:豐富的同城分類資訊。
如果你是小白,想通過爬蟲獲得有價值的資料,推薦我們的體系課程——Python爬蟲:入門+進階
三、資料交易平台
由于現在資料的需求很大,也催生了很多做資料交易的平台,當然,出去付費購買的資料,在這些平台,也有很多免費的資料可以擷取。
優易資料:由國家資訊中心發起,擁有國家級資訊資源的資料平台,國内領先的資料交易平台。平台有B2B、B2C兩種交易模式,包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的資料資源。
資料堂:專注于網際網路綜合資料交易,提供資料交易、處理和資料API服務,包含語音識别、醫療健康、交通地理、電子商務、社交網絡、圖像識别等方面的資料。
四、網絡指數
百度指數:指數查詢平台,可以根據指數的變化檢視某個主題在各個時間段受關注的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關注趨勢之外,還有需求分析、人群畫像等精準分析的工具,對于市場調研來說具有很好的參考意義。同樣的另外兩個搜尋引擎搜狗、360也有類似的産品,都可以作為參考。
阿裡指數:國内權威的商品交易分析工具,可以按地域、按行業檢視商品搜尋和交易資料,基于淘寶、天貓和1688平台的交易資料基本能夠看出國内商品交易的概況,對于趨勢分析、行業觀察意義不小。
友盟指數:友盟在移動網際網路應用資料統計和分析具有較為全面的統計和分析,對于研究移動端産品、做市場調研、使用者行為分析很有幫助。除了友盟指數,友盟的網際網路報告同樣是了解網際網路趨勢的優秀讀物。
愛奇藝指數:愛奇藝指數是專門針對視訊的播放行為、趨勢的分析平台,對于網際網路視訊的播放有着全面的統計和分析,涉及到播放趨勢、播放裝置、使用者畫像、地域分布、等多個方面。由于愛奇藝龐大的使用者基數,該指數基本可以說明實際情況。
微指數:微指數是新浪微網誌的資料分析工具,微指數通過關鍵詞的熱議度,以及行業/類别的平均影響力,來反映微網誌輿情或賬号的發展走勢。分為熱詞指數和影響力指數兩大子產品,此外,還可以檢視熱議人群及各類賬号的地域分布情況。
除了以上指數外,還有谷歌趨勢、搜狗指數、360趨勢、艾漫指數等等。
五、網絡采集器
網絡采集器是通過軟體的形式實作簡單快捷地采集網絡上分散的内容,具有很好的内容收集作用,而且不需要技術成本,被很多使用者作為初級的采集工具。
造數:新一代智能雲爬蟲。爬蟲工具中最快的,比其他同類産品快9倍。擁有千萬IP,可以輕松發起無數請求,資料儲存在雲端,安全友善、簡單快捷。