天天看點

收藏!這些資料擷取方式,一般人不知道

在這個用資料說話的時代,能夠打動人的往往是用資料說話的理性分析,無論是對于混迹職場的小年輕,還是需要資料進行分析和研究的同學,能夠找到合适的資料源都是非常重要的。特别是想要對一個新的領域進行研究和探索,擁有這個領域的資料那都是有十分重要的意義的。

  在這裡給大家推薦一些能夠用上資料擷取方式,有了這些資源,不僅可以在資料收集的效率上能夠得到很大的提升,同時也可以學習更多思維方式。

  1

  公開的資料庫

- 國家資料 -

http://data.stats.gov.cn/index.htm

收藏!這些資料擷取方式,一般人不知道

  資料來源于中國國家統計局,包含了我國經濟民生等多個方面的資料,并且在月度、季度、年度都有覆寫,較為全面和權威,對于社會科學的研究不要太有幫助。最關鍵的是,網站簡潔美觀,還有專門的可視化讀物。

- CEIC -

http://www.ceicdata.com/zh-hans

收藏!這些資料擷取方式,一般人不知道

  最完整的一套超過128個國家的經濟資料,能夠精确查找GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等深度資料。其中的“中國經濟資料庫”收編了300,000多條時間序列資料,資料内容涵蓋宏觀經濟資料、行業經濟資料和地區經濟資料。

- wind(萬得)-

http://www.wind.com.cn/

收藏!這些資料擷取方式,一般人不知道

  萬得被譽為中國的Bloomberg,在金融業有着全面的資料覆寫,金融資料的類目更新非常快,據說很受國内的商業分析者和投資人的親睐。

- 搜數網 -

http://www.soshoo.com/

收藏!這些資料擷取方式,一般人不知道

  已加載到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計資料,彙集了中國資訊行自92年以來收集的所有統計和調查資料,并提供多樣化的搜尋功能。

- 中國統計資訊網 -

http://www.tjcn.org/

收藏!這些資料擷取方式,一般人不知道

  國家統計局的官方網站,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計資訊,建立了以統計公報為主,統計年鑒、階段發展資料、統計分析、經濟新聞、主要統計名額排行等。

- 亞馬遜aws -

http://aws.amazon.com/cn/datasets/?nc1=h_ls

收藏!這些資料擷取方式,一般人不知道

  來自亞馬遜的跨科學雲資料平台,包含化學、生物、經濟等多個領域的資料集。

- figshare -

https://figshare.com/

收藏!這些資料擷取方式,一般人不知道

  研究成果共享平台,在這裡你會發現來自世界的大牛們的研究成果分享,同時get其中的研究資料,内容很有啟發性,網站頗具設計感。

- github -

https://github.com/caesar0301/awesome-public-datasets

收藏!這些資料擷取方式,一般人不知道

  如果覺得前面的資料源還不夠,github上的大神已經為大家整理好了一個非常全面的資料擷取管道,包含各個細分領域的資料庫資源,自然科學和社會科學的覆寫都很全面,簡直是做研究和資料分析的利器。

  随便上幾個圖,滿滿的都是資源啊

收藏!這些資料擷取方式,一般人不知道
收藏!這些資料擷取方式,一般人不知道
收藏!這些資料擷取方式,一般人不知道

  2

  資料交易平台

- 優易資料 -

http://www.youedata.com/

收藏!這些資料擷取方式,一般人不知道

  由國家資訊中心發起,擁有國家級資訊資源的資料平台,國内領先的資料交易平台。平台有B2B、B2C兩種交易模式,包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的資料資源。

- 資料堂 -

http://www.datatang.com/

收藏!這些資料擷取方式,一般人不知道

  專注于網際網路綜合資料交易,提供資料交易、處理和資料API服務,包含語音識别、醫療健康、交通地理、電子商務、社交網絡、圖像識别等方面的資料。

  3

  網絡指數

- 百度指數 -

http://index.baidu.com/

收藏!這些資料擷取方式,一般人不知道
收藏!這些資料擷取方式,一般人不知道

  大家都很熟悉的指數查詢平台,可以根據指數的變化檢視某個主題在各個時間段受關注的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關注趨勢之外,還有需求分析、人群畫像等精準分析的工具,對于市場調研來說具有很好的參考意義。同樣的另外兩個搜尋引擎搜狗、360也有類似的産品,都可以作為參考。

- 阿裡指數 -

https://alizs.taobao.com/

收藏!這些資料擷取方式,一般人不知道
收藏!這些資料擷取方式,一般人不知道

  國内權威的商品交易分析工具,可以按地域、按行業檢視商品搜尋和交易資料,基于淘寶、天貓和1688平台的交易資料基本能夠看出國内商品交易的概況,對于趨勢分析、行業觀察意義不小。

- 艾瑞咨詢 -

http://www.iresearch.com.cn/

收藏!這些資料擷取方式,一般人不知道

  艾瑞作為老牌的網際網路研究機構,在資料的沉澱和資料分析上都有得天獨厚的優勢,在網際網路的趨勢和行業發展資料分析上面比較權威,艾瑞的網際網路分析報告可以說是網際網路研究的必讀刊物。

- 友盟指數 -

http://www.umeng.com/

收藏!這些資料擷取方式,一般人不知道

  友盟在移動網際網路應用資料統計和分析具有較為全面的統計和分析,對于研究移動端産品、做市場調研、使用者行為分析很有幫助。除了友盟指數,友盟的網際網路報告同樣是了解網際網路趨勢的優秀讀物。

- 愛奇藝指數 -

http://index.iqiyi.com/

收藏!這些資料擷取方式,一般人不知道

  愛奇藝指數是專門針對視訊的播放行為、趨勢的分析平台,對于網際網路視訊的播放有着全面的統計和分析,涉及到播放趨勢、播放裝置、使用者畫像、地域分布、等多個方面。由于愛奇藝龐大的使用者基數,該指數基本可以說明實際情況。

- 貓眼專業版-

http://piaofang.maoyan.com/

收藏!這些資料擷取方式,一般人不知道

  電影票房統計分析平台,貓眼專業版有實時的票房統計,影片的排盤情況、上座率和影院資料,對于目前電影的分析是必不可少的。

  4

  網絡采集器

  網絡采集器是通過軟體的形式實作簡單快捷地采集網絡上分散的内容,具有很好的内容收集作用,而且不需要技術成本,被很多使用者作為初級的采集工具。

- 火車采集器 -

http://www.locoy.com/

收藏!這些資料擷取方式,一般人不知道

  一款專業的網際網路資料抓取、處理、分析,挖掘軟體,可以靈活迅速地抓取網頁上散亂分布的資料資訊,并通過一系列的分析處理,準确挖掘出所需資料,最常用的就是采集某些網站的文字、圖檔、資料等線上資源。接口比較齊全,支援的擴充比較好用,懂代碼的話,可以使用PHP或C#開發任意功能的擴充。

- 八爪魚 -

http://www.bazhuayu.com/

收藏!這些資料擷取方式,一般人不知道

  簡單實用的采集器,功能齊全,操作簡單,不用寫規則。特有的雲采集,關機也可以在雲伺服器上運作采集任務。

- 集搜客 -

http://www.gooseeker.com/

收藏!這些資料擷取方式,一般人不知道

  一款簡單易用的網頁資訊抓取軟體,能夠抓取網頁文字、圖表、超連結等多種網頁元素,提供好用的網頁抓取軟體、資料挖掘攻略、行業資訊和前沿科技等。

  5

  網絡爬蟲

  作為極客們最喜歡的資料收集方式,爬蟲高度的自由性、自主性都使其成為資料挖掘的必備技能,當然精通python等語言是必要前提。

  利用爬蟲可以做很多有意思的事情,當然也可以擷取一些從其它管道擷取不到的資料資源,更重要的是幫你打開尋找和搜集資料的思路。

- 利用爬蟲爬取網絡圖檔 -

收藏!這些資料擷取方式,一般人不知道

爬取的圖像素材

  你看到某個網站上的圖檔恰好是你需要的,但是量大單個下載下傳太麻煩,那麼利用爬蟲你可以快速地進行抓取,并可以根據标簽、特征、顔色等資訊進行分類儲存。從此不缺設計素材,不缺美女圖檔,連鬥圖都多了幾分自信。

- 利用爬蟲爬取高品質資源 -

收藏!這些資料擷取方式,一般人不知道

爬取的音樂資源

  我們總是想快速地去搜集高品質的網絡資源,但是人工查找比對實在太麻煩,利用爬蟲你就可以輕松解決。比如爬取知乎點贊最多的文章清單,爬取網易雲音樂評論最多的音樂,爬取豆瓣網高評分的電影或圖書……總之,你可以從此拒絕平庸。

- 利用爬蟲擷取輿情資料 -

收藏!這些資料擷取方式,一般人不知道

爬取的某招聘網站職位資訊

  比如你可以批量爬取社交平台的資料資源,可以爬取網站的交易資料,爬取招聘網站的職位資訊等,可以用于個性化的分析研究。

  總之,爬蟲是非常強大的,甚至有人說天下沒有不能爬的網站,因而爬取資料也成為了很多極客的樂趣。開發出高效的爬蟲工具可以幫助我們節省很多時間,可以完全按照自己的需求來訂制,想想這個世界就太美好。

  6

  小工具

- Web Plot Digitizer -

http://arohatgi.info/WebPlotDigitizer/app/

收藏!這些資料擷取方式,一般人不知道

  比如我們在檢視期刊文獻的時候看到一張成型的圖表,但其本身資料是缺失的,你想獲得這個圖表的相關資料怎麼辦?有了這個小工具就非常easy了。直接上傳我們需要獲得資料的圖表,如下:

收藏!這些資料擷取方式,一般人不知道

  然後我們就會獲得如下的資料回報,感覺運籌帷幄有木有,對于一些不需要十分精确的分析研究足夠使用。

收藏!這些資料擷取方式,一般人不知道

  當然并不推薦用這個作為量化分析的依賴,對于定性的分析,做ppt級的資料統計分析就足夠了。

- you-get -

https://you-get.org/

收藏!這些資料擷取方式,一般人不知道

  這是一個程式員基于python 3開發的項目,已經在github上面開源,支援64個網站,包括優酷、洋芋、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網站都有! 還有一個黑科技的地方,即使是名單上沒有的網站,當你輸傳入連結接,程式也會猜測你想要下載下傳什麼,然後幫你下載下傳。

收藏!這些資料擷取方式,一般人不知道

下載下傳優酷視訊

收藏!這些資料擷取方式,一般人不知道

批量下載下傳圖檔

  當然you-get要在python3環境下進行安裝,用pip安裝好後,在終端輸入“you get+你想下載下傳資源的連結”就可以等着收藏資源了。

  7

  資料導航

  收集資料是一種能力,學習收集資料也是一種能力,資料的來源是沒有窮盡的,轉換一種思維,你就可以獲得不一樣的資料,下面推薦幾個可以用到的大資料導航,從這裡面你可能會發現一些你自己想要的東西。每個人喜歡的收集資料的管道不盡相同,隻有盡量多地去見識和實踐才會發現更多的适合自己的資料擷取方式。

- 199IT大資料導航 -

http://hao.199it.com/

收藏!這些資料擷取方式,一般人不知道

- 資料分析網導航 -

http://www.afenxi.com/hao

收藏!這些資料擷取方式,一般人不知道

- 大資料人導航 -

http://hao.bigdata.ren/

  在網際網路高度發達的今天,資料資源異常的豐富和龐大,如何高效地擷取資料成為一種重要的能力,畢竟擷取資料是一切用資料說話的前提。當然往往隻需要熟練掌握一兩種方法,便足夠大多數人應付大多數場景和需求,是以選擇合适的資料擷取管道還需要親自探究。

  轉自 資料局

繼續閱讀