天天看點

大資料,資料從哪裡來?

上下班路上,聽過3期東方衛視《頭腦風暴》,辯論大資料時代到底有沒有到來。企業家站在各自的角度侃侃而談。大緻觀點如下:

1)在某些領域,大資料已經切入并得到長足的應用:如打車、網購推薦等。

2)而在一些傳統生産領域,資料的搜集、整理、存儲都是問題,中、小企業工業4.0還遠遠沒有普及實作。

一句話:大資料兩級分化非常嚴重。

1、項目帶來的思考——資料從哪裡來?

最近項目可能需要實作類似天眼查的應用,詳見官網:

http://www.tianyancha.com/

天眼查是搜集網絡資料的時候,從知乎偶然搜集到的。是目前為止:不用注冊,就能查詢想要的企業注冊資訊(非常快捷、個人觀點)。

而我們也想得到企業資料資訊,這就面臨:資料從哪裡來?

思路1:花錢買。

Google一搜一大把。都号稱自己擁有全國的資料,良莠不齊。(技術人員鄙視的行為但确實是技術人員幹出的活,非技術人員去銷售)。

是以,該思路不可行。

思路2: 從工商局網站登記資訊爬取,確定資料大而全(完整、真實)。

而工商網站目前支援:

1)企業名稱全局檢索;

2)企業組織代碼全局輸入檢索;

難點:

1)每次輸入都需要驗證碼驗證。難點系數大。

2)不同省都是不同團隊開發,驗證碼不同,網頁結構不同。要解析網頁需要不同的解析比對規則。

3)需要結合注冊碼特點、分析并找到規律,構造出機構碼。

網上分析可知,隻有有限的幾位有規律。

從已有的網上資源分析得知,中間8位左右是沒有任何規律的。

這就造成:構造出來的範圍會非常大,實際命中率低于萬分之一,效率非常低。

思路3:網上爬取企業名稱。

1)沒有任何一家網站能覆寫全所有企業資訊,即便是多個網站,去重、唯一識别後,資訊也不全。

2)像天眼查這種網站,是很難實作爬蟲爬取了,做了時間戳登陸、跳轉等的限制。

2、從看似沒有規律的資料中尋找規律

從已有的資料中提煉、分析資料,自己尋找規律。如:前3位大緻的範圍就那麼10幾種,而比自己去寫000——999的1000種,精确了近100倍。

這樣就能極大提高工作效率。

以上,隻是列舉一個小思路。

3、大資料如何利用?

首先,最重要的是要原封不動的存起來,并且要有備份存儲。

大資料的5V特性的前提是,你得有資料。

資料要針對不同的特點,考慮不同的存儲。

關系型考慮——關系型資料庫:Mysql/Oracle.

非關系型考慮——非關系型資料庫:MongoDB、Elastisearch(非嚴格意義上資料庫,但可以用來存儲)。

其次,對資料進行小範圍分析,看能否找到規律。

再次,擴充資料到全局分析,尋找、發現規律。(不限于:去重、唯一、按時間、地名、名稱等統計)。

4、真正帶來價值,而非僅限于炒概念才是王道。

這是我的觀點。哪怕資料少點,但確定資料真實。

利用真實的資料分析,逐漸積累完善,并循環起來,大資料才能真正指導我們的生活,為客戶帶來更高價值。