天天看點

大資料項目架構思考(一)

大資料概念到今天,炒作的最高風口已經過去了,根據Gartent釋出的HypeCycle曲線,大資料已經處于炒作頂點之後的衰退期。

大資料項目架構思考(一)

HypeCycle曲線

而從HypeCycle曲線定義的階段來看,越過炒作頂點的技術,通常被認為已經滿足了技術可行性,進入了可實用的階段。

是以,對于大資料項目來說,技術上已經沒有什麼太大的問題了,無論從軟體還是從人員來說,該填的空也都填得差不多了,剩下就是看整體項目建設中該考慮如何落地的問題。

項目如何實施,第一步應該怎樣走?為什麼這樣走?怎麼樣才算成功?

大資料不缺情懷,汗牛充棟的大資料情懷之作,讓大家打足雞血,甚至産生宗教崇拜情節——不用大資料的都是邪教,應該綁起來燒死:

大資料項目架構思考(一)

技術上也不缺:各種Hadoox權威指南,Sparx權威指南……啥的書,也能夠壘成書山了,但是恰恰漏掉了大資料整個項目應該如何實施的?

安裝軟體工程的模式,最重要的就是三個字“裡程碑”。(說起這三個字,想到蝦神才畢業時候做項目的經曆,動辄就是裡程碑發版本,加班加得頭發一把把的掉……差點就聰明絕頂了)。

在一個機關内部,如何實施一個大資料項目?如何确定這個項目是成功還是失敗了,業界有個主流的觀點,認為大資料項目的裡程碑,應該在下面三個關鍵點上面:

大資料項目架構思考(一)

第一個節點稱之為:系統輕載,通俗說起來,就是輕裝上陣:

大資料項目架構思考(一)

衆所周知,當一個系統運作到一定時候,系統中會存儲大量的曆史資料,而資料庫在通路由1萬條記錄組成的表的效率,和通路由1億條記錄組成的表的效率,那是完全不在一個數量級上的。

曆史資料的存放一直是個很大的問題,特别是電商、銀行這種,需要進行永久性存儲業務資料的企業來說,代價一直是很高昂的。

是以這個節點,是很多企業的“剛需”,而對于我們空間資訊技術相關的企業來說,暫時還沒有那麼大的“痛楚”,那麼這個階段的剛需,就是“資料化石”的激活了。

地理資訊相關的企業(或者應用機關)通常會收集很多很多的資料,而且還會做很多資料的處理——這樣導緻了一個問題,在收集過程中,或者處理過程中,會生成非常多的過程資料(比如我見過的一個機關,在對矢量資料進行處理的時候,一天甚至能發出100多個版本)。

這些資料,要麼因為存儲空間不夠或者認為意義不大,而直接丢棄了,要麼就存儲在了錄音帶機或者冷備硬碟上僅用于曆史存檔。而這些曆史存檔資料又因為技術上的“不可(不友善、不能快速)”通路,變成了所謂的資料化石。

這些資料化石裡面,保留了無數的有價值的資料,舉個簡單的例子:

某上司突然過來問:我記得當年(五年前),xx在做xx區域的時候,曾經出過一個專題圖,誰那還有?然後大家一陣雞飛狗跳,(幾小時 or 幾天後)好容易在哪個灰塵20cm厚的倉庫廢品堆裡面把那個專題挂圖給找出來了。上司看過之後,嗯,不錯,這幾個地方重新改一下,再做一版拿給我……

這種情況,大家的表情肯定是:

大資料項目架構思考(一)

五年前昙花一現的專題圖成果(已經列印成了挂圖),我去哪找原始資料啊?

大資料平台的建構,在第一階段,就應該是解決這樣的一些問題。

那麼第二個階段是什麼呢?

第二個關鍵點,就是形成應用的閉環。

大資料項目架構思考(一)

軟體企業開發軟體(或者項目),業務機關使用這些軟體(或者應用),那麼在使用的過程中,自然會生成大量的資料,這些資料有的是工作過程中産生的(業務資料、工作記錄……),也有可能是軟體運作産生的(記錄檔、系統日志、維護日志……),這些資料,一旦收集起來,對軟體廠商下一步軟體開發提供建議。

如果能夠對整個軟體運作進行監控,那麼很容易的擷取所有功能子產品的使用者操作資訊,包絡使用習慣、操作步驟,使用頻率等等,後期就能夠針對這些内容進行更精準的優化。

那麼對于政府或者所謂公共服務性質的機關呢?比如國土部門可以通過對某些查詢的頻率(比如那些表格的哪些字段,何種查詢方式,需要何種結果),來決定資料庫的優化政策;或者針對兄弟部門服務需求或者上級上司提出的要求(彙總資料、制作專題圖等其他業務需求),來優化整個系統的功能設計。

說到這裡,其實很多的實際應用場景與産品經理的設計是有沖突的。下面可以給大家舉個小例子:

程式員在做彙總查詢功能的時候,通常會按照資料計算引擎的模式,給出極高精确度的結果,比如要統計某個區域内的地塊類别彙總,程式員設計的方式是滑鼠在地圖上一拉框,系統就會自動去計算這個區域内所有地塊資訊的累加和,最後給出的來的結果精确到小數點後面6位數……

但是随着資料體的變大,這種操作可能會非常非常慢……比如要統計整個長江流域的非農業用地面積,可能就需要幾個小時設定幾天的時間。

如果有一天,上司過來問你:從xx路到xx河,一共有多少畝農用土地?如果你花1小時後告訴上司,一共有44萬3652.173畝……和你花三分鐘就直接告訴上司,有44萬3千多畝,甚至1分鐘之後,就告訴上司,一共有40多萬畝。那麼你覺得上司會對哪個結果更滿意?

因為上司并不是要你給出一個精确到小數點後N位的答案,他問你的時候,可能隻需要一個大概的數字,與他現在正在進行考慮的某件事,形成一個決策資料鍊,是以,40多萬這個答案,和小數點後3位這個精度,完全沒有差別,而對響應時間要求非常高……一個小時以後,你的答案說不定已經沒有任何意義了。

那麼這種犧牲精度提高響應速度的場景,在實際的應用中多不多?這就仁者見仁,智者見智了。

最後一個關鍵點,就是所謂的資料變現,也就是大家經常說的“這東西能賣錢麼?”

大資料項目架構思考(一)

資料變現做為一個遠景目标,也是很多決策者和架構師們在考慮的問題。

目前資料變現不一定指的是盈利,因為空間大資料有大量的使用者是政府部門,是以變現就分為經濟價值和社會價值兩個部分。

經濟價值就不說了,目前因為國内特殊情況,有些還處于探索階段,比如資料的交換(買賣)。

根據國外的一些發展,未來資料變現在經濟上可能有如下的發展:

1、資源買賣。通過原始資料的買賣産生經濟價值。目前國内處于有錢沒地方買,但是如果未來能夠放開,那麼資料交易的市場将非常龐大。從科研到教學,從社會生産生活,到宏觀趨勢研究,如果能夠通過合理的價格來擷取資料,那麼對提供方和需求方都是一個重大的利好。

2、資料産品。通過資料來生産各種産品,比如醫務工作者,對大醫院病例與治療方案的需求,相應的組織就可以針對醫療資料進行産品化(去除掉各種隐私、敏感等相關的資訊)之後,可以對相應的機構提供。

3、專業分析服務。通過資料模組化,可以提供各種專業的服務,比如投資、旅遊、購物等。

4、軟體和人才,這個就不用說了。

而政府相關的部門,可能更在乎變現的社會價值。

比如交通管理部門,通過對LBS資料的分析,能夠對城市的交通管理決策更加優化。

繼續閱讀