天天看點

周濤:企業如何布局大資料?

周濤:企業如何布局大資料?

周濤,博士,教授,電子科技大學網際網路科學中心主任。《大資料時代》翻譯者。于2005年獲中國科學技術大學學士學位,2010年獲瑞士弗裡堡大學實體系哲學博士學位,主要研究方向為複雜性科學、網絡科學、資訊實體、人類動力學和群集動力學。

最近,電子科技大學教授,雲基地大資料實驗室合夥人周濤在接受采訪時提出,對于普通企業要通過修煉成為大資料企業,關鍵要做好7個步驟:

第一步是要實作資料化。企業要為此做好計劃,到底需要儲存什麼樣的資料,以人為中心的資料還是以産品為中心,還是更關注企業營運,需要做好這樣的計劃,然後再将企業生産經營中的資料儲存下來,即便是現在看來沒什麼用的資料,未來也可能産生巨大的價值。比如說像售樓處、體驗店客戶的來訪資料,就有必要完整的記錄下來。包括怎麼過來的,一個人來還是幾個人,有老人和小孩嗎,穿什麼樣的衣服等等,還有客戶的情緒,看了什麼,問了什麼問題,最後買了什麼東西,都是非常重要的資料。另外,企業内部人力資源的各個方面也都可以記錄下來,這些可以進行挖掘和分析的資料。他舉例說,長虹公司在自己的生産線設定了很多傳感器,監測溫度、濕度、震動、噪音、顆粒等等因素,希望了解到生産過程中哪些因素會對員工産生明顯影響。他們此前都認為溫度和顆粒可能對于員工操作和産品品質影響最大,但是事實上最終資料分析的結果,溫度是沒有什麼影響的,恒溫的控制對于生産效率和合格率的貢獻并不像想象中那麼大,反而是噪音對于員工情緒以及生産的影響非常重要。要成為大資料企業,第一步企必須要實作資料化。

第二步,企業要建設自己的大資料管理與應用平台。對于很多企業,做大資料并不是意味着要自己去建設資料中心。随着雲計算和雲資料中心出現,使用外部資料中心的成本已經非常低了,資料存儲的費用也是在成倍的下降。但是,企業要做大資料,必須要在it基礎設施方面具有比較好的資料處架構,要用大一些工具比如資料分布式存儲、hadoop等等。很關鍵的企業不僅要具備一個資料中心的硬體,還要考慮和企業業務方向結合,不僅就是包括了資料的采集、資料庫架構,向上的分析子產品,再往上的api資料出口,以及橫向的一些業務子產品和出口這些東西。要做成企業的大資料管理應用平台,我們強調一定要從企業的業務出發,量體裁衣,企業首先必須要搞清楚自己的業務形态是什麼。

第三步,企業要自己培養一些大資料理念,或者是小資料挖掘的團隊。做大資料,企業的規模不一樣,要求也不一樣。如果企業規模足夠大,比如說是電信營運商或者電力、銀行這樣的行業,可能會形成一個大資料的團隊。如果不是,比如說就是簡單的服務企業,那麼形成理念就可以了。現在我們認為比較好的資料科學家,也不是說就是特别擅長或适應網絡,這樣的人不重要了,重要的是要有武器,什麼樣的問題來了知道怎麼解決。

關鍵我們認識是要培養四種理念:

(1)除了結構化資料以外還有文本、音頻、圖像、遙感、網絡、行為軌迹、時間資料,這些資料怎麼處理,它存在的大挑戰是什麼。

(2)一定要懂預測,因為絕大部分的大資料應用回到預測中,預測裡面很多方法都是基準學習的,而基準學習目前最火的方向是叢集學習。

(3)要走分布式存儲計算,這絕對不是說我知道給hadoop 、mapreduce、hbase就夠了,關鍵問題是首先要知道怎麼樣去搭一個混合式的,你的資料來了,我到底是應該犧牲我的一緻性還是犧牲操作性,大概的成本多少,哪些資料挖掘的重要算法我要把他hadoop、mapreduce實作,哪些算法要通過spta,可變邏輯治理是在硬體裡面,進而替代cpu、gpu。

(4)需要整個資料向外的發展,知道哪些資料可能在外部産生什麼樣的重要價值,或者外部的資料能夠在你的企業産生什麼樣的重要價值。企業應該培養出這四個能力,建立起企業資料挖掘的人才團隊。

第四步,企業一定要做好自己的外部資料儲備。我們都說“書到用時方恨少”,很多的企業,比如說像服裝銷售這樣的傳統行業,我要進的貨在淘寶、天貓上賣的怎麼樣?在淘寶、天貓哪一個店鋪怎麼樣?它的競争品牌是什麼樣售價,怎麼樣銷售的?對于這樣一些資料,如果到需要的時候才去找,往往都來不及了。同樣的道理。比如銀行給中小企業發放貸款的時候,希望了解到它的用水、用電、生産、交通資料,例如通過攝像頭就能知道這個企業到底有多少車運作,這些資料可能對于中小企業發放貸款決策都很重要。但是當你要發貸款的時候,再去問已經沒有機會了,或者說成本太高了。我們建議,企業應該學會通過公共管道或者資料交換的方法,根據自己的業務需求來量身定做自己的外部資料和戰略資料。

第五步,大企業一定要有資料偵測的能力,需要有創新思維的人随時思考這些問題,比如企業占有的資料到底在外部能夠産生什麼樣大的作用。就像我們經常拿雅昌藝術中心的例子,它存了很多藝術品的資料,是以最後它可以釋出藝術指數。同樣國家電網也釋出兩個指數,一個叫重工業用電指數,一個叫輕工業用電指數。淘寶網有它的cpi指數,還有很多企業的一些資料,實際上都可以發揮想象不到的價值。

第六步,一個大資料企業包括未來現代化企業,一定要有開放共享的态度。一方面需要企業把自己的很多問題社會化,另一方面企業要盡量去通過一些平等辦法,通過資料交換的方式互相共享形成資料化。

第七步,企業還要做好資料方面的戰略投資。我認為有三種比較先進的模式。

一種模式叫做産業鍊布局,比如說海爾、長虹可以投物聯網,對物聯網企業創新進行投入。比如說中信集團可以關注醫療,在這個方面尋找相關的資料應用。第二個方面就是技術,你要知道哪些是硬技術創新,特别是在基礎術設施層面的,比如加速存儲,雲計算的一些技術,比如資料挖掘,垂直應用分析,這個方面集中了很多創新也可以形成很大的規模。第三種模式是資料集方面的投資,我們知道阿裡巴巴投資高德是為了資料,它投資新浪微網誌不僅是要投錢還要花錢買資料,所有這一切本質還是想把資料流動起來做更大的事情。這種投資就是內建資料,強調資料流動性。這些投資裡面有幾點是需要注意的,一是要去關注企業的資料價值,其次要關注早期的投資,去長期指引而不是短期追逐回報率,最後還要多關注傳統行業。

周濤教授提出,大資料的本質不在于資料量有多少,也不在于是否是異構的資料,而是在于資料是關聯的,整體的資料可以流動起來。他認為,跨領域關聯,通過一加一産生遠大于二的價值才是大資料的精髓。

<b></b>

<b>原文釋出時間為:2013-12-13</b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>

繼續閱讀