這個時代學習能力是最重要的能力,而能夠在周末的時間進行學習的人就更有競争力。同時選擇大資料這一方向來學習的人則是當今大資料時代最具有競争力的人。
今天之是以選擇用大資料解讀爸爸去哪兒第二季這個話題是因為娛樂性的話題比較容易了解。大資料的概念起碼要包含資料、技術和應用三個方面。因為有了越來越多的資料才有了大資料這一概念,才能夠運用資料能夠做很多的事情。這其中,最重要的就是網際網路的發展。因為數量非常大而且有很多非結構化資料(文本、視音頻等),這樣的資料就必須用智能化的分析方法才能解決,是以這方面的大資料技術也更加複雜。而所謂應用是大資料分析的目的和核心,大資料分析都是從應用中導出來的,根據應用分析相應資料得出相應結論。
目前來看,大資料技術有很多像海量一樣的公司都在做,而怎樣把大資料應用到實際工作中去輔助你實際工作的人才是缺失的。
現在很多人才分析報告中就說過,大資料分析師這樣的人才是有價值的,而所謂大資料分析師其實是在應用這方面的。大資料時代企業的競争情報已經發生了變化。比如說小米,每周去更新它的軟體其實就是根據使用者的回報來做的。包括海爾這樣的傳統家電企業,也在去年釋出了全新的“網絡化戰略”,張瑞敏就在該戰略中這樣說道,“原來使用者隻是購買者,現在可以成為設計者,與生産者融合在一起,變成利益共同體。”“通過網際網路掌握競争态勢,洞察客戶雪球,獲得網際網路的資訊競争力至關重要。”
關于大資料解讀爸爸去哪兒第二季,首先是對節目的網際網路讨論聲量檢測,因為在第一季的時候,通過對網際網路讨論聲量檢測,節目組就發現了一個規律,綜藝節目主要考慮的是收視率,如果在節目播出前網絡上讨論度越高那麼在節目播出之時的收視率就越高。由于這樣的一個原因,是以在第二季的時候,節目組也就根據這樣的規律提高節目收視率。比如說在節目播出之前就有過關于爸爸去哪兒第二季讨論的高潮,這其中不乏節目組的炒作,也是由于這樣的一個高熱度的讨論,使得節目一播出就獲得了很高的收視率。現在衡量一個品牌資産的一個簡單的方法就是在網際網路的資訊空間中,根據跟品牌有關的資料的量進行評定,量大你未來在網際網路的世界裡你品牌的影響力就高。
第二是關于嘉賓的聲量變化,節目開播前,陸毅黃磊等大陸知名明星在網際網路上的讨論聲量比較大,而節目開播後,楊陽洋吳鎮宇的讨論聲量明顯上升,成為節目黑馬。
這種變化,通過即時的網際網路大資料的分析,就能夠被節目組制作方所把握到,那麼到後續的動作就可以基于這個進行快速調整。還有就是嘉賓特色形象的轉變,比如說陸毅,在節目播出前大衆對他形象的認知可能隻是停留在帥、男神上,而在第一集播出之後,逗比、黑暗料理這樣的形象标簽使得他的形象也更加豐滿。
這也使廣告商在選擇代言人上有更多關注的點。這些都是因為有了網際網路有了大資料我們能夠每天及時的看到相應資料的變化。
第三是基于使用者關注的營銷政策調整,在最開始節目播出宣傳的時候,節目組對各個大人小孩在宣傳廣告中的比例是沒有太大差别的,如下圖。
而在節目播出之後,有了嘉賓讨論聲量的變化後,節目組也就基于使用者的關注度改變了相應政策,在廣告所占比例上吳鎮宇就比較靠前。
第四是關于節目讨論的焦點分析,這是在節目的每一集播出之後都要進行分析的,主要部分還是對節目嘉賓的讨論,還有節目播出時的節目小情節、相關炒作、植入品牌以及爸爸和孩子們去過的地點的讨論,都可以作為焦點進行大資料分析。
第五是關于網絡讨論者的分析,基于微網誌使用者資訊的性别分布,可以看出的是女性讨論者占大約77%,而男性使用者隻占其中的23%。
從年齡段分布來看,80後90後分布較多,尤其以90後最為突出。
從讨論者地域分布來看,東南沿海以及北方大城市活躍度較高,從這些資訊就可以為一些線下活動提供參考依據。
對于網絡讨論者來說可以對其進行交叉分析,進而得出更全面而具體的結論。
如何實作?
通過對新聞資訊網站、電子報、論壇、部落格、貼吧、問答、百科、sns網站、政府網站、微網誌、電商以及微信公衆号等進行資料采集,然後通過技術對其進行基于知識網絡的精準資料分析。
通過資料的專業分析工具——判定圖,支援複雜的邏輯分析。爸爸去哪兒第二季的判定圖中就有2300個标簽,3500個節點。根據這些标簽和節點而進行判定邏輯分析,資料标引分析,和量化資料分析進而得出準确而有效的資料報告。
對于新聞來說,貼标簽的同時就要做分詞,這樣标簽才會有相應的準确性。
分詞之後變成結構化就可以由技術人員進行分析了,分析之後得出報告之後再做一個可視化的結構呈現。因為英文有空格不需要分詞,而中文必須要進行分詞才能更精确。比如說技術服務就要分為技術和服務兩個詞來進行标簽,河南開封這其中與南開大學就沒有什麼關系。是以分詞在分析中很重要。
關于拿到資料後先要幹什麼然後要幹什麼對于大多數學員來說都會感到迷茫,演講嘉賓陳凱也給大家作出了回答。拿到資料首先要把資料内容分析清楚(數字類、文本類等),搞清楚這些資料之後要考慮自己是否還需要增加一些資料。
在分析時第一步要定空間,也可以稱是資料勘察,主要是準确定位該資料在哪裡,在企業内部或是網際網路當中。第二步就是用一些比較粗淺的準确率較低的資料進行分析篩選,然後進行調優,調優之後形成模型分析次元。最後一步是不限于,也就是跟你提要求的客戶可能在表達時沒有把最後一句話表達出來,而他說的最後一句話可能就是“不限于……”,現在所有想做大資料的人都是想知道他以前不知道的新的東西,是以分析師就要更進一步地對大資料進行深入分析。另外一個不限于就是所說的,資料是一個動态變化的,不是說模型做完就不變的,要根據他的使用情況、網際網路的發展變化和資料内容進行修正。
大資料技術創新大賽
原文釋出時間為:2014-11-03
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号