近年來,有關大資料的熱點話題一浪高過一浪,關注大資料應用的人也越來越多。總體來說,人們對大資料的前景持樂觀态度,比如談到大資料技術特征,人們最容易想起的就是4個“v”:vast(數量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。這些都沒錯,但仔細一想,它們都是偏重說明大資料的正面優勢的。但其實,大也有大的難處,大資料也不可避免地存在着一些負面劣勢。結合筆者的從業經驗,大資料的負面劣勢可以概括為4個“n”,下面逐一說明每個n的含義。

inflated大資料是肥胖的。大資料的大不僅僅展現在資料記錄的行數多,更展現在字段變量的列數多,這就為分析多因素之間的關聯性帶來了難度。哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。
abnormal大資料是異常的。同樣,在現實的世界裡,大資料裡還有不少異常值(outlier)。比如某些連續型變量(如一個短期時間内的交易金額)的取之太大,某些離散型變量(如某個被選購的産品名稱)裡的某個水準值出現的次數太少,等等。如果不删除,很可能幹擾模型系數的計算和評估;如果直接删除,又覺得缺乏說服力,容易引起他人的質疑。這使得分析人員落到了一個進退兩難的境地。
unstructured大資料是非結構化的。大資料的結構也是非常複雜的,既包括像交易額、時間等連續型變量,像性别、工作類型等離散型變量這樣傳統的結構化資料,更增添了如文本、社會關系網絡,乃至語音、圖像等大量新興的非結構化資料,而這些非結構化資料蘊含的資訊量往往更加巨大,但分析手段卻略顯單薄。
incomplete大資料是殘缺的。在現實的世界裡,由于使用者登記的資訊不全、計算機資料存儲的錯誤等種種原因,資料缺失是常見的現象。在大資料的場景下,資料缺失更是家常便飯,這就為後期的分析與模組化品質增加了不确定的風險。
如果不能處理好這些不利因素,大資料應用的優勢很難發揮出來。想要擁抱大資料,并不是一項在正常條件下資料分析的簡單更新,而是一項需要大智慧的綜合工作。STIR(喚醒)政策是筆者在實踐工作中提煉出來的、能夠在實際工作中有效克服大資料負面劣勢的應對方法。具體來說,STIR政策包含了四種技術手段,目前都已經有機地整合在統計分析與資料挖掘專業軟體JMP中了,它可以用來解決上文提出的四個問題。
總之,我們必須要對大資料有一個全面、客觀的認識。隻有在不同的業務和資料背景下采用不同的戰略戰術,才能在大資料時代,真正發揮大資料的杠杆作用,有效提高企業的營運效率和市場競争力。
Bingdata優網助幫彙聚多平台采集的海量資料,通過大資料技術的分析及預測能力為企業提供智能化的資料分析、營運優化、投放決策、精準營銷、競品分析等整合營銷服務。
北京優網助幫資訊技術有限公司(簡稱優網助幫)是以大資料為基礎,并智能應用于整合營銷的大資料公司,隸屬于亨通集團。Bingdata是其旗下品牌。優網助幫團隊主要來自阿裡、騰訊、百度、金山、搜狐及移動、電信、聯通、華為、愛立信等著名企業的技術大咖,兼有網際網路與通信營運商兩種基因,為大資料的算法分析提供強大的技術支撐。