天天看點

10個小故事,思考大資料

10個小故事,思考大資料

随着各種技術發展很多人都在吹捧大資料。然而如同股市一樣越是高漲越是需要警醒在大資料熱火朝天前行的路上多一點反思多一份冷靜或許能讓這路走的更好、更遠。本文的10個小故事或許能讓你有所得。

自2011年以來大資料旋風以“迅雷不及掩耳之勢”席卷中國。毋庸置疑大資料已然成為繼雲計算、物聯網之後新一輪的技術變革熱潮不僅是資訊領域經濟、政治、社會等諸多領域都“磨刀霍霍”向大資料準備在其中逐得一席之地。

中國工程院李國傑院士更是把大資料提升到戰略的高度他表示【1】資料是與物質、能源一樣重要的戰略資源。從資料中發現價值的技術正是最有活力的軟技術在資料技術與産業上的落後将使我們像錯過工業革命機會一樣延誤一個時代。

在這樣的認知下“大資料”日趨變成大家“耳熟能詳”的熱詞。圖1所示的是谷歌趨勢google trends顯示的有關大資料熱度的趨勢從圖1中可以看到在未來的數年裡“大資料”的熱度可能還是“高燒不退”圖1中虛線為未來趨勢。

10個小故事,思考大資料

圖1 大資料趨勢圖檔來源作者截圖

在大資料熱火朝天前行的路上多一點反思多一份冷靜或許能讓這路走的更好、更遠例如2014年4月大名鼎鼎的《紐約時報》發表題為《大資料帶來的八個不是九個問題》eight (no, nine!) problems with big data”的反思文章【2】其中文中的第九個問題就是所謂的“大資料的炒作we almost forgot one last problem: the hype”。同樣為重量級的英國報刊《财經時報》financial timesft也刊發了類似反思式的文章“大資料我們正在犯大錯誤嗎big data: are we making a big mistake?”【3】

在大資料熱炒之中大資料的價值是否被誇大了是否存在人造的“心靈雞湯”大資料技術便利帶來的“收之桑榆”是否也存在自己的副作用——“失之東隅”——個人的隐私何以得到保障大資料熱炒的“繁華過盡”,資料背後的巨大價值是否還能“溫潤依舊”在衆聲喧嘩之中我們需要冷靜審慎地思考上述問題。

太多的“唐僧式”的說教會讓很多人感到無趣。下文分享了10個從“天南地北”收集而來的小故事或稱段子從這些小故事中可對熱炒的大資料反思一下這或許能讓讀者更加客觀地看待大資料。有些小故事與結論之間的對應關系或許不是那麼妥帖諸位别太較真讀一讀、樂一樂、想一想就好

從前有一頭不在風口長大的豬。自打出生以來就在豬圈這個世外桃源裡美滿地生活着。每天都有人時不時地扔進來一些好吃的東西小豬覺得日子惬意極了高興任性時可在豬圈泥堆裡打滾耍潑。憂傷時可趴在豬圈的護欄上看夕陽西下春去秋來歲月不争。“豬”生如此夫複何求

根據過往數百天的大資料分析小豬預測未來的日子會一直這樣“波瀾不驚”地過下去直到它從小豬長成肥豬……在春節前的一個下午一次血腥的殺戮改變了豬的信念尼瑪大資料都是騙人的啊……慘叫嘎然而止。

10個小故事,思考大資料

圖2 大資料預測都是騙人的

這則“人造寓言”是由《mactalk·人生元程式設計》一書作者池建強先生“杜撰”而成的【4】。池先生估計是想用這個搞笑的小寓言“黑”一把大資料。

我們知道針對大資料分析無非有兩個方面的作用1面向過去發現潛藏在資料表面之下的曆史規律或模式稱之為描述性分析descriptive analysis2面向未來對未來趨勢進行預測稱之為預測性分析predictive analysis。把大資料分析的範圍從“已知”拓展 到了“未知”從“過去” 走向 “将來”這是大資料真正的生命力 和“靈魂” 所在。

那頭“悲催”的豬之是以發出“大資料都是騙人的啊”呐喊是因為它的得出了一個錯誤的“曆史規律”根據以往的資料預測未來它每天都會過着“飯來張口”的豬一般的生活。但是沒想到會發生“黑天鵝事件”——春節的殺豬事件。

黑天鵝事件black swan event) 通常是指難以預測的但影響甚大的事件一旦發生便會引起整個局面連鎖負面反應甚至颠覆。讀者可閱讀納西姆·尼古拉斯·塔勒布nassim nicholas taleb所著的暢銷書《黑天鵝》來獲得對“黑天鵝事件”更多的了解。

其實我們不妨從另外一個角度來分析一下這個搞笑的小寓言在“黑”大資料時也有失敗的地方。通過閱讀知道舍恩伯格教授在其著作《大資料時代》的第一個核心觀點就是大資料即全資料即n=all這裡n為資料的大小其旨在收集和分析與某事物相關的“全部”資料而非僅分析“部分”資料。

那頭小豬僅僅着眼于分析它“從小到肥”成長資料——局部小資料而忽略了“從肥到沒”的曆史資料。資料不全結論自然會偏預測就會不準。

要不怎麼會有這樣的規律總結呢“人怕出名豬怕壯”。豬肥了,很容易先被抓來殺掉。這樣的“豬”血淚史天天都上演的還少嗎上面的小寓言其實是告訴我們資料不全不僅坑爹還坑命啊

那麼問題來了大資料等于全資料即n=all能輕易做到嗎

故事02颠簸的街道——對不起“n=all”隻是一個幻覺

波士頓市政府推薦自己的市民使用一款智能手機應用——“颠簸的街道street bump網站通路連結http://www.streetbump.org/”。這個應用程式可利用智能手機中内置的加速度傳感器來檢查出街道上的坑窪之處——在路面平穩的地方傳感器加速度值小而在坑坑窪窪的地方傳感器加速度值就大。熱心的波士頓市民們隻要下載下傳并使用這個應用程式後開着車、帶着手機他們就是一名義務的、兼職的市政勞工這樣就可以輕易做到“全民皆市政”。市政廳全職的從業人員就無需親自巡查道路而是打開電腦就能一目了然的看到哪些道路損壞嚴重哪裡需要維修如圖3所示。

10個小故事,思考大資料

圖3 颠簸的街道 圖檔來源作者截圖

波士頓市政府也是以驕傲地宣布“大資料為這座城市提供了實時的資訊它幫助我們解決問題并提供了長期的投資計劃”。著名期刊《連線》wired也毫不吝啬它的溢美之詞【5】這是衆包crowdsourcing改善政府功能的典範之作。

衆包是《連線》雜志記者jeff howe于2006年發明的一個專業術語用來描述一種新的商業模式。它以自由自願的形式外包給非特定的大衆網絡的做法。衆包利用衆多志願員工的創意和能力——這些志願員工具備完成任務的技能願意利用業餘時間工作滿足于對其服務收取小額報酬或者暫時并無報酬僅僅滿足于未來獲得更多報酬的前景。

然而從一開始“颠簸的街道”的産品設計就是有偏的bias因為使用這款app的對象“不經意間”要滿足3個條件1年齡結構趨近年輕因為中老年人愛玩智能手機的相對較少2使用app的人還得有一部車。雖然有輛車在美國不算事但畢竟不是每個人都有3有錢還得有閑。前面兩個條件這還不夠使用者還得有“閑心” 想着開車時打開“颠簸的街道”這個app。想象一下很多年輕人的智能手機安裝的應用程式數量可能兩位數以上除了較為常用的社交軟體如facebook或twitter中國使用者用得較多的是微網誌、微信等記得開機運作外還有什麼公益軟體“重要地”一開車就記得打開

“颠簸的街道”的理念在于它可以提供 “n=all所有”個坑窪地點資訊 但這裡的“n=all所有”也僅僅是滿足上述3個條件的使用者記錄資料而非“所有坑窪點”的資料上述3個條件每個條件其實都過濾了一批樣本“n=all”注定是不成立的。在一些貧民窟可能因為使用手機的、開車的、有閑心的app使用者偏少即使有些路面有較多坑窪點也未必能檢測出來。

《大資料時代》的作者舍恩伯格教授常用“n=all”來定義大資料集合。如果真能這樣那麼就無需采樣了也不再有采樣偏差的問題因為采樣已經包含了所有資料。

暢銷書《你的數字感走出大資料分析與解讀的誤區》numbersense: how to use big data to your advantage的作者、美國紐約大學統計學教授kaiser fung就毫不客氣地提醒人們不要簡單地假定自己掌握了所有有關的資料 “n=all所有”常常僅僅是對資料的一種假設而不是現實。

微軟-紐約首席研究員kate crawford也指出現實資料是含有系統偏差的通常需要人們仔細考量才有可能找到并糾正這些系統偏差。大資料看起來包羅萬象但“n=all”往往不過是一個頗有誘惑力的假象而已。

“n=all”,夢想很豐滿但現實很骨感

但即使具備全資料就能輕易找到隐藏于資料背後的有價值資訊嗎請接着看下面的故事。

故事03醉漢路燈下找鑰匙——大資料的研究方法可笑嗎

一天晚上一個醉漢在路燈下不停地轉來轉去警察就問他在找什麼。醉漢說我的鑰匙丢了。于是警察幫他一起找結果路燈周圍找了幾遍都沒找到。于是警察就問你确信你的鑰匙是丢到這兒嗎醉漢說不确信啊我壓根就不知道我的鑰匙丢到哪兒。警察怒從心中來問那你到這裡來找什麼醉漢振振有辭因為隻有這裡有光線啊

10個小故事,思考大資料

圖4 醉漢路燈下找鑰匙圖檔來源經濟學人

這個故事很簡單看完這個故事有人可能會感歎醉漢的“幼稚”、“可笑”。但不好笑的是“烏鴉笑豬黑自己不覺得”這個故事也揭示了一個事實在面臨複雜問題時我們的思維方式也常同這個醉漢所差無幾同樣也是先在自己熟悉的範圍和領域内尋找答案哪怕這個答案和自己的領域“相隔萬裡”

還有人甚至認為醉漢找鑰匙的行為恰恰就是科學研究所遵循的哲學觀。前人的研究成果恰是是後人研究的基石也即這則故事中的“路燈”。到路燈下找鑰匙雖看來有些荒唐但也是“無奈之下”的明智之舉。

資料那麼大價值密度那麼低你也可以去分析但從何分析起首先想到的方法和工具難道不是當下你最熟悉的而你最熟悉的就能確定它就是最好的嗎

沃頓商學院著名教授、紐約時報最佳暢銷書作者喬納伯傑jonah berger從另外一個角度解讀這個故事【6】在這裡浩瀚的黑夜就是如同全資料“鑰匙”就好比是大資料分析中我們要找到的價值目标他認為“路燈”就好比我們要達到這個目标的測量“标尺”如果這個标尺的導向有問題順着這個标尺導引想要找到心儀的“鑰匙”是非常困難的在我們癡迷于某項自己熟悉的特定測量标尺之前一定要提前審視一下這個測量标尺是否适合幫助我們找到那把“鑰匙”如果不能趕快換一盞“街燈”吧

如果在黑暗中丢失的鑰匙是大資料中的價值那這個價值也太稀疏了吧。下面的故事讓我們聊聊大資料的價值。

故事04園中有金不在金——大資料的價值

人們在描述大資料時通常表明其具備4個v特征即4個以v為首字母的英文描述volume體量大、variety模态多、velocity速度快及value價值大。前三個v本質上是為第四個v服務的。試想一下如果大資料裡沒有我們希望得到的價值我們為何還辛辛苦苦這麼折騰前3個v

英特爾中國研究院院長吳甘沙先生說“鑒于大資料資訊密度低大資料是貧礦投入産出比不見得好。”《紐約時報》著名科技記者steve lohr在其采訪報道“大資料時代the age of big data”中表明【7】大資料價值挖掘的風險還在于會有很多的“誤報”發現用斯坦福大學統計學教授trevor hastie的話來說就是“在資料的大幹草垛中發現有意義的“針”其困難在于“很多幹草看起來也像針the trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles”

針對大資料的價值李國傑院士借助中國傳統的寓言故事《園中有金》從另外一個角度說明大資料的價值寓言故事是這樣的【8】

有父子二人居山村營果園。父病後子不勤耕作園漸荒蕪。一日父病危謂子曰園中有金。子翻地尋金無所得甚怅然。是年秋園中葡萄、蘋果之屬皆大豐收。子始悟父言之理。

人們總是期望能從大資料中挖掘出意想不到的“大價值”。可李國傑院士認為【8】實際上大資料的價值主要展現在它的驅動效應上大資料對經濟的貢獻并不完全反映在大資料公司的直接收入上應考慮對其他行業效率和品質提高的貢獻。

大資料是典型的通用技術了解通用技術的價值要懂得采用“蜜蜂模型”蜜蜂的最大效益并非是自己釀造的蜂蜜而是蜜蜂傳粉對農林業的貢獻——你能說秋天的累累碩果沒有蜜蜂的一份功勞

回到前文的小故事兒子翻地的價值不僅在于翻到園中的金子更是在于翻地之後促進了秋天果園的豐收。在第03個小故事中醉漢黑暗中尋找的鑰匙亦非最終的價值通過鑰匙打開的門才是。

對于大資料研究而言一旦資料收集、存儲、分析、傳輸等能力提高了即使沒有發現什麼普适的規律或令人完全想不到的新知識也極大地推動了諸如計算機軟硬體、資料分析等行業的發展大資料的價值也已逐漸展現。

李國傑院士認為我們不必天天期盼奇迹出現多做一些“樸實無華”的事實際的進步就會展現在紮紮實實的努力之中。一些媒體總喜歡宣傳一些抓人眼球的大資料成功案例。但從事大資料行業的人士應保持清醒的頭腦無華是常态精彩是無華的質變。

如果把“大資料”比作農夫父子院後的那片土地那麼土地的面積越大會不會能挖掘出的“金子”就越多呢答案還真不是下面的故事我們說說大資料的大小之争。

故事05蓋洛普抽樣的成功——大小之争“大”資料一定勝過小抽樣嗎

1936年民主黨人艾爾弗雷德蘭登alfred landon與時任總統富蘭克林·羅斯福franklin roosevelt競選下屆總統。《文學文摘》the literary digest這家頗有聲望的雜志承擔了選情預測的任務。之是以說它“頗有聲望”是因為《文學文摘》曾在1920年、1924年、1928年、1932年連續4屆美國總統大選中成功地預測總統寶座的歸屬。

1936年《文學文摘》再次雄赳赳、氣昂昂地照辦老辦法——民意調查不同于前幾次的調查這次調查把範圍拓展得更廣。當時大家都相信資料集合越大預測結果越準确。《文學文摘》計劃寄出1000萬份調查問卷覆寫當時四分之一的選民。最終該雜志在兩個多月内收到了驚人的240萬份回執在統計完成以後《文學文摘》宣布艾爾弗雷德蘭登将會以55比41的優勢擊敗富蘭克林·羅斯福赢得大選另外4%的選民則會零散地投給第三候選人。

然而真實的選舉結果與《文學文摘》的預測大相徑庭羅斯福以61比37的壓倒性優勢獲勝。讓《文學文摘》臉上挂不住的是新民意調查的開創者喬治·蓋洛普george gallup僅僅通過一場規模小得多的問卷——一個3000人的問卷調查得出了準确得多的預測結果羅斯福将穩操勝券。蓋洛普的3000人“小”抽樣居然挑翻了《文學文摘》240萬的“大”調查實在讓專家學者和社會大衆跌破眼鏡。

顯然蓋洛普有他獨到的辦法而從資料體積大小的角度來看“大”并不能決定一切。民意調查是基于對投票人的大範圍采樣。這意味着調查者需要處理兩個難題樣本誤差和樣本偏差。

在過去的200多年裡統計學家們總結出了在認知資料的過程中存在的種種陷阱如樣本偏差和樣本誤差。如今資料的規模更大了采集的成本也更低了“大資料”中依然存在大量的“小資料”問題大資料采集同樣會犯小資料采集一樣的統計偏差【3】。我們不能掩耳盜鈴假裝這些陷阱都已經被填平了事實上它們還都在甚至問題更加突出。

蓋洛普成功的法寶在于科學地抽樣保證抽樣的随機性他沒有盲目的擴大調查面積而是根據選民的分别特征根據職業、年齡、膚色等在3000人的比重再确定電話通路、郵件通路和街頭調查等各種方式所在比例。由于樣本抽樣得當就可以做到“以小見大”、“一葉知秋”。

《文學文摘》的失敗在于取樣存在嚴重偏差它的調查對象主要鎖定為它自己的訂戶。雖然《文學文摘》的問卷調查數量不少但它的訂戶多集中在中上階層樣本從一開始就是有偏差的sample bias是以推斷的結果不準就不足為奇了。而且民主黨人艾爾弗雷德蘭登的支援者似乎更樂于寄回問卷結果這使得調查的錯誤更進了一步。這兩種偏差的結合注定了《讀者文摘》調查的失敗。

我們可以類比一下《文學文摘》的調查模式試想一樣如果在中國春運來臨時在火車上調查問乘客是不是買到票了即使你調查1000萬人這可是大資料啊結論毫無意外地是都買到了但這個結果無論如何都是不科學的因為樣本的選取是有偏的。

當然采樣也是有缺點的如果采樣沒有滿足随機性即使百分之幾的偏差就可能丢失“黑天鵝事件”的信号是以在全資料集存在的前提下全資料當然是首選但從第02故事中我們可以看到全資料通常是無法得到的。對針對資料分析的價值英特爾中國研究院院長吳甘沙先生給出了一個排序全資料>好采樣資料>不均勻的大量資料。

大資料分析技術運用得當能極大地提升人們對事物的洞察力insight但技術和人誰在決策decision-making中起更大作用在下面的“點球成金”小故事我們聊聊這個話題。

故事06點球成金——資料流pk球探誰更重要

《點球成金》(moneyball)又是一例資料分析的經典故事

長期以來美國職業棒球隊的教練們依賴慣例規則是依據球員的“擊球率batting average, avg)”其值等于安打數打數來挑選心儀的球員。而奧克蘭“運動家球隊”的總經理比利比恩billy beane卻另辟新徑采用上壘率名額(on-base percentage, obp)來挑選球員obp代表一個球員能夠上壘而不是出局的能力。

采用上壘率來選拔人才并非毫無根據。通過精細的數學模型分析比利比恩發現高“上壘率”與比賽的勝負存在某種關聯corelation據此他提出了自己的獨到見解即一個球員怎樣上壘并不重要不管他是地滾球還是三跑壘隻要結果是上壘就夠了。在廣泛的批評和質疑聲中比恩通過自己的資料分析創立了“賽伯計量學”sabermerrics。據此理論比恩依據“高上壘率”選取了自己所需的球員這些球員的身價遠不如其他知名球員但比利比恩卻能帶領這些球員在2002年的美國聯盟西部賽事中奪得冠軍并取得了20場連勝的戰績。

10個小故事,思考大資料

圖5 點球成金圖檔來源wikipedia.org

這個故事講得是數量化分析和預測對棒球運動的貢獻吳甘沙先生認為它在大資料背景下出現了傳播的誤區

第一它頻繁出現在諸如舍恩伯格《大資料時代》之類的圖書中其實這個案例并非大資料案例而是早已存在的資料思維和方法。在“點球成金”案例中的資料套用大資料的4v特征基本上無一符合。

第二《點球成金》無論是小說還是拍出來的同名電影都刻意或無意忽略了球探的作用。從讀者/觀衆的角度來看奧克蘭“運動家球隊”的總經理比利·比恩完全運用了資料量化分析取代了球探。而事實上在運用這些資料量化工具的同時比恩也增加了球探的費用“軍功章裡”有資料分析的一半也有球探的一半。

目前的大資料時代就有這麼兩個流派一派是技術主導派他們提出“萬物皆數”要麼數字化要麼死亡孫正義在對日本企業界的演講上所言他們認為技術在決策中占有舉足輕重地作用。另一派是技術為輔派他們認為技術僅僅是為人服務的屬于為人所用的衆多工具的一種不可誇大其作用。

針對《點球成金》這個案例比利比恩的擁趸者就屬于“資料流黨”而更強調球探作用的則歸屬于“球探黨”。

球探黨bill shanks在其所著的《球探的榮耀論打造王者之師的最勇敢之路》scout’s honor: the bravest way to build a winning ballteam中【9】對資料流黨的分析做出了強有力地回應。他認為球探對運動員定性名額(如競争性、抗壓力、意志力勤奮程度等)的衡量是少數結構化資料如上壘率等名額無法量化刻畫的。

和《點球成金》觀點針鋒相對的是bill shanks更認可球探的作用他把球探的作用命名為“勇士”哲學。對于勇士來說資料分析隻是衆多“刀槍棍棒”兵刃中的一種無需奉之如圭臬真正能“攻城略地”的還是需要勇士。比如說運動家棒球隊雖然在資料分析的指導下獲得了震驚業界的好成績然而他們并沒有取得季後賽的勝利也沒有奪取世界冠軍這說明資料分析雖重要但人的作用更重要

從第01故事的分析中我們知道大資料分析的第一層作用就是面向過去發現潛藏在資料表面之下的曆史規律或模式也就是說達到描述性分析。而為了讓讀者相信資料分析的能力灌輸一些“心靈雞湯或稱洗腦”是少不了的哪怕它是假的

故事07啤酒和尿布經典故事是僞造的你知道嗎

這是一個關于零售帝國沃爾瑪的故事。 在一次例行的資料分析之後 研究人員突然發現 跟尿布一起搭配購買最多的商品竟是啤酒

尿布和啤酒聽起來風馬牛不相及但這是對曆史資料進行挖掘的結果反映的是資料層面的規律。這種關系令人費解但經過跟蹤調查研究人員發現一些年輕的爸爸常到超市去購買嬰兒尿布有30~40的新爸爸會順便買點啤酒犒勞自己。随後沃爾瑪對啤酒和尿布進行了捆綁銷售不出意料銷售量雙雙增加。

上面這個案例出自于塗子沛先生的所著的大資料暢銷書《資料之巅》在這個案例中要情節有情節要資料有資料誓言旦旦不容你置疑。但是這個故事雖經典但是讓你意想不到的是

1.案例是編造的

這個經典的“啤酒和尿布” (beer and diapers)的案例不僅是《大資料》類圖書的常客事實上它更是無數次流連于“資料挖掘”之類的書籍中特别是用來解釋“關聯規則association rule”的概念更是“居家旅行必備之良藥周星馳語”。目前基本上所有講大資料應用都會捎帶講上這個經典案例要求大家多研究“相關性”少研究因果關系但實在掃興的是這個案例僅是一碗資料分析的“心靈雞湯”——聽起來很爽但信不得

實踐是檢驗真理的唯一标準。如果這個故事是真的按理說應該給超級市場以無限啟發才對可實際上不管是中國還是在美國在超市裡面觀察一下就會發現根本沒有類似的物品擺放相近的都很少。

故事性強事出有因。據吳甘沙先生透露它是teradata公司一位經理編出來的“故事”目的是讓資料分析看起來更有力更有趣而在曆史上從沒有發生過感興趣的讀者可以自己參閱文獻。但公平地講這個故事對資料挖掘的普及意義重大僅從教育意義上看仍不失為一個好故事。

2.相關性并非什麼大事

即便真的有這個案例也不說明資料分析出來的“相關性”有什麼特别的神奇之處。舍恩伯格教授的《大資料時代》核心觀點之一就是趾高氣揚的因果關系光芒不再卑微的相關關系将被“翻身做主人”知道“是什麼”就夠了沒必要知道“為什麼”。但需要我們更為深入了解的事實是

“要相關不要因果”這個觀點其實并非舍恩伯格首先提出的。最早的提出者應為《連線》wired主編chris anderson 2008年他在題為 “理論的終結資料洪流讓科學方法依然過時end of theory: the data deluge makes the scientific method obsolete【9】” 文章中率先提出在pb時代我們可以說有相關性足夠了petabytes allow us to say: "correlation is enough"。

10個小故事,思考大資料

圖6 連線雜志理論的終結

“要相關不要因果”的觀點并不受學術界待見。甚至《大資料時代》的中文版翻譯者周濤亦在序言裡說“放棄對因果關系的追求是人類的堕落”。對于這個觀點李國傑院士認為【10】在大資料中看起來毫不相關的兩件事同時或相繼出現的現象比比皆是相關性本身并沒有多大價值關鍵是找對了“相關性”背後的理由才是新知識或新發現。

大資料分析的第二個功能或者說更為的核心功能在于預測。預測主要用于對未來進行籌劃大到産業的布局小到流感的預警均可用預測。但是對未來的預測能準嗎

故事08谷歌流感預測預測是如何失效的

2009年2月谷歌公司的工程師們在國際著名學術期刊《自然》上發表了一篇非常有意思的論文【11】《利用搜尋引擎查詢資料檢測禽流感流行趨勢》并設計了大名鼎鼎的流感預測系統google flu trendsgft通路網址為www.google.org/flutrends/。

gft預測h1n1流感的原理非常樸素如果在某一個區域某一個時間段有大量的有關流感的搜尋指令那麼就可能存在一種潛在的關聯在這個地區就有很大可能性存在對應的流感人群相關部門就值得釋出流感預警資訊。

gft監測并預測流感趨勢的過程僅需一天有時甚至可縮短至數個小時。相比而言美國疾病控制與預防中心center for disease control and preventioncdc同樣也能利用采集來的流感資料釋出預警資訊。但cdc的流感預測結果通常需要滞後兩周左右才能得以釋出。但對于一種飛速傳播的疾病如禽流感等疫情預警滞後釋出後果可能是緻命的。

gft一度被認為是大資料預測未來的經典案例給很多人打開了一扇未來的視窗。根據這個故事大資料的布道者們給出了4個令自己滿意的結論

由于所有資料點都被捕捉到故傳統的抽樣統計的方法完全可以被淘汰。換句話說做到了“n=all”

無需再尋找現象背後的原因隻需要知道某兩者之間的統計相關性就夠用了。針對這個案例隻需知道“大量有關流感的搜尋指令”和“流感疫情”之間存在相關性就夠了。

不再需要統計學模型隻要有大量的資料就能完成分析目的印證了《連線》主編chris anderson 提出的“理論終結”的論調。

大資料分析可得到驚人準确的結果。gft的預測結果和cdc公布的真實結果相關度高達96%。

但據英國《财經時報》ft援引劍橋大學教授david spiegelhalter毫不客氣的評價說 [3]這四條 “完全是胡說八道complete bollocks. absolute nonsense”。

針對前3條觀點的不足之處前文故事已經涉及到了不再贅言。針對第4條我們有必要再解析一下——gft預測是如何失效的

谷歌工程師們開發的gft可謂轟動一時但好景不長相關論文發表4年後2013年2月13日《自然》發文指出【12】在最近2012年12月的一次流感爆發中谷歌流感趨勢不起作用了。gft預測顯示某次的流感爆發非常嚴重然而疾控中心cdc在彙總各地資料以後發現谷歌的預測結果比實際情況要誇大了幾乎一倍如圖7所示。

10個小故事,思考大資料

圖7 gft流感預測失準 圖檔來源自然期刊

研究人員發現問題的根源在于谷歌工程師并不知道搜尋關鍵詞和流感傳播之間到底有什麼關聯也沒有試圖去搞清楚關聯背後的原因隻是在資料中找到了一些統計特征——相關性。這種做法在大資料分析中很常見。為了提高gft的預測準确性谷歌工程師們不斷地微調預測算法但gft每一次算法微調都是為了修補之前的測不準但每次修補又都造成了另外的誤差。

谷歌疫情之是以會誤報還因為大資料分析中存在“預測即幹涉”的問題。量子實體創始人之一維爾納海森堡werner heisenberg曾在1927年的一篇論文中指出在量子世界中測量粒子位置必然會影響粒子的速度即存在“測不準原理”。也就是說在量子尺度的微距世界中“測量即幹涉”。如今在媒體熱炒的“大資料”世界中類似于“測不準原理”即存在“預測即幹涉”悖論。

這個“預測即幹涉”悖論和“菜農種菜”的現象有“曲藝同工”之處當年的大白菜賣價不錯曆史資料預計明年的賣價也不錯預測于是衆多菜農在這個預測的指導下第二年都去種大白菜采取行動結果是菜多價賤傷農預測失敗。

進一步分析就可發現gft預測失準在很大程度上是因為一旦gft提到了有疫情立刻會有媒體報道就會引發更多相關資訊搜尋反過來強化了gft對疫情的判定。這樣下去算法無論怎麼修補都無法改變其愈發不準确的命運。

對gft預測更猛烈的攻擊來自著名期刊《科學》【13】。2014年3月該雜志發表由哈佛大學、美國東北大學的幾位學者聯合撰寫的論文“谷歌流感的寓言大資料分析中的陷阱the parable of google flu: traps in big data analysis”他們對谷歌疫情預測不準的問題做了更為深入地調查也讨論了大資料的“陷阱”本質。《科學》一文作者認為大資料的分析是很複雜的但由于大資料的收集過程,很難保證有像傳統“小資料”那樣缜密難免會出現失準的情況作者以谷歌流感趨勢失準為例指出“大資料傲慢(big data hubris)”是問題的根源。

《科學》一文還認為“大資料傲慢(big data hubris)”還展現在存在一種錯誤的思維方式即誤認為大資料模式分析出的“統計學相關性”可以直接取代事物之間真實的因果和聯系進而過度應用這種技術。這就對那些過度推崇“要相關不要因果”人群提出了很及時的警告。畢竟在某個時間很多人搜尋“流感”不一定代表流感真的暴發完成有可能隻是上映了一場關于流感的電影或流行了一個有關流感的段子。

果殼網有一篇對《科學》一文深度解讀的文章“資料并非越大越好谷歌流感趨勢錯在哪兒了”感興趣的讀者可以前去圍觀。

蘇萌、柏林森和周濤等人合著的《個性化商業的未來》【14】他們強調“個人化”服務是未來最有前途的商業模式。可這裡有個問題提供“個人化”服務就需要了解顧客的“個性化資訊”如果顧客許可使用個人資訊的那麼這種個性化服務是貼心的如果沒有許可呢

下面這個故事就是一則有關商品個性化推薦的但它展現出來的是資料分析的智慧還是愚蠢呢

故事09target超市預測女孩懷孕“大資料”智慧還是愚蠢

2012年2月16日《紐約時報》刊登了charles duhigg撰寫的一篇題為《這些公司是如何知道您的秘密的》how companies learn your secrets的報道【15】。文中介紹了這樣一個故事

一天一位男性顧客怒氣沖沖地來到一家折扣連鎖店target中文常譯作“塔吉特”為僅次于沃爾瑪的全美第二大零售商向經理投訴因為該店竟然給他還在讀高中的的女兒郵寄嬰兒服裝和孕婦服裝的優惠券。

但随後這位父親與女兒進一步溝通發現自己女兒真的已經懷孕了。于是緻電target道歉說他誤解商店了女兒的預産期是8月份。

10個小故事,思考大資料

圖8 《紐約時報》這些公司是如何知道您的秘密的

一家零售商是如何比一位女孩的親生父親更早得知其懷孕消息的呢這裡就需要用到“關聯規則+預測推薦”技術。

事實上每位顧客初次到target刷卡消費時都會自動獲得一個唯一顧客識别編号id。以後顧客再次光臨target消費時計算機系統就會自動記錄顧客購買的商品、時間等資訊。再加上從其它管道取得的統計資料target便能形成一個龐大資料庫運用于分析顧客的喜好與需求。

有了資料特别是有了“大”容量的資料後面的問題就簡單了。target的資料分析師開發了很多預測模型其中懷孕預測模型pregnancy-prediction model就是其中的一個。target通過分析這位女孩的購買記錄——無味濕紙巾和補鎂藥品就預測到了這為女顧客可能懷孕了而懷孕了未來就有可能需要購置嬰兒服裝和孕婦服裝多麼貼心的商店啊。但是需要我們注意的是

1.這是“大”資料的傲慢而非聰慧。

由于故事極其具戲劇性——親生爸爸居然比不上一台電腦更了解自己的女兒是以這個故事往往被用來作為“資料比人更了解人”的證明并在當下被用來論證大資料的功力。國内有的新聞媒體對大資料的了解似是而非針對這個案例的報道标題就是《大資料的功力比父親更了解女兒沖擊大賣場》【16】。大資料的無所不能的“傲慢”躍然紙上。

或許“旁觀者清”資訊領域外的上海金融與法律研究院研究員劉遠舉認為【17】這案例并不能說明資料比人更“聰慧”更了解人恰好相反這證明計算機是“愚蠢的”還在讀高中的女兒顯然想保護自己的隐私并不想父親知道但“愚蠢的”計算機卻自作主張把孕婦優惠卷寄寄到了她家裡結果被爸爸逮個正着。

這正是大資料的另一種傲慢——好像有了大資料就可以“君臨天下”對顧客的了解就可做到出神入化對顧客的隐私就可以肆無忌憚。

2.這并非大資料的案例

進一步分析我們可以發現實際上這個例子并不屬于大資料的案例它不需要太強的計算能力甚至用一台普通的電腦就能實施類似的關聯規則分析。很多有關大資料的圖書和文章都把這個案例當作大資料的案例來講其實是不恰當的。

大資料一般要具備典型的4個v特征target收集的消費資料屬于典型的結構化資料即使數量再大也僅僅滿足4v特征之一——volume體積大。但是“資料大”不等于“大資料”。如果光拼體積“大”那麼早在20年前天文、實體和生物資訊學的資料也夠得上是“大資料”了。《紐約時報》的原文【15】非常“厚道”通篇沒有提及“big data大資料” 字樣。

3.更重要的是這個神奇的資料預測故事被人為地灌入了很多“心靈雞湯”。

資料挖掘界的資料分析師、咨詢師們有時候同樣也需要 “心靈雞湯”勵志自己忽悠客戶。對此美國紐約大學統計學教授kaiser fung認為[3]很多人在看到這個故事時都誤認為target的預測算法是非常可靠的——幾乎每個收到嬰兒連體服和濕紙巾優惠券的人都是孕婦。但這是不可能的更為實際的情況是孕婦之是以能收到這些購物券是因為target給非常多客戶都郵寄了這種購物券。在衆多客戶中碰巧有那麼一位高中女生“不太可能但卻又真地”懷孕了碰巧那位父親發現并投訴了碰巧那位父親發現自己錯了并道歉了這麼多巧合“無巧不成書”。因為極具有故事性是以大家都愛聽。

各位讀者在相信target這類讀心術般的故事之前首先應該先想想這類商家的預測命中率到底有多高。這裡并不說資料分析一無是處相反資料分析極具商業價值即使能夠把“直郵direct maildm”的準确度提高一點點哪怕是1%對商家而言都将是有利可圖的。但能賺錢并不意味着這種工具無所不能、永遠正确。

商家能夠提供個性化服務确實很貼心但倘若在利益的趨勢下商家對顧客的個性化資訊運用不當或越界就會給顧客帶來不能承受的隐私之痛。下面我們聊聊有關大資料隐私的故事。

故事10你的一夜情我知道——大資料的隐私之痛

uber優步著名的打車軟體服務公司乘客可以通過發送短信或是使用移動應用程式來預約車輛利用移動應用程式時還可以追蹤車輛的位置曾在官網上釋出一篇題為“榮耀之旅rides of gloryrog”的部落格。文中寫到“我知道我們不是你們生命中唯一的夫妻我們也知道你們會在别的什麼地方尋找愛情we know we’re not the only ones in your life and we know that you sometimes look for love elsewhere。” uber稱作的“榮耀之旅(rog”——實際上就是所謂的一夜情one-night stand代名詞。

uber利用資料分析技術專門篩選出那些在晚上10點到淩晨4點之間的用車服務并且這些客戶會在四到六小時之後這段時間足夠完成一場快速的rog在距離上一次下車地點大約1/10英裡約160米以内的地方再次叫車。

10個小故事,思考大資料

圖9 美國大城市一夜情發生率的對比圖檔來源uber

根據對這些資料的分析uber推斷出那些發生一夜情的時間和地點并将這些地點在紐約nyc、舊金山sf、波士頓boston以及其他美國城市的地圖上進行标注得出一夜情頻繁的高發區。資料分析發現波士頓位于美國“一夜情”之首而紐約人則顯得比較保守“一夜情”的比率僅僅為波士頓的1/5。在時間節點上一夜情“發作”的高頻發段是在周五和周六晚上如果你的另一半在這個時間點上說自己工作忙要加班你就要“悠着點”相信。

當然uber此處雖多為開玩笑之舉但也确實嚴重侵犯了使用者的隐私在遭到了很多使用者及媒體的的抗議例如《紐約時報》發表題為《我們不能信任優步》we can’t trust uber【18】。

在遭到使用者和媒體抗議以後uber迅速删除了這篇部落格但在這個數字時代一旦上網“侯門一入深似海”踏雪無痕夢難成”。感興趣的讀者仍可通路網際網路文檔收錄網站https://archive.org/找到這篇文章。

不可否認的是大資料時代的到來為我們的學習、生活帶來諸多便利。但是收之桑榆失之東隅。任何事情都有兩面性。目前人的行為諸如購物、乘車、甚至遊戲等已經被數字化了隐私已經無處可藏不論是美國斯諾登“棱鏡門”監聽項目的曝光還是層出不窮的諸如uber等公司企業洩露客戶資料事件都向我們發出大資料時代下個人隐私保護的預警。

中國著名生命倫理學家邱仁宗先生認為【19】大資料技術與所有技術一樣它本身無所謂“好”“壞”故它本身在倫理學上是中性的。然而使用它的個人、公司、機構有價值取向的大資料猶技術如一把雙刃劍它可以給我們的生活、科研帶來便利但也能帶來諸如侵犯隐私的消極影響。

完善的立法對保護使用者隐私來說極其重要。例如規定隻有使用者需要個性化服務定制的時候提出需求大資料公司才能調用該使用者的資訊其他情況下的資訊調用都采取匿名的方式否則就視作侵犯隐私。

網上有個以“恐怖的大資料”為題的段子用定披薩餅的流程把使用者的隐私披露地“一覽無遺”雖有誇張成分但在大資料時代隐私保護的必要性已經不容置疑了。

小結

《舊約·箴言篇》18章17節裡有句話“先訴情由的似乎有理。但鄰舍來到就察出實情”。

随着諸如舍恩伯格教授的《大資料時代》、塗子沛先生的《大資料》等大作的面世對世人帶來了“醍醐灌頂”式的教育洗禮在教育群眾和政府官員接納大資料時代的普及意義上這些著作居功至偉。他們書中的很多思維已被很多大資料的擁趸者奉為圭臬但任何事情都有兩面性一味的熱捧就會帶來認知的偏頗。

諸如《紐約時報》、《财經時報》、《自然》及《科學》等重量級的反思“鄰舍”的到臨能讓我們對“大資料”有更為客觀的認知。從他們給出的一各個小故事小案例或小段子中可以促使我們對大資料的熱炒有所反思進而告誡我們之間一定保持清醒頭腦批判性地接受大資料布道者的思維切不可将其當作放之四海而皆準的真理。對大資料的過分依賴就有可能重蹈伊卡洛斯icarus的覆轍。

10個小故事,思考大資料

圖 10 伊卡洛斯之殇圖檔來源百度百科

在希臘神話中伊卡洛斯是個自負的天神他是代達羅斯的兒子一天在與父親代達羅斯使用蠟和羽毛制造的羽翼逃離克裡特島時由于他過分相信自己的飛行技故而飛得太高雙翼上的蠟在太陽照射下融化羽翼脫落最終導緻自己葬身大海。

大資料技術就猶如那 “蠟和羽毛”做的翅膀它可以助我們飛得更高但倘若過分依賴它就有葬身大海的風險。我們要學會如何讓大資料為我所用而不是成為大資料的奴隸。

作者介紹張玉宏博士。2012年畢業于電子科技大學現執教于河南工業大學。中國計算機協會ccf會員acm/ieee會員。主要研究方向為高性能計算、生物資訊學主編有《java從入門到精通》一書。

原文釋出時間為2015-07-31

本文來自雲栖社群合作夥伴“大資料文摘”了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀