天天看點

從救助空巢老人到資助貧困生,看似冰冷的大資料如何溫暖人心?

商家和平台利用大資料殺火的新聞(指商家對新老客戶、不同地區的客戶、不同的價格,或者使用掌握大資料,采用非常複雜的計算方法,對消費者的價格歧視)頻頻發生,而更多與大資料相關的新聞也在不斷激起人們的神經,讓人覺得在大資料面前顯得"一無是處"。

對于普通人來說,大資料是一個接近并且沒有被很好地了解的東西。大資料到底是什麼?它與我們所知道的數字和數學之間有什麼聯系?大資料在我們的生活中發生了什麼變化?作為中國大資料倡議的創始人,大資料專家屠昱雯通過回溯的發展,以及資料在中外重大事件中的全方位應用,清晰直覺地诠釋了與大資料相關的知識。《向兒童講述大資料》的摘錄由出版社授權。

從救助空巢老人到資助貧困生,看似冰冷的大資料如何溫暖人心?

《把大資料告訴孩子》,屠子昕,兒童興趣出版有限公司編輯,人民郵電出版社2020年7月版。

作者于子培

Ann 的摘錄

大資料的出現重新洗牌了統計資料科學

這是一個關于零售帝國沃爾瑪的故事。

沃爾瑪是全球最大的零售商,擁有超過11,000家商店和200多萬名員工。其2018年的銷售收入将超過5000億美元,超過許多國家的國内生産總值(GDP)。

沃爾瑪的資料庫是世界上最大的資料庫之一。沃爾瑪也是最早大規模使用資料挖掘技術的公司之一。其首席資訊官是Lorrin Ford,資料分析是他工作的核心。"每天早上醒來時,我都會問自己,如何才能使資料流更好,更好地管理資料,更好地分析資料?""

經過對資料的例行分析,研究人員突然發現,最暢銷的尿布商品是啤酒!尿布和啤酒,聽起來像是馬和牛不一樣啊!任何人都很難将兩者聯系起來,但這是挖掘曆史資料的結果,反映了資料平面的規律。真的是莫名其妙,這真的是規則嗎?答案仍然在資料中。

經過随訪,研究人員終于發現,這是有原因的:一些年輕爸爸經常去超市買嬰兒尿布,30%~40%的"奶爸爸"會買一些啤酒來幫助自己。任何有想象力的人都很難想象真相就是這樣。沃爾瑪随後捆綁了尿布和啤酒。果然,銷售額都有所增長。這是資料科學應用的經典例子。

從救助空巢老人到資助貧困生,看似冰冷的大資料如何溫暖人心?

照片 電影白金資料(2013年)。

沃爾瑪到底是怎麼發現這條規則的?這是資料科學的核心:資料挖掘。資料挖掘是指通過特定的算法對大量資料進行分析,在大量資料中尋找新知識供人類參考。它被稱為"挖掘",因為在大量資料中找到知識與開采黃金一樣困難。正如你所看到的,資料挖掘是一種算法挖掘機,而資料庫就像一個礦井。

在1989年之前,資料挖掘不被稱為資料挖掘,而是一個很長的名字:基于資料庫的知識發現。由于挖礦資料庫的基礎不是與計算機同步産生的,它是在計算機出現之後,從軟體慢慢成長,獨立出來的。

1948年,杜魯門和杜威競選美國總統,蓋洛普對杜威進行了民意調查,以預測他的當選。媒體對這一預測深信不疑,《紐約時報》等報紙提前一天刊登了杜威當選總統的版圖,準備帶頭。結果發現,這對每個人來說都是一個很大的驚喜,杜魯門當選了!刊登杜威當選消息的報紙不得不被摧毀。

蓋洛普的失敗是由于抽樣調查需要多個步驟,例如問卷設計,資訊收集和資料分析,這導緻其擁有的資料滞後,并且現實正在迅速變化。在選舉結果公布前的最後兩周,蓋洛普不得不停止調查,杜魯門在最後一刻扭轉了局勢。

在大資料時代,有新的方法來預測總統競選:在民意調查之前和之後,挖掘社交媒體上的資料可以更準确地預測誰将當選。在2008年和2012年的美國總統選舉中,人們通過在Twitter和Facebook上挖掘資料來準确預測結果。

這種網際網路資料的挖掘不需要設計問卷,不需要調查,成本很低;

是以,越來越多的科學家認為,由于大資料的出現,統計科學和資料科學将被重新洗牌到一個新的時代。在這個新時代,資料挖掘将成為越來越重要的分析預測工具;雖然資料挖掘就像日複一日,但也有一個熱點,那就是機器學習。世界上無敵的國際象棋機器人深藍和阿爾法戈,脾氣暴躁的機器人,将玩很多圍棋的名字,使用機器學習技術。

從救助空巢老人到資助貧困生,看似冰冷的大資料如何溫暖人心?

機器學習也基于計算機算法。與資料挖掘不同,算法不是固定的,它可以随着計算和挖掘的增加自動調整算法的參數,使挖掘和預測的結果更加準确。

大資料刺激了資料可視化專業市場的形成

1855年,克裡米亞戰争爆發。這場戰争已經造成50多萬人死亡,非常痛苦。英國作為一個好戰國家,當然是一個重大的犧牲品。

弗洛倫斯·南丁格爾(Florence Nightingale,1820-1910 年)是英國的一名野外護士,也是一名自學成才的統計學家。在檢查了英國士兵的傷亡情況後,她發現,因醫療條件差而死亡的人數遠遠超過前線直接死亡的人數。

南丁格爾繪制了她的統計資料。該圖表清楚地顯示了"戰鬥死亡"和"非戰鬥死亡"之間的死亡差異。強烈的視覺效果引發了整個英國社會的熱烈讨論,導緻英國政府決定設立野戰醫院。結果,人類曆史上第一家正式的野戰醫院成立。

南丁格爾後來被譽為現代護理之母。她的圖表是曆史上第一張"極地圖",也是統計學家使用圖表顯示資料的早期探索。

可以毫不誇張地說,圖表改變了一個系統。人類天生就有情感生物,視覺沖擊對人類的沖擊力遠強于簡單的聯想。

南丁格爾的方法被稱為資料可視化。它是指圖形、圖像、地圖、動畫等更生動易懂的方式來顯示資料的大小,解釋資料與發展趨勢之間的關系,以便更好地了解和使用資料分析的結果。

Nightingale的例子充分展示了資料可視化的價值,特别是在公共領域。生理學還表明,人類大腦皮層的40%是視覺反應區域,人體神經系統天生對成像資訊最敏感。通過圖像,資訊的表達和傳遞将更加直覺、快速、有效。而且,人類的創造力不僅取決于邏輯思維,還依賴于圖像思維。資料可視化技術,通過圖像進一步激發人們的圖像思維和空間想象能力,吸引和幫助使用者了解資料之間隐藏的關系和規律。

在20世紀70年代,由于計算機技術的興起,一群有遠見的學者看到了這一領域的巨大潛力。有人認為:"未來的計算機不僅可以計算,還可以将結果轉化為直覺的圖形。我們應該研究這兩個結果,因為每個結果都有助于我們了解問題。"

1983年,耶魯大學教授愛德華·塔夫脫(Edward Taft)成為資料可視化學科的負責人。塔夫脫系統驗證了人類利用"圖形"來表達"資料"和"思想"的起源,整理出圖形的曆史寶藏,并結合計算機的發展帶來了統計學領域的一場革命,出版了《定量資訊可視化顯示》一書。這本書後來被認為是"資料可視化"作為一門學科的開端。

塔夫脫強調,資料可視化的關鍵是"設計","資訊過載并不存在,問題在于設計不好,如果你用來表達資料的圖形感覺淩亂,就修改你的設計。美國總統每年公布的政府預算是美國的一件大事。在塔夫脫的上司下,白宮使用圖表來可視化奧巴馬的年度預算。如下圖所示,該圖顯示了收入和支出金額的大小以及線條的粗細,收據在左側,分支在右側,中間的紅色部分是赤字缺口,這在圖像中是合适的。奧巴馬的收入和支出一目了然,他得到了多少,他想做什麼,以及他将花多少錢。

從救助空巢老人到資助貧困生,看似冰冷的大資料如何溫暖人心?

奧巴馬2010年預算支出的視覺示範。(資料來源:《華盛頓郵報》,2010年2月1日)

随着我們進入21世紀,大資料的爆炸式增長增加了對工具呈現,了解和解釋資料的需求。這種需求,刺激了資料可視化專業市場的形成,其産品迅速增加,可謂五顔六色,鮮花盛開。從最早的點陣圖、直方圖、餅圖、網格圖等簡單圖形,到基于監控業務績效的儀表盤、記分牌,到互動式3D地圖、動态模拟、動畫技術。

作為一個新興行業,資料可視化的潛力不容小觑。資料可視化工程師既懂得資料分析,又懂得構圖藝術,将講故事和藝術特質相結合,通過将複雜的資料轉化為直覺的圖形,将資料分析的結果推向大衆,是大資料時代的領航者。

"物證雲"是大資料在警監系統中的應用

大資料的規模不僅在于數量,還在于潛在價值。

人類之是以能夠進入大資料時代,最根本的原因在于它在資料技術上取得了重大突破。通過以資料挖掘為核心的一系列技術,人類在資料中發現了新知識,創造了新的價值,進而給社會帶來了"大知識"、"大科技"、"大利潤"、"大智能"等巨大機遇。

在這個新時代,資料就是财富,資料分析能力是核心競争力,很多行業不得不步入資料熱潮,資料是"資料競争"強勁的時代。這也是資料科學家之間的競争,資料挖掘和機器學習的使命是發現新知識,這是我們這個時代最引人注目的競争。

我在杭州生活了4年。這4年喜歡看《錢江晚報》。有一天,我看到一個大新聞,河園案破案了!

江江花園别墅的這一案例在杭州引起了轟動。2003年,有人在雨夜潛入河花園,搶劫殺人,然後潛逃,再也沒有消息。今年,中國神探李長玄第一次來到杭州,有人問他案情,當時他想不出辦法,卻留了一句話,"隻要時機成熟,案子遲早會破案。這一次,頭等艙是13年。人們沒有想到的是,等待的時間變成了大資料。

20世紀90年代,杭州警方開始普及"生物痕迹"的概念,并引入了物證管理系統酸、掌紋、腳印、鞋底樣式等資料;2012年,資料開始向雲轉移,建立了一個"實體證據雲",其中任何嫌疑人的資料都可以大規模地與其他資料進行比較。"物證雲"是大資料在警察系統内的應用。它在解決河花園案中發揮了關鍵作用。

2015年9月,一名龔姓男子在諸暨一家面館發生争吵時受傷。當地警察伏擊他後,提取了他的DNA等資料,并将其輸入"物證雲"。我沒有想到的是,資料實作了跨區域比較,警方發現他的資料與江花園案留下的痕迹高度一緻,他的身份很快得到确認。為了破獲江花園案,杭州警方十多年來一直破鐵鞋,但真實案件并沒有花太多力氣。這首先是由于"物證雲"的覆寫能力強,"物證雲"讓一些零散的資料形成了一個環節,在解決這個案例的時候出現了。

1975年至1986年間,美國發生了一起連環謀殺案,嫌疑人被稱為"金州殺手"。警方追蹤了他20多年,并确定了數千名嫌疑人,但未能抓住他。

從救助空巢老人到資助貧困生,看似冰冷的大資料如何溫暖人心?

照片電影源代碼(2011)。

2017年12月,一位代理商突然提出了一種應用大資料的新方法。他将嫌疑人的DNA上傳到一個約會網站,該網站分析了上傳的遺傳資料,以提供人們祖先的線索。結果,發現了一個與嫌疑人部分DNA相比對的人。有了這個重要的發現,警方将嫌疑人的範圍從數百萬人縮小到一個家庭。經過搜查,警方逮捕了罪魁禍首迪恩·傑洛(Dean Jello)。此時,這位金州殺手已經72歲了。正義雖然姗姗來遲,但并非缺席,最大的功勞是大資料。

我的警察朋友告訴我:"大資料和新技術太強了,我們現在有一個案件必須解決,解決積壓等等,沒有案件解決。"如果你今天做了壞事,不要跑,因為你根本跑不開,你坐在家裡等待警察來是對的。這或許有些誇張,但也說明警察并不在一般的腳下。為什麼底氣這麼好?這是因為大資料分析。

今天,幾乎所有的人類行為都會留下資料。你走路的地方,你會留下一個印記。通過對痕迹的分析,一個人幾乎沒有什麼秘密。對于普通人來說如此,對罪犯也是如此,除非他一直躲在山林和古老的森林裡,這在現代社會中顯然幾乎是不可能的。

用資料和"雲"解決老年人"空巢"問題

自然界中沒有兩片相同的葉子。因為紋理将一片葉子與另一片葉子區分開來。兩個人的聲音或指紋也不一樣。同樣,在資料空間中,一個人或一個物體是一個唯一的"數字",它可以由無數的資料來定義,支援、背書。每一組,每一段資料,都有自己的特點,比如聲音圖案和指紋,它們都是資料紋理,簡稱"數字圖案"。每個人的臉型、指紋、心跳、血壓等生理資料都不一樣,每個人的社交活動也不盡相同,當一個人的資料不斷被收集和整合時,就會出現一個獨特的數字。有了這些模式,可以清楚地定義一個人,并區分這個人和另一個人。

這種個體分化在人類曆史上從未見過。但今天的政府正在擁有我所說的"單一谷物治理"的能力,這意味着人類正在成為顯微鏡下的原子。例如,像飛雪一樣,雖然每片雪花的高度相似,但在形成過程中,由于水蒸氣條件不同,形成了自己獨特的結構,然後又受到氣流的影響,有上升和下降的路徑充滿了變數,每一塊都是不同的。今天的技術就像上帝的眼睛,可以鎖定在空中,跟蹤,區分每片雪花的軌迹。

從救助空巢老人到資助貧困生,看似冰冷的大資料如何溫暖人心?

2018年8月,一對老年夫婦在南部花園街區的家中倒塌後幾天被發現死亡。新聞報道稱:兩位退休老教師,老人70多歲,患有老年癡呆症,老太太還患有多種疾病。兩位老人平時和藹可親,沒想過要說走開,多天後被鄰居發現,真是可憐。老人有一個兒子,住在馬路對面的一個街區。

人們在社群裡來來去去,兒子住在社群的隔壁房間,但這樣的事情還是發生在眼皮底下,到底出了什麼問題?我們或許會想到鄰裡的冷漠,兒子對老人的漠不關心,即使老人在城裡,和獨居有什麼差別呢?

每個家庭都有老人。在今天的中國,老年人獨居或"空巢"的問題已經非常嚴重。據統計,截至2018年底,我國60歲以上人口約2.5億,占總人口的18%,其中65歲以上人口約1.7億,占總人口的12%。中國即将進入人口老齡化的高峰期。

我曾經讀過一篇報道,說一個在野外工作的遊客叫家,連玩了幾天都沒回答。他非常擔心,放下工作,徑直走向自己的房子,推開門,發現悲劇已經發生了。幾天前,他的父親在浴室裡死于心髒病,母親因無人照顧而癱瘓在床上,餓死了。很難一直看到這樣的悲劇。我想,今天有這麼多的傳感器,智能手環,用好肯定能解決這個問題。移動技術使人類永遠無法下線,傳感器滲透的浪潮正在到來。

如果智能手環采集到的資料可以實時連接配接到醫院,那麼監護儀的心跳、體溫等資料就可以連續傳輸到醫院資料庫。當監護儀的心跳異常時,算法可以将資料推送給醫生,提醒他們注意及時治療。

目前,江蘇省揚州市的一個園林社群正試圖為老年人安裝"智能護理"傳感器,包括:床墊傳感器、廁所傳感器、瓦斯洩漏報警器和室内紅外傳感器。這些傳感器每天準時将收集到的資料發送到系統終端,社群工作者和孩子們可以通過打開手機了解老人當天的生活。

日本社會也有老齡化問題,比中國更嚴重。據統計,日本約有600萬老年人獨居,每年有4萬人孤獨死亡。為了監視他們,日本人還使用了大資料,通過能源供應商監控家庭的水龍頭幾天沒有被使用,燈是否打開,瓦斯是否被使用或關閉,等等。日本家庭的水表一般安裝在家門外,改裝起來很友善。

關注獨居老人的想法可以通過安裝實時記錄用水量的電子訓示器來實作。遠方的孩子每天都能看到老人的能量使用資料,從中推測老人做飯洗澡需要多長時間。當發現異常号碼時,您可以立即聯系當地社群,并要求社群從業人員在家檢查。是以,在日老日本人在家中死亡幾天後被發現的獨居事件減少了30%。

把資料用好,把"雲"運用好,"空巢"老人的救助問題就會發生很大改變。

了解熱度,知道是大資料的終極追求

2013年7月,華東師範大學某女生收到校内短信:同學你好,發現你上個月少了吃喝,不知道有沒有經濟困難?

這則溫馨的短信也是由于大資料。通過挖掘校園餐卡的消費資料,學校發現女生的餐費低,于是女生發出了相關詢問。

從救助空巢老人到資助貧困生,看似冰冷的大資料如何溫暖人心?

照片 電影"懲罰成黃金"(2011)。這部電影講述了團隊如何使用資料模組化來挖掘潛在的明星球員的故事。

借助資料分析,華東師範大學每月在食堂吃60多頓飯,學生總消費量不足420元,悄悄列為補貼對象,未經稽核、不宣傳,學校直接将不同補貼金額存入這些學生的餐卡。因為學校在長期管理中發現很多貧困學生,因為面子原因不想申請貧困學生助學金。如果公開評價和宣傳,難免會傷害一些學生的自尊心。這種方法可以說是善意的。當然,偶爾也會有漂亮的錯誤!她剛才說的女孩隻是因為減肥而少花錢。

誤解不會因為大資料不起作用而發生,而是因為沒有足夠的資料,它不夠全面,它不夠強大。大資料的特點是"大容量"和"多源"。如果将來自其他來源的資料用作補充而不是餐卡,則判斷将更準确。

我的朋友周濤教授,在電子科技大學工作,是中國著名的大資料專家,曾主持過一個名為"尋找校園裡最孤獨的人"的項目。該項目從30,000名學生那裡收集了超過2億個行為資料。這些資料包括學生選擇,圖書館刷卡,卧室通路控制,食堂消費和學校超市購物,都是在學生刷卡時生成的。

通過分析不同地點不同卡片的刷卡資料,團隊最終發現,電子科技大學有800多名學生,他們大部分時間都是獨自一人呆在學校裡。每次排隊,沒有同學或朋友,他們是"最孤獨的人"。這些孤獨的人極有可能患上精神疾病,家長和學校如果提前注意,就會避免悲劇發生。這也是大資料溫暖的一面。了解熱度和知道應該是大資料的終極追求。

摘自《把大資料告訴孩子》,相比原文進行了删節修改,副标題為編輯添加,不屬于原文,已由出版社授權出版。

編輯:劉亞光

吳興發校對