對話美國科學家，大資料到底怎麼影響我們的生活？

大資訊大爆炸的今天，不讨論大資料這個話題似乎就是跟不上時代。從醫藥到教育，再到其他各個領域，大資料充斥着現代社會的每個角落。而我們最關心的還是大資料最終将以什麼樣的形式，怎麼樣影響甚至改變我們的生活。來聽聽四位專家告訴你大資料到底有多少可能。

丹·瓦格納 dan wagner civis analytics 的創始人兼首席執行官

你曾經說過，希望用大資料解決全球最大的問題。你最想解決的問題是什麼？

dan wagner：我們主要關注兩個領域：教育和健康。在教育領域，我們專注于利用個人層面的資料，幫助客戶發現那些申請和注冊的大學低于其潛能的低收入學生，并幫助這些機構找到适當的方法，讓這些孩子進入與其潛能相比對的大學。

保險投保也是我們的目标之一，尤其是在《平價醫保法案》剛開始施行的頭幾個月。我們主要緻力于與多家機構合作，幫助它們找到沒有醫療保險的群眾，并讓他們加入到醫保計劃中來。這是一項非常艱巨的工作，因為沒有現成的無保險人員名冊。你隻能通過統計推斷來完成這項工作。

最值得關注的問題之一是，保險如何從團體保險向個人保險發展，以及保險公司如何學會管理這一風險。我們正同幾家機構合作，利用資料提前發現諸如心血管疾病等個體風險，提前了解病人面臨的風險。

一旦發現有風險，你會增加投保人的保費嗎？

dan wagner：你不能這麼做。你隻能根據諸如年齡等一系列精簡變量來确定保單價值。是以，你不能根據上述風險來定價，但你需要管理這一風險。

你同奧巴馬競選團隊合作時，大資料發揮了怎樣的作用？

dan wagner：我們帶來的最顯著改變是在媒體方面。具體來說，就是利用尼爾森收視率來追蹤競選廣告的投放和效果。透過收視率資料，你就好像看到了一張人口統計表，能從中了解到觀衆群的構成，例如是西班牙裔，還是女性。

我的做法是，根據我們計算得出的個人可說服得分來定義我們的觀衆。我們将這些資料與機頂盒資料相比對。由此就能找到每一美元廣告投放能帶來最高可說服觀衆密度的電視欄目。有了這些資料，我們基本就能根據一個單一的标準來決定廣告投放的優先順序。這與人口統計學沒有任何關系。隻需明确哪些是我們在個人層面上确定的、要特别針對的觀衆群。這是一項非常艱巨的工作，但從文化角度來看，這種方法很适合我們的競選團隊，因為，奧巴馬競選的典型特征是，選民搖擺不定。

我們應當如何解決資料分析中的安全問題？

dan wagner：你必須非常重視這個問題。很多這類機構在收集資訊，但我認為，其中很多機構都沒有意識到什麼是最高标準的資料安全操作。我們的很多工作都是在亞馬遜雲服務平台上完成的，這比你内部可能開發的東西要好得多，因為你可以利用亞馬遜提供的很多網絡協定。亞馬遜的雲計算服務算是該領域最好的。

大資料熱潮中，我們可能犯的最大錯誤，或可能忽視的最重要問題是什麼？

dan wagner：大資料熱潮最令人遺憾的一點是，人們隻考慮其過程，而沒有考慮結果。有些時候，這股熱潮有些盲目，在某種意義上，它隻是将對資料計算能力增長的信念孤立地看作是一種解決問題的手段。你将如何運用這些未來真的能改善人們生活的資料？這是個大問題。

在日常生活中，你是如何應對資訊過載問題的？

dan wagner：作為一個在網際網路相關公司工作的人，我有很多時間是在網上。但我盡量縮短通過各類電子裝置進行溝通的時間，并努力確定自己閱讀大量書籍。

埃裡克·謝德特 eric schadt，伊坎基因組織學和多尺度生物學研究所(icahn institute for genomics and multiscale biology)董事

如何證明超級計算在醫學研究中能發揮重要作用？

eric schadt：主要通過兩種途徑。一是管理當下醫學領域産生的諸如 dna 測序等海量資料。舉例來說，一位癌症病人的全基因組序列會産生萬億位元組之多的資料。想象一下，如果要為數十萬人做基因測序，就會産生千萬億，甚至百億億位元組量級的資料。要對這些資料進行管理并加以處理，使之轉化為能被醫界人員所用的資訊，就需要超級計算裝置和相關的專業知識。

另一個途徑是，利用需要超級計算在短時間内完成的非常複雜的數學算法，根據已經存在的疾病亞型，以及治療該疾病亞型可能的最佳方法建立一個疾病預測模型。

這使醫生在治療中的作用以及病人與醫生間的資料關系發生了怎樣的變化？

eric schadt：發生了根本性的變化。與我們現有方法的不同之處在于，我們更深入地研究個體，而非一個群體。就拿糖尿病來說，目前可能有 100 種不同的糖尿病亞型，而且你和你的鄰居得這種病的原因也各不相同。你可能是因胰腺β細胞功能受損所緻；或者你肌肉中的攝取受體不能有效地吸收葡萄糖等等。不同的病因可能需要不同的治療方法。

醫生看到的隻是晚期症狀，但現在透過各類分辨率更高的科技産品他們能看到導緻下遊結果的上遊病因。最近醫生們才看到了這些病因。其中涉及數百萬個變量，這是人腦無法了解的。

您剛才說到的都是數學幫助克服人腦缺陷的方面，這些數學計算程式有哪些缺陷需要人腦的幫助？

eric schadt：我們所做的工作是用一種需要人腦參與的方式來呈現資訊，這是一種很棒的模式識别機器。目前在很大程度上人與機器是合作夥伴關系。也許 10 年、20 年以後，諸如 watson 等計算機将變得非常強大，人的幹預會大大降低。但目前還做不到。

很多組織收集的醫學資料隻供己用，我們應該對此感到擔憂嗎？

eric schadt：如果我們真的希望對人類健康産生影響，這些資料和模型必須對所有人進行開放。

實體研究領域就有這樣的先例，強子對撞機試驗的全部資料都是對公衆開放的。當然，存在如何保護個人隐私的問題。

可以通過技術解決隐私保護問題嗎？

eric schadt：我們當然可以保護并存儲資料，保護計算機環境的安全，并采取衆多安全協定來確定資料不會陷入危險。但有一點我們很清楚，任何形式的高維資料都無法真正做到匿名。就像照片一樣。你不能指望你的外貌也有隐私，因為人人都能看到你的臉，你不能将它藏起來。我認為 dna 以及諸如分子尺寸等其他資料最終也将歸入同樣的範疇，原因很簡單，當技術足夠成熟的時候，基因測序會像照相一樣簡單、便宜。

eric schadt：不能陷在大資料中。我會去玩單闆滑雪、騎機車，或是做一些能幫助你放松，無需太動腦筋的活動。

安德烈斯·維根 andreas weigend，獨立顧問，亞馬遜公司前任首席科學家

你曾經将大資料比作原油。

如果你在後院發現了原油，你的這個發現可能用處不大，因為你需要将原油精煉後才能供人們使用。原始資料也像原油一樣，不是拿來就可使用。亞馬遜和谷歌就是從事資料精煉提取的公司。當然，據我所知，原油和資料兩者之間最大的差別是，資料一時半會兒不會被用光。而至于價格，資訊産品和石油産品之間的關系也非常有意思。

原油的大部分好處被你所描述的精煉公司而不是被其使用者獲得。我們怎樣才能保證每個人都能從大資料中獲益？

eric schadt：我認為，在蘋果公司的應用商店發生的一切将會在資料經濟領域再次上演，會有公司以這些資料為“原材料”推出服務。如果成立一個應用商店，而另一家公司使用資料向消費者提供應用并與資料公司共享收入，價值由此産生。

大約 10 年前，你曾擔任亞馬遜首席科學家。目前，世界是否已經完全變樣了？

eric schadt：10 年前，我們已經注意到行業的重點正由算法（意味着你可以從自己所有的資料中獲得任何東西）向僅僅需要獲得更多的原始資料這一方向轉移。是以說，現在的情況與當年完全不同，不過，我們仍然有類似的想法。貝索斯還是貝索斯。

你認為哪些行業守着最豐富的資料金礦卻未找到利用金礦創造價值的方法？

eric schadt：中國有一家公司名叫騰訊，他們推出的微信完全颠覆了中國人的溝通方式。與之相對應的另一家公司是中國電商公司阿裡巴巴，該公司了解客戶對哪些商品感興趣，他們在搜尋什麼商品，以及他們最終買了哪些商品。阿裡還清楚客戶是否退貨和有無付款問題等。

這兩家公司均擁有 10 億客戶。它們了解客戶的所有溝通習慣或所有财務交易情況，是以，它們确實大有可為。當然，這也取決于你對哪些行業感興趣。不過，真正的潛力是這兩方面資料的交叉整合。比如，在需要做出信貸決定時，你可以從騰訊了解很多資訊。因為，了解到你是否曾經和妓女鬼混或與拉皮條的家夥有過來往，也能多多少少地了解你将來償還貸款的傾向。（老外對中國大資料的研究真透徹）

在日常生活中，你是如何應對資訊過載這一問題的？

eric schadt：我們必須形成一個認知習慣，認識到人們是會錯過一些資訊的。如果有人錯過了你的一封電子郵件，請不要生氣。請通過另一個管道與他們聯絡。

威廉·庫科爾斯基 william cukierski，kaggle 公司的資料科學家

效果最好的競賽有哪些？

william cukiersk：我最看好的一場競賽叫“找鲸大賽”。競賽中要尋找的鲸是生活在大西洋中的一種瀕危種群。這些搜尋者擁有強大的網絡，不間斷地記錄鲸發出的聲音，他們也擁有自己的算法，且效果非常好。他們說：“要不我們把這些資料交給 kaggle，看 kaggle 有沒有更好的解決方案。”他們最後實作了非凡的成果。目前，這些強大的網絡能夠以接近 99% 的準确率來偵測出鲸的聲音。我認為，如果有人坐在紐約的辦公桌前就可以從事與日常工作毫無相幹且在萬裡之遙的一項工作，并為我們的日常生活帶來巨大好處，這将是一項多麼了不起的事情！

你們還在設法利用資料分析來進行癌症研究。kaggle 是否組織過很多醫療相關領域的競賽？

william cukiersk：kaggle 尚未在醫療領域涉足過多，主要原因是涉及洩露患者資訊這個問題。另一個難題是擁有這些資料的個人和機構把資料囤積了起來，不願分享。

制藥公司擁有制藥試驗的資料，它們把這些資料壓在了箱底。人們為了資料分享作了一些初步努力，也承諾在這方面展開合作，但結果還是各自都想保留自己手中的資料。從某種程度上說，主要還是擔心隐私保護問題。你可能不會願意把别人的基因組公開釋出，然後大家都看出來這是家住主幹道 232 号的薩利·斯密斯(sally smith)的基因組。不過，與此同時，這些擔心也有些過度。對于這種問題，人們好像都在玩花招，說什麼除非把資料直接交給你，不然你怎麼能夠遠距離地利用資料解決問題呢？如果能消除這些顧慮，你就可以取得一些實質性的進展。

你們公司在舉辦人人都可以參與的競賽，而有些占有資料的機構卻牢牢抓着資料不放手。這是否是一個沖突？

william cukiersk：我在日常工作中面臨的最大挑戰之一是說服人們分享資料，并令其确信這麼做不會威脅到其機構的生存。

經常情況下，不是說你占有了資料，資料就成為與生俱來的無價之寶，資料是需要挖掘和分析的。如果我們從一個機構拿到了一組資料，并将其公開，問題的解決方式是公開的，這不會産生什麼問題，因為沒有其他人有相同的資料，也沒有人會再去獲得并利用這些資料。

你認為，關于大資料的各種說法和觀點，哪方面的失控最嚴重？

william cukiersk：我必須糾正一下你的問題，應該是哪些方面沒有失控。在與人們談論大資料時，很難避免失控這個問題，也很難避免其老闆的介入，同樣難以獲得老闆支援地說“好吧，我們也做大資料吧”。我認為，人們在資料量方面有些失控。是以，經常有人會說，“我們有 10 億兆的資料，我們有百萬兆的資料。”許多問題可以在更小的資料規模上得到解決。比如，用輸送帶來篩選利馬豆。銷售利馬豆的公司希望利用照相機來發現輸送帶上變質的利馬豆。你可以想象，如果你能夠發現一粒棕色利馬豆，你就可以發現所有的棕色利馬豆，而不需天文級别的資料來解決這一問題。我認為，95% 的問題适用于這個模型。剩餘 5% 的問題的算法需要大量的資料，提供的資料越多，其方案的效果就越好。netflix 向使用者推薦電影就是最好的例證。

原文釋出時間為：2014-05-16

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

對話美國科學家，大資料到底怎麼影響我們的生活？

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希