【幹貨】吳甘沙清華講：大資料的10個技術前沿（上）

謝謝大家那麼冷從四面八方的趕過來。另外，也是誠惶誠恐，剛才知道有很多清華非常著名的教授來參加，讓我覺得壓力山大。今天我隻是一個非常個人的對大資料的一個認識。這十個前沿不代表是一個非常準确的定義。大家回去不用把這個分類作為自己研究的一個參考。而且今天我這個演講聚焦在技術上，别講太多大資料的理念、思維，甚至是應用技術都不講了。是以今天我主要是講核心的技術。也許大家聽起來會有一點枯燥，現在說幹貨是好事，但是有點太幹了。涉及到的名詞和特定的技術領域，這不代表我個人都很懂。在很多地方我都是一知半解。我希望把這個作為互動式的，大家有問題可以随時打斷我。

首先我們公司要求要有一些免責方面的要求，個人也是免責，今天講的是我個人的認識。

現在說大資料，我希望大家做研究的有一種思維方式，在美國有一個未來研究院的發起人，他叫阿馬拉，他提到一個艾莫拉法則，人們往往會高估技術的短期影響力，而低估技術的長期影響力。技術的長期影響力代表着技術的積累效應。我們現在常常用指數效應來說明，在現在這個指數時代，指數效應或者指數的颠覆性效應是一種新的常态。我們經常在大資料的領域聽說，有人說我們現在的資料量非常大，最近兩年産生的資料量相當于人類曆史上産生的資料量總和的90%。有人說，最近一天産生的資料量相當于人類文明開始到2003年這數萬年人類産生資料量的總和。idc說，現在人類産生的資料總量每兩年翻一番。所有這些都說了一個事情：指數的效應。

看一下這個曲線，在經曆很長時間的緩慢增長之後，突然在一個點它拐頭向上，産生了爆炸式的增長。在這個時間點，t如果是x的話，t+1就是x的平方。當x很大的時候，它在任何一個周期都會把前一個周期遠遠的抛離在深厚。

大家一定聽過棋盤和麥粒的故事，8乘8的棋格，第一格放1粒，第二格放2粒，到後面積累就會爆發式的增長，到一個國家承受不了的程度。

摩爾定律，這張泛黃的紙片是當時英特爾的聯合創始人之一戈登·摩爾（gordon moore）寫下的紙片，他推動了現在社會的飛輪效應。每過18個月，半導體數翻一番，它進一步帶來了一系列指數式的鍊式反應。處理器的性能也翻一番，成本折半，功耗折半。同時，在一些臨近的領域也觸發了指數效應。比如說以氧化鐵為主要承載物的存儲，也有類似的指數效應。比如說主幹網的帶寬甚至每八個月都會翻一番。甚至是每美元能夠買到的數位相機的像素的數目也呈現了指數級的效應。所有這些帶來了資料的摩爾定律。

是以我一直一個論點是，在這個社會，大資料是我們的蛋白質。蛋白質是我們生命活動的基礎，也是我們生命活動主要承載者，它對于我們這樣一個社會實在是太重要了。我們形容資料是資産、是原油、是原材料、是貨币，無論哪種形容的方法都不過分。因為它關系到70億人資料化的生存，以及2020年500億個互聯裝置的感覺、互聯和智能。所有這些乘起來産生了2020年35個zb的資料。在2020年一年會産生35個zb的資料。一個zb相當于一千個eb，谷歌已經把網際網路吸納在他的資料存儲中了。他的資料的存儲量差不多在個位數的eb或者幾十個eb之間。2020年一年就會産生一千個谷歌的資料。這是一個多大的量？當然我們不能隻是強調資料量多大。而是說在這個資料裡面我們能夠提取出什麼樣的意義來。提取的過程就是這樣一個函數，f（資料，t）。

這麼大量的資料給我們帶來了什麼樣的挑戰。全集大于采樣。傳統的資料分析是能夠采樣的，他能夠抓到一定的統計的資料特征。但是大資料要求的是傾聽每一個個體的聲音。他不希望把一些個體的東西變成噪聲過濾掉。是以這是帶來的第一個挑戰。

第二個挑戰是實時性。資料的價值是跟它的壽命成反比。當資料剛剛産生的時候，它的價值是最大的，尤其是個性化的價值是最大的。随着時間的推移，它會蛻變到隻有幾何的價值。我們需要實時處理，并且把這個實時的洞察跟我們長期積累下來的知識進行融合，變成之前或萬物皆明的全時的智慧，這是第二個挑戰。

第三個挑戰是f，我們的分析方法是不是能夠做到見微，又能夠做到知著。同時，也能夠了解每一個社會運作的規律。這對f要求非常高。第四，他反映了人與機器的關系，或者人與工具的關系。我們說希望資料能夠說人話，資料的價值是人能夠了解，并且能夠執行的。

很多大資料的技術基本上是為了解決這四個問題。我今天要講的十個技術前沿，基本上都落到剛才這四個需求裡。但是我又把它分成三大類：

第一大類，解決資料的問題。

第二大類，解決大量的資料前提下，如何能夠實時的計算問題。

第三大類，我的分析怎麼能夠提供更好的、更精确的價值的問題。

是以我下面會根據這十個技術前沿，跟大家介紹一下現在我們領先的大資料的科研機關以及企業都在做什麼樣的事情。

第一，膨脹的宇宙。

idc創造一個名詞叫做data univers——資料宇宙。它的膨脹速度是非常快的。現在我們的硬碟是tb，到pb到eb到zb，甚至再到下一步dbms。在這一條時間線上面，技術的演進，最早當然是tb，就是傳統的關系型資料庫以及在其基礎上延伸出來的資料倉庫。它基本上是能夠控制住tb級的資料。随着資料量的增大，mpp這樣一種技術使得它的資料庫技術進一步的演進到接近于pb的規模。但是它還是碰到了瓶頸，于是，nosql的資料庫就出現了，nosql的資料庫有兩個特點：第一，無模式的。第二，它放棄了對于精确事物特性的追求，放棄了原子性、隔離等等方面的需求。這樣使得它的擴充性能夠得到提升。是以大家可以看到沿着這條路線，很快使得我們對于資料的存儲能力達到了pb的級别。

在這條路線延續的同時，檔案系統也在延續，檔案系統對于非結構化的資料具有更好的存儲能力。是以dfs能夠處理比nosql更大的資料量。有一些nosql的資料就是建立在dfs的基礎上。這時候有一部分人就想nosql損失了很多的特性，但是在商業場景裡面，我從帳号裡面取了錢，我要保證這筆交易是符合事物特性的，不會存在我取了一百塊錢，但是在資料庫裡面顯示那一百塊錢還在裡面。怎麼在更大量資料的基礎上來實作這種事物特性呢？于是就出現了newsql，newsql一方面處理的資料量比傳統的資料庫更大；另一方面，它又能夠滿足事務的特性。當然nosql還在進一步的演進，從幾十個pb的規模，進一步演進到eb的規模，進一步出現globally distributed db的規模，百萬台伺服器的規模。谷歌的spanner就是一個典型的distributed db。它為了達到事務特性，它需要部署很多新的技術，比如說利用gps進行全球的時鐘同步。

另外一個演進是array dbms，很多計算是現行函數，它跟關系函數很不一樣。array dbms就應運而正了，最主流的是scidb，它就是針對科學計算、針對現行計數的資料。這就是一個主流演進的圖譜，但是它還沒有結束。在檔案系統方面，因為純磁盤的通路使得它有吞吐量的瓶頸。于是出現了利用ram做緩存的現象。比如說最著名的hdfs就有了記憶體、緩存的擴充。同時，也出新了in memory的fs，它把檔案系統放到大的記憶體裡面。而且，現在主流的大資料的處理都是基于java。java記憶體回收是通過一個處理器。對于幾百個eb的資訊，垃圾回收器不是特别的有效。于是又出現了堆外面的記憶體，它在堆外面又放了大量的資料。

另外一個是erasure coding，它最早在通訊領域，是因為無線的信道有很大的出錯的可能性。它通過編碼機制能夠使得我這個傳輸是能夠容錯，甚至是糾錯的。現在它也被用到了大資料上面。大家如果熟悉hadoop的話，就知道在dfs上面曾經出現了幾種時限，每一種都是因為種種原因并沒有得到推廣。最近英特爾跟cloudera一起，推了一種新的erasure coding。

新的存儲的媒體又出現了，現在是發展最快的一直，因為flash的吞吐量、延遲都要比機械的氧化鐵的硬碟更快。

dram storage也出現了，就是我所有的資料都存在dram裡面，它進一步提升了吞吐量，減少了延遲。但是dram有一個問題，dram是易失的，一掉電這個資料就不存在了。你為了讓他能夠起到存儲的作用，就必須要想辦法，比如說通過備援的方法在不同節點裡面都存同一個資料，這樣一台機器宕掉了，它的資料還能夠存在。當你的資料都留在記憶體裡面以後，不同節點之間資料的傳輸就變得非常重要。傳統的資料傳輸是通過網卡、tcpip的協定棧，這個效率是非常低的。在高性能計算裡面，出現了rdma，高性能計算裡面都是非常高大上的，這些技術非常昂貴，本身的擴充性也不夠。是以現在基于大資料的高擴充性的rdma也是現在研究的熱點。

是以這幾種新的媒體放在一起就出現了heterogeneous storage，你能夠根據資料通路的頻率，能夠智能的把資料放在不同的媒體上面。比如說通路最頻繁的就放在dram或者是flash，不太頻繁的就放在傳統的磁盤裡。這做的好與不好關系非常大。谷歌有一個工作，他能夠保證他隻把1%的資料放在閃存裡面，但是這1%的資料的閃存接受了28%的資料的通路。如果你的資料分布算法做的好的話，你可以以非常低的成本提供更大的吞吐量。

未來，會出現memory，它的性能跟dram相差不多，但是它的容量更大，它不會丢失，如果資料裡面的記憶體不會丢失，整個系統的軟體就有可能會發生一些革命性的變化。比如說你不用再做序列化和反序列化了。你甚至不用檔案了。因為原來用檔案是因為我在磁盤裡的資料的狀态跟記憶體裡面資料狀态是不一樣了。但是你現在在這個狀态裡面，你休息的狀态跟被使用的狀态是一樣的。你不需要從檔案裡面把資料讀出來，轉化成為計算的格式。是以non-volatile的出現會對大資料的軟體化出現革命性的變化。

non-volatile還有一種選擇是錄音帶機。它還在被大量的使用。谷歌是全世界錄音帶系統最大的買家。因為他要備份他的幾十個eb的資料。他大量的資料都是在錄音帶機裡面，錄音帶本身的媒體也在變化，最先出現的鋇鐵的形式，它的穩定性更好。

第一部分講的是怎麼應對疾速增長的資料量。為了提升吞吐量、降低延遲采取的各種各樣的方法。

第二，巴别之難。

聖經裡有一個巴别塔，最早人類都是同一種，講的語言也都是一樣的。上帝覺得你們太舒服了。他說人類要造一個巴别塔，他讓你們說不同的語言，讓你們溝通産生困難，讓你們分布到不同的地方去。資料也面臨同樣的問題，資料并不是在同一個地方說同一種語言。

資料能夠互相說話，但是他們用不同的語言。他們的格式可能是不一樣的，他們的語意不一樣，他們的度量衡不一樣。資料可能是不完備的，甚至是互相之間沖突，這樣導緻了一個問題，我們沒有辦法利用更多的資料來産生更好的價值。為了實作這個一定要做一件事情叫data curation，資料的治理，資料品質的提升。data curation裡面最有提升價值的是data wrangling。在計算曆史上有很多hard的問題，有一種np—hard，還有一個叫db—hard，它的意思是你在這個地方輸入位址是這樣寫的，在另外一個地方輸入位址的寫法不一樣，事實上他們代表的是同樣一個東西。data wrangling就是希望把資料的邏輯打破。

邁克是一個資料界的大師，他做這個東西我們很相信是代表着技術發展的方向，他根據某些條件查詢出來幾個選項，我們怎麼知道他們這幾個選項是代表着同一個東西呢？他開發了一種叫data timer的東西，他點到不同的裡面，發現不同的線索，首先這些線索的網站是不一樣的，他發現這些資料不是一樣的資料。同時，他發現的位址又是一樣的，都是這樣一個地方。第一步他要發現這兩個是同樣的位址，但是他又發現聯系的電話是不一樣的。這對我們帶來了很多的困擾。

他又去對資料進一步的發掘，發現資料描述的主體有很多特征，在這些特征上面，他又發現一些相似的特性。他通過這樣一種證據不斷的疊加，他來發現資料與資料之間的關聯性。

怎麼通過自動化的學習方式，怎麼能夠發現資料中的規律，尤其是文本這樣一種典型的非結構化資料，怎麼能夠發現規律。其次怎麼能夠發現重要的實體。本體論裡面一個重要的概念，反應我們一個描述對象的屬性的機關就是entity，我們怎麼找到這些entity，這一切是希望能夠通過自動化的學習來完成。而且希望能夠從半結構化或者多結構化的資料進一步推展到完全非結構化的資料。

你提煉出來的這些資料和原資料，需要有一種更好的組織方式。現在一個冉冉升起的組織的工具叫做apache的uima。如果這個大家比較陌生，大家一定聽說過ibm的watson。前兩年在美國的一個類似于開心辭典的節目，一個計算機戰勝了兩個非常高智商的人。在它的資訊的組織就是通過apache的uima來組織，它的組織能夠使後期的分析最簡化。這個是解決巴别之難的現在的主要研究工作。

第三，資料有價。

資料是比特，比特是可以低成本無限的複制，一旦一個資料或者一個東西失去了稀缺性以後，它的價值就是零了。是以，資料有價首先要保證你要定一些資料的權利。在這樣一些權利的指導下，你要保證資料的安全。大資料的安全本身又分為大資料系統的安全、資料本身的安全，以及資料使用當中的安全。最後是資料怎麼來進行定價。我在第三個前沿裡面希望能夠給大家分析一下這一塊主要的研究成果。

第一，資料權利的定義。資料我認為有五個基本權利：第一，擁有權，這個資料是屬于誰的，這個擁有權是不含糊的。就像我們現在擁有的其他的實體的财産一樣，擁有權可能會出現變更，比如說離婚了，這個權利怎麼分割，人死了怎麼來傳承。這裡面都涉及到資料擁有權的研究。第二，資料隐私權，我什麼東西不能給你看。第三，資料許可權，我什麼東西可以給你看，今天給你看了明天不能給你看。第四，資料審批權，我按照這樣一個規範許可給你以後，需要有一種機制審計，確定你是按照這種規範、按照這種許可的條例使用我的資料。第五，資料分紅權，對于新産品的資料價值，我有沒有可能得到分紅？這是我定義的資料幾種權利。

下面就是資料的安全問題，首先我怎麼保證一個大資料的系統安全，比如說hadoop，慢慢加入了基于kerberos的使用者和服務鑒權。hdfs檔案和資料塊權限控制。未來是高度分布、去中心化場景下的安全，資料使用實體之間并不需要存在信任。不存在單點可控制的機制。最典型的就是類似于比特币和ripple的擷取。比如說block chain，它是對資料最價值的擷取。

對資料的安全，第一個方法是加密，hadoop新的功能就是可以對資料進行加密。第二，通路控制。apache accumulo，它也是一個開源資料庫。在hbase裡面也在加入類似通路控制的安全。

動态資料的安全，這個資料隻有你能通路，我不能通路。這種靜态控制不能防止一種攻擊，你有權通路了，你把資料取出來了又給了我。因為他不存在一種動态的進行跟蹤的機制。是以現在有對資料的移動進行動态的審計。

個人對資料的控制。現在我們個人對自己的資料有了一定的控制權限，比如說do not track，現在浏覽器都有這種功能，如果你不把它打開，各種各樣的網際網路服務商就可以根據你的cookie不斷的跟蹤你，你在京東上看中一雙鞋，你到淘寶上它就會一直跟蹤你。你打開do not track，它就不能跟蹤你了。現在各種不同的ap可以跟蹤你，你一旦關閉“跟蹤”選項，他就不能跟蹤你。個人資料的删除你可以要求一些網際網路的服務提供商把你的資料删掉。這是mit做的，他以隐私的方式向第三方提供資料，并且獲得價值。

資料安全中現在最熱的一個研究領域，叫做資料脫敏。尤其是開放資料，我如果要把資料開放出去的話，我怎麼能夠保證這個資料裡面不會把一些個人的隐私資訊洩露出來，在曆史上很多的資料開放就導緻了這樣的問題。美國的國會，有人把他的搜尋資料跟美國選舉公開資訊進行了比對，使得他個人的隐私被暴露了出來。去辨別符往往是不徹底的，這裡有一個準辨別符，對于個人來說，姓名是辨別符，準辨別符是性别、出生年月、郵編，在美國做的研究，隻要根據這三個資訊，準辨別符的資訊，有90%幾的可能可以把個人确定下來。你要防止這樣的隐私供給。

一個機構他開放了一些資料，雖然是匿名的，但是有人把這個資料跟國際的移動的資料庫做了比對，把一些有同志傾向的人找了出來。這就是多資料源的攻擊。

還有一種基于統計的攻擊。如果我能夠知道一個人的活動規律，同時我知道他一天在四個不同的時間點，出現在不同的基站周圍，我有95%的可能性把他确定下來，是以要防止這些隐私攻擊，現在推出了很多的技術，比如說k-anonymity，當你的準辨別符都相同的話，這個資料組裡面我還是至少有k個值，不是隻有一個值，如果隻有一個值，你馬上把這個人确定下來。希望能夠有k個值。l-diversity中，他是希望k個資料中至少有l個不同的值。第一種匿名的機制隻保證有k個資料，但是他還是有類似性。左翼進一步要求這k個資料有l個不同的值。t-closennss進一步保護你的隐私性。differential privacy會人為的插入一些噪聲，但是又不幹擾你進行分析，他在插入噪聲的同時又不影響這些噪聲的分析，這是插分隐私。當然這裡面要注意隐私的安全性和資料的可用性。因為你插入的噪聲太多了，資料本身的價值下降。

第三種安全是資料使用的安全，我們希望資料使用能夠做到可用但不可見，相交但不相識。我希望幾個人的資料湊在一起産生更大的價值。但是我又不希望你能看到我的資料，或者我看到你的資料。這裡面有幾種技術，一種是同态加密技術，csyptdb/moomi。另外一種是基于加密協定的多方安全計算。兩個百萬富翁，他要比誰更有錢，但是誰都不願意說出自己有多少錢，這就是一種保護隐私的多方安全計算。第三種是基于可信計算環境的多方安全計算。可信計算環境需要一些硬體的支援。我這些列舉的txt、tpm、vt—d，都是英特爾現在平台上的，他能夠保證你的資料是可信的，環境是隔離的。但是這個資料在磁盤裡面是加密的，但是它被放在記憶體裡面，就變成明文了，雖然我們有vt這樣一種技術保證它的資料是隔離的，但是還是存在着被攻擊的可能性。下一步技術叫sgx，它的攻擊的可能性也沒有了，因為在記憶體裡面也是密文，一直到cpu裡面進行計算的時候，才變成明文。

另外一個審計和定價的問題。系統安全了，資料安全了，使用安全了，我可能要進行一個審計。所謂審計就是，我給出一個資料使用的條款，你是不是按照這樣一個條款去使用我的資料了。這裡第一步要做的就是你把這個條款形式化，你要通過一種specification language來描述，他要形式化，形式化的目的就是希望能夠讓非專業人員來書寫這些條款。比如說這個企業法務人員，企業的資料要給另外一個企業用的話，這個法務人員要寫出來這些條款。根據使用規範，對資料的使用要進行審計，可能是靜态的或者是動态的。

定價，任何一個财産的定價，一個是根據效用，第二個是稀缺性。所謂效用就是你這個資料被使用的多頻繁，他對結果的影響有多大，根據這樣一種效果，我來判斷各方資料的貢獻，進而進行定價。稀缺性是根據資料價值的密度以及曆史的價格的稀缺性進行定價。剛才的研究我們做了一個技術叫資料咖啡館。咖啡館是16世紀在英國出現的，它就是讓三教九流不同的人能夠聚在一起進行思想的碰撞，産生新的價值。資料咖啡館就是希望能夠讓不同方的資料碰在一起，現在有很多垂直的電商，他們都是經營不同的業務。他們對于客戶的認識是非常片面的，不精确的。比如說一家電商是賣衣服鞋帽的，另外一家是賣化妝品的，他們沒有辦法對一個客戶獲得像淘寶這樣對個人精确的刻劃。是以他們需要把精确的資料碰在一起，産生對客戶全面的畫像。在這裡面還有不同的場景，比如說一個大電商，一個小電商，小電商肯定是缺乏資料的。他可以通過一種機器學習的方式來幫助這家小電商迅速的把他的對客戶的認識建立起來。還有一種情況是這種小電商的資料比較少，标記資料比較少會出現機器學習中冷啟動的問題，他可以利用另外一家電商的資料把他弄起來。

還有一個案例是癌症的。癌症是一個長尾病變，過去五十年癌症的治愈率隻提升了8%，在所有的疑難雜症中是提升最少的，它的很大的原因是研究不同機構癌症的基因組樣本非常的有限。如果說能夠通過資料咖啡館把這些資料彙聚到一起，我們一定能夠加速癌症研究的技術突破。我們現在跟美國幾家研究機構有一個願景，在2020年前我們希望能夠達到這樣一個目标。在一天之内一個癌症患者來到醫院能夠完成全基因組測序，同時分析出緻癌的基因，并且給出個性化的治療方案。這有賴于疾病的治療。這就是我們剛才說的，資料相逢但不相識。資料的價值一定是根據使用來決定的，沒有使用不應該有資料的買賣，你先使用再定價再買賣。我們專門做了一個資料的定價機制。底層是多方安全技術。我們希望未來一個場景是這樣的：企業的資料擁有方是一方，但是他沒有分析能力，分析師又是一方。中間我們提供一個資料咖啡館的雲。這些分析師寫了分析的代碼，分析代碼送出到雲裡面，雲首先對代碼做本地的分析，他通過一個靜态的檢查器，這個靜态檢查器要從資料的提供方那邊獲得隐私的條款。他要檢查這個代碼是不是符合這個隐私條款的約定。隻有符合了以後，他再把這個代碼送到資料提供方的那邊進行資料的分析。同時，把階段性的成果送回來。随着階段性成果一起送回來的是他在這邊對資料使用的日志，我們根據這個日志做動态的審計、檢查。如果說确實沒有偷資料，再進入全局的分析，全局的分析在資料咖啡館的雲裡面，最後把隐私保護的結果送回去。對于多方的資料同樣處理。

在多方的架構裡面，資料的提供方是不會讓你的分析師看到資料的。不同的提供方也不會讓另外一方看到資料。分析師的代碼裡面也有他的知識産權。他也不會讓資料的提供方看到他的代碼。這樣形成了一種隔離，形成了相逢，但不必相識。這我認為是代表了這一領域的最前沿的研究。這個研究我們跟清華大學的賀飛老師有合作，他在形式化這一塊有很好的工作。

原文釋出時間為：2014-12-250

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

【幹貨】吳甘沙清華講：大資料的10個技術前沿（上）

繼續閱讀

淺談企業活動中進行資料分析的重要性

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

win10本地scala和spark安裝安裝scala安裝spark