spark、apache mesos、以及 alluxio (又名“tachyon”)。以apache
spark為例,作為大資料處理的計算引擎,它具備 dag
執行引擎以及基于記憶體的多輪疊代計算等優勢,使得其在資料分析等工作負載上表現優秀,成為大資料領域最活躍的開源項目之一。
此前,螞蟻金服和清華大學、同濟大學等高校就基礎科研進行了合作,此次和美國加州伯克利大學的合作向國際高校基礎科研合作邁出了新的一步,螞蟻金服董事長彭蕾曾在内部講話中表明螞蟻金服對大資料技術的人才将“不拘一格,不遺餘力”。螞蟻金服方面對雷鋒網表示,和rise實驗室合作,除了表面對基礎技術深度研究之外,更深層次是對人才長期的持續投資。
amplab
更新為rise實驗室,标志着世界頂級計算機科學系在大資料計算領域種下一個五年重大研究計劃。這個新實驗室專注于下一代大資料計算系統
“實時智能安全決策引擎“(rise)的研發,世界十一家頂級科技公司成為該實驗室的創始成員:谷歌、微軟、亞馬遜、螞蟻金服、capital
one、英特爾、華為、愛立信、 ibm、vmware和ge。
rise實驗室主任ion stoica教授描繪了實驗室的使命願景:解決大規模資料計算中長期未能很好解決的世界難題,機器如何在實時資料環境中快速地做出智能決策。這項技術适用于許多未來場景,從地震監控,無人車/無人機指揮與導航、到網絡安全等等,需要在複雜環境互動中做出實時計算決策。
rise實驗室的主要教授包括ion stoica ,
michael
jordan等在内的涵蓋了大資料系統及人工智能等領域的世界頂級專家。其前身amplab,早已跻身全球前十的大學實驗室。amplab
是加州伯克利大學六年前成立的一個交叉學科的協同實驗室,緻力于通過開發一個內建機器學習、雲計算、叢集計算和衆包的新型軟體棧,進而解決大資料分析面臨的挑戰。想了解這個名家輩出,碩果累累的實驗室嗎?一起與雷鋒網一起來看看吧!
要提及 amplab 的誕生原因,雷鋒網就不得不提及目前的研究進展所存在的一些問題。
首先,wsc(巨型計算機) 及雲計算能夠實作世界上最大的計算力,但是為 wsc 提供的程式設計環境還非常局限。為了支援更通用的資料分析,研究機構就需要量身定制一個新的軟體基礎設施,讓 wsc 能以靈活的程式設計抽象結合高度并行的資料中心計算環境。
其次,大量的線上資料能夠提供資料分析所必須的重要資源,但這些資料的出處各不相同,缺少普遍模式,品質也良莠不齊。我們需要擁有這樣的一種資料管理技術,能從根本上「駕馭」大量、異構且并不完美的資料集。
再者,比起以傳統的資料分析系統支援的資料庫,資料來源的不同會讓通路請求大大增加,此外也會讓資料集的規模前所未有地擴張。也就是說,傳統的資料分析算法需要更多的計算資源,也會帶來更高的延遲。是以,研究機構需要更加靈活、更大規模且可調的分析算法,這樣一來,即使是大量的通路請求,系統也能在延遲、成本與傳回結果之間權衡,并得到令人滿意的答案。
最後,衆包服務第一次将大規模的人工輸入及按需調用召集在一起,如果面臨類似「ml-hard」(雷鋒網按:比如對于傳統機器學習或其它自動化工具而言太難的任務)的問題,衆包可以說是提供了一個新的選擇。但為了實作更大範圍的普及,這樣的衆包模式需要緊密地與更多通用的資料分析架構聯系在一起。
這也讓 amplab 應運而生。
面對這些挑戰,amplab
的誕生似乎成了一種必然。2011 年 2 月 17 日, ion stoica 在 bears 2011 年度研讨會上(berkeley
eecs annual research symposium)提及了 amplab , 這也宣告了它的正式成立。
他在演講中提及,大資料的體量已經變得越來越大,但目前資料的管理成本非常昂貴,而且還需要合适的工具以分析資料,并從中提取有價值的資訊。
是以,stoica 認為要從三個方面提升資料分析的能力,這三者缺一不可。
首先需要提升算法适用的範圍、有效性及品質(algorithms); 其次,需要擴大資料中心的規模(machines); 再者,還需要充分利用人類的行為及智能(people)。
這就是 amplab(algorithms、machines 及 people 實驗室)名字的由來,而這個實驗室也希望能夠緊密地結合算法、機器與人,讓大規模的資料在其中發揮功用。
是這樣描述他們的理念的:「我們希望将資料轉化為資訊,為這個世界賦予意義。數年來,我們在機器學習、資料挖掘、資料集、資訊檢索、自然語言處理與語音識别的研究已經逐漸改進相關的技術,并揭示不透明資料集裡的資訊。但計算機科學目前處于資料分析發展的關鍵節點,主要得益于巨型計算機的出現(wsc),線上資料的爆發式增長,多樣性與時間敏感性強的資料通路,再者就是衆包的出現了。這些趨勢合在一起——通常我們籠統地稱為大資料——在資料分析上彰顯了它的潛力。」
amplab 主要由學校的幾位老師牽頭組織,比如:
michael franklin,主負責人、資料庫主管:
acm fellow,于 1993 年在威斯康辛大學麥迪遜分校獲得計算機科學博士學位,年度 acm sigmod 十年最佳論文獎獲得者、曾獲 icde 2013 和 nsdi 2012 最佳論文獎。也曾被 ibm、谷歌及 facebook 授予最佳研究獎。
聯合負責人 michael jordan,負責機器學習:
aaai, acm, asa, css, ieee, ims, isba 和 siam fellow,此前在 mit 就職十年教授,後于 1998 年擔任加州伯克利教授至今。最近剛獲得了 ijcai 2016 的最佳研究獎。
聯合負責人 ion stoica,負責系統方面的工作。
ion stoica 為 acm fellow,2000 于 cmu 博士畢業,主要關注雲計算及網絡化計算系統。與此同時他也是 databricks 的技術顧問。
此外還有主管計算機網絡 scott shenker、計算機架構的 david patterson 和 randy katz,還有安全隐私層面的 anthony joseph等。
「伯克利資料庫和系統領域的研究項目基本上都會開源,對工業界有比較深的影響(bsd, postgresql, berkeley db, tinyos 等等)。我個人希望我的研究想法可以超越論文的階段,是以伯克利這幾點十分吸引我。」
六年來,amplab 得到了加州伯克利大學計算機科學及資料相關應用領域的老師、學生及機構的合力幫助,緻力于利用大資料分析解決問題。
此外,amplab
的建立還得到了一大波科技企業的支援,谷歌、sap、亞馬遜、ebay、華為、ibm、英特爾、微軟等公司都為伯克利大學提供了資金及資源等多方面的贊助。贊助企業會參加兩年一度的交流會,為研究成果提出建議及具有國際視野的洞見,并且與相關項目的研究者進行深入的交流。
據負責人 michael franklin 介紹,實驗室也得到了美國政府的支援,獲得了 5 年的美國自然科學基金-資訊科學與工程「計算探險計劃」資助(2012 年白宮大資料研究計劃的一部分)。
僅在去年,amplab
在各大期刊及平台上發表了 21 篇文章,包括 iclr、nips、kdd、sigmod 等,主要集中于機器學習及資料分析等領域。根據
marelrei 前段時間的統計,雷鋒網發現加州伯克利大學發表了 33
篇與人工智能有關的論文,雖然兩者的統計方式有所不同,可能出現重疊之處,但雷鋒網引用這兩個數字為大家做個簡單的對比:實驗室果然高産!
而 amplab 經過六年的發展,已經形成了 bdas,即 the berkeley data analytics stack,也就是基于實驗室成果而整合開發的開源軟體棧。學過程式設計的小夥伴自然在下圖中能看到了一些熟悉的身影,雷鋒網将簡單介紹其中幾個系統。
核心自然是大資料處理引擎
apache spark 了。apache spark 原名為 spark,最開始是一個學生項目,計劃實作一個類 hadoop
mapreduce 高效的分布式計算系統,後來與 apache 合作成為旗下孵化項目,并成立了 databricks 公司。
官網上顯示,它有以下四個優勢:
運作速度快,比起 hadoop 的性能要快上 100 倍,此外 spark 還能提供比 hadoop 更上層的 api,長度隻有 hadoop 的 10% 甚至是 1%。
簡潔易用,支援 java、scala、python、r 語言。
整合性強。它基于 rdd 提供了一體化解決方案,整合了 mapreduce、streaming、sql、機器學習、圖像處理等模型,并提供 api 公開及相同的部署方案。
适用範圍廣。spark 能夠在 hadoop、mesos、standalone 或雲上運作,也能處理包括 hdfs、cassandra、hbase 和 s3 在内的資料來源。
與 hadoop 相比,spark 采用了記憶體分布資料集,可用于建構大型、低延遲的資料分析應用程式。
mesos
也是源于 amplab 的一個項目,是 apache
下的開源分布式資源管理架構,它的特點在于可以将資料中心放在一台電腦裡運作,隐藏内部的複雜結構,并對外提供簡單的 api。根據官網介紹,mesos
能夠将 cpu、存儲及其它計算資源與機器抽離開來,并提供相容性強與分布式系統,使計算建構更加簡便且運作效率提升。
mesos 在 twitter 上得到了廣泛使用,此外 airbnb、ebay 及 netflix 也部署了 mesos。可以說,mesos 在克服資源使用率方面做出了大的貢獻,堪稱分布式系統的核心。
alluxio 也是 amplab 中不可忽視的一個,前身是 tachyon,由當時的博士研究所學生李浩源(hy)帶頭。hy 見證了 spark 與 mesos 的在計算與資源管理方面的快速發展,是以計劃從存儲入手,計劃将高速記憶體資料實作跨應用共享。
alluxio 能夠以檔案形式在記憶體或其它存儲設施中提供資料的存取服務,是全球首個基于記憶體為中心的虛拟分布式存儲系統。
該項目在孵化後成立了公司 alluxio,并得到了包括阿裡、百度、ibm、英特爾等多家公司的支援,後者也一直采用他們的服務通路資料。
amplab 展望的未來是這樣的:通過技術不斷發展的各類裝置,借由海量資料、雲計算,溝通的特點,人類與雲端緊密連接配接在一起,并持續、靈活且充滿活力地解決各類困難問題。
而我們也相信,amplab 會在研究的路上披荊斬棘,與更多的學者一起共繪大資料分析的藍圖。
而在今年 2 月 9 日,伯克利大學又将召開 2017 年的 bears 大會,本次主題為 brains and machines,雷鋒網(公衆号:雷鋒網)也将到現場做相關報道,敬請期待。
本文作者:奕欣