天天看點

讓更多人能夠使用Hadoop

11月30日,“Hadoop與大資料技術大會”在北京舉行。其實,早在5年前,以Hadoop為主題的研讨會就開始在中國舉辦。去年在北京召開的Hadoop大會也吸引了近千人參加。業界似乎已經有了這樣一個共識:Hadoop是一個理想的大資料處理平台。在面對“資料洪流”猛烈沖擊的今天,各類企業都對Hadoop産生了濃厚的興趣。據主辦方介紹,今年的大會首次将Hadoop與大資料并列,目的就是為了讓使用者能夠更好地了解Hadoop與大資料之間的關系。

  大資料市場剛剛萌芽

  有人這樣說,20世紀是“石油時代”,21世紀則是“資料為王”的時代。以我們今天的眼光來看,資料與石油一樣,都是一種重要的資源,隻不過大資料應用還處于發展的初級階段,而石油的勘探和應用技術已經十分成熟。對于衆多的網際網路企業來說,Hadoop已經是一個比較好的資料處理工具,但是以石油勘探技術的成熟度作為參照,那麼Hadoop還存在許多不足不處。雖然很多人言必提大資料,但是大多數人還搞不清到底什麼是大資料。

  以前搞圖形圖像處理的、研究高性能計算的,還有做社會計算的,現在都聲稱自己做的是大資料研究。這讓很多人懷疑:大資料會不會僅是一個美麗的“包裝”,有炒作之嫌。Hadoop大會的召開,一個很重要的目的就是澄清關于大資料的一些概念,還要就大資料的相關技術問題、應用實踐以及大資料的生态系統進行深入探讨,并對企業日後的大資料項目實施給予指導。

  本次Hadoop大會的學術氛圍比較重,會議用了大部分時間對大資料的定義、基本架構以及相關學科、大資料的技術挑戰與發展趨勢等進行了研讨。今年,會議主辦方中國計算機學會成立了大資料專家委員會。該專家委員會在本次大會上釋出了一項關于大資料的最新調研結果,提出了大資料值得關注的八大熱點問題以及2013年大資料的十大發展趨勢,值得關注。

  從調查結果看,大資料的特性與資料态、大資料的安全和隐私問題、大資料對IT架構的挑戰以及大資料的應用與産業鍊等問題将成為未來市場關注的焦點問題。隻有解決了這些關于大資料的基礎性問題,大資料産業才可能走上良性發展的道路。中國的大資料市場才剛剛萌芽,這是與會者的一個共識。中國計算機學會大資料專家委員會秘書長程學旗表示:“2013年,針對大資料會興起一股投資熱潮,相關的融資、并購和IPO會大量湧現。在大資料行業内,大企業并購一些有特色的中小企業将成為熱點。”

  八大熱門話題

  2012年3月,美國政府整合6個部門宣布了一項兩億美元的“大資料研究與發展計劃”,把對大資料的研究提升到國家戰略的高度。歐盟也有類似的舉措。無論從國家還是社會層面看,大資料都已經成為重要的戰略資源,也是新的戰略制高點,此外也是企業提升自身競争力的一個強有力的武器。關于大資料,人們最關注的有以下幾個問題。

  第一,更大的資料量。從表面上看,大資料最突出的一個特征就是資料量“大”,但是對于這個“大”并沒有一個統一的标準。以今天的标準來衡量,PB級的資料量就可以稱為是大資料,但是未來PB級的資料量可能就顯得不夠大了。通常來說,資料量大、快速、資料的多樣性、價值密度低等是大資料的基本特性。随着資料量不斷增加,從海量資料中挖掘和提取出有價值的資料的難度也會逐漸增加。可以預見,一些大型企業将開始采用大資料工具。

  第二,大資料分析的革命性方法。就像計算機和網際網路一樣,大資料将引發新一輪的技術革命。基于大資料的資料挖掘、機器學習、人工智能等技術可能會改變以前“小資料、小世界”裡的很多算法甚至是基礎理論。

  第三,大資料與雲計算的深度融合。大資料處理離不開雲計算。雲計算可為大資料提供彈性、可擴充的基礎架構支撐環境以及高效的資料服務模式。大資料則為雲計算提供了新的商業價值。大資料将與雲計算實作更完美的融合。雲計算、物聯網、移動網際網路既是大資料産生的沃土,同時也是急需大資料分析方法及工具的應用領域。

  第四,大資料應用會率先在醫療、金融、電子商務、城市管理等領域實作突破。

  第五,大資料的安全性問題。總體來說,大資料的安全令人擔心。資料量不斷增加,不僅對實體儲存設備的安全性會提出更高的要求,而且對資料的備份和容災機制也會提出更高的要求。網絡和數字化生活使得犯罪分子更容易得到關于企業和個人的資訊。

  第六,個人隐私越來越難以保護。現有的關于個人隐私保護的技術手段并不能适應大資料的環境。

  第七,資料科學将會作為一個與大資料相關的學科出現,一些高校會設立與大資料相關的專業,同時與大資料相關的專業著作也不斷湧現。中國計算機學會大資料專家委員會的調查顯示,大資料分析與預測、分布式計算、社會計算将成為人們最關注的大資料學科。

  第八,大資料産業的興起将催生一批新的職業崗位,比如資料分析師、資料科學家、資料工程師等,具有豐富經驗的資料分析人才将成為稀缺資源。Yahoo、eBay等公司的中國研發中心在本次Hadoop大會上擺開了大規模招聘的架式。Yahoo資深研發總監朱金生表示:“研發将成為未來Yahoo公司的一個重要支柱。在大資料時代,我們面臨的最大挑戰之一就是人才短缺。我們希望在中國本地招聘和培養更多的大資料、移動網際網路研發人員。”

  降低應用的門檻

  一些企業使用者曾向記者表示,非常希望采用Hadoop,但是Hadoop平台比較複雜,而且在實際應用之前還要做一些附加的開發工作,而企業又缺少掌握Hadoop技術的專業人才,是以Hadoop在中國企業中的普及速度比較慢。

  許多IT廠商為了降低Hadoop平台的應用門檻,就在Hadoop平台的基礎上進行了二次開發,或者自行推出Hadoop軟體的發行版。

  比如,VMware就将Hadoop平台移植到虛拟平台上,進而簡化了Hadoop平台的部署和使用。英特爾也于今年7月首次釋出了Hadoop的發行版,在本次大會上又推出了Hadoop發行版的免費版本。英特爾亞太研發集團總經理何京翔解釋說:“我們之是以釋出Hadoop發行版的免費版本,就是想讓更多的人能夠真正使用Hadoop。”

  英特爾的一個目标是,将Hadoop打造成下一代分析平台的基石。在衆多的大資料軟體工具中,英特爾為什麼偏偏選中了Hadoop呢?“我們最初考察大資料産品時,Hadoop還處于測試階段。與其他大資料産品相比,Hadoop在架構、性能等方面顯得實力更加平均。”何京翔表示,“Hadoop最初隻是一個适合網際網路使用者使用的資料批處理工具,而在企業中應用還有很多不完善的地方。是以,我們對Hadoop進行了必要的改造,使它能夠滿足企業使用者對大資料實時處理的要求。其實,除了Hadoop平台以外,我們還在跟蹤、研究其他的一些大資料平台和技術。”

  英特爾在大資料方面的一個基本政策是:提供一個能夠連接配接、支援其他硬體、軟體與應用的大資料基礎平台。大資料工具不僅僅可以在網際網路領域發揮重要作用,在金融、電信、智慧城市、政府、零售、制造業、醫療等領域都有用武之地。在上述行業裡,英特爾的大資料解決方案已經有了成功的應用。從參與本次大會的很多企業提供的解決方案看,它們的一個主要目的是将Hadoop平台推廣到更廣泛的企業中去,而不僅限于網際網路企業。

繼續閱讀