天天看點

企業大資料部署的新選擇

zdnet至頂網伺服器頻道 12月23日 新聞消息:直至今日,企業雖然認識到大資料分析能給企業帶來發展的價值,但傳統的資料管理和安全問題已經阻礙了大資料的部署。

企業在什麼情況下适合大資料,這是由企業處于發展中的位置決定的。

許多提供大資料業務的廠商肯定都争相想做企業的生意。畢竟,大的資料不是最小的資料集合,但大資料需要充分利用盡可能多的資料管理。如果你正在尋找一個部署大資料的定義,這卻不是完整的定義。你需要一個增長的資料中心基礎設施相比對所有這些增長的資料。

這個大的資料熱潮才真正開始與apache hadoop的分布式檔案系統(hdfs),開啟了基于成本效益規模的伺服器使用相對便宜的本地磁盤群集的作為海量資料分析的時代。不管企業發展如何迅速,hadoop及其相關大資料的解決方案,都可以保證持續分析各種原始資料(即,不完全結構化的資料庫)。

問題在于,一旦你想從大資料入手,會發現傳統的資料項目,包括那些熟悉的企業資料管理問題又會湧現出來了,比如資料的安全性,可靠性,性能和如何保護資料。

雖然hadoop hdfs已經趨于成熟,但仍有不少差距以滿足企業需求。事實證明,當大資料在進行産品生産資料收集時,這些存儲叢集(das)上的産品可能實際上沒有提供最低的成本核算。

這裡面,最關鍵的一點其實是大企業如何将大資料盤活了。我們當然不是想簡單地拷貝、移動、備份大資料資料副本,複制大資料是一個大的工作。我們需要管理作為安全和謹慎,甚至更多的要求,是以,比小的不同的資料庫,不要抱着盡可能多的詳細資訊。如果我們的關鍵業務流程的基礎上新的大資料的儲存中,我們會需要它的所有的操作彈性和高性能。

大資料歸屬的新選擇

實體das仍然是hadoop最好的存儲媒體,因為相關的高水準的專業和業務的公司的都是經過研究和實踐來确定存儲媒體。但這樣基于hdfs的資料儲存卻有很大的問題。

首先,預設方案是所有資料進行複制,移動,然後備份。hdfs是基于大資料塊的i/o優化,省去了資料互動的時間。以後的使用通常意味着資料複制出來。盡管有本地快照,但他們并不完全一緻或時間點不完全可恢複。

對于這些和其他原因,企業存儲廠商聰明的将hdfs做改變,一些技術狂人類型的大資料專家使hadoop計算利用外部存儲。但對許多企業來說,它提供了一個很好的妥協:無需高維護存儲或存儲新的維護方式的适應,但這有一定的成本。

許多供應商,如emc的 isilon提供對hadoop叢集遠端hdfs的接口,是生意量比較大的企業首選。因為他們将是在isilon裡,進行任何其他資料處理大資料的保護,其中包括安全和其他問題。另一個好處是,在外部存儲的資料通常可以通路其他協定(如網絡檔案系統,nfs)的儲存,支援工作流和限制資料的傳輸和企業内需要的資料副本。netapp也基于這樣的原理處理大資料,一個大的資料參考架構,結合一個組合的存儲解決方案,直接進入hadoop叢集。

另外值得一提的是,虛拟化大資料分析。理論上,所有計算和存儲節點可以都可以進行虛拟化。vmware和redhat/openstack有hadoop的虛拟化解決方案。然而,幾乎所有的hdfs主機節點不能解決企業的存儲問題。一個有創意的新公司bluedata提出一個新的選擇。它模拟hadoop計算方面使企業把現有的資料集——san/nas——加速和轉儲到它的hdfs的覆寫之下。在這種方式中,大資料分析可以做到一個資料中心的資料沒有任何變動,進而使用新的存儲架構和新的資料流或資料管理的所有變化。

大多數hadoop分布都是從近apache的開源hdfs(目前軟體定義的存儲大資料)開始,差別是它們采取了不同的方法。這基本上就是企業hadoop所需存儲,進而建立自己的相容存儲層在hadoop hdfs上。mapr版本是完全有能力處理i/o快照複制的支援,同時和原生支援的其他協定相容,如nfs。它也非常有效,并有助于主要提供企業業務智能應用程式,運作決策支援解決方案依賴于大資料的曆史和實時資訊。類似的想法,ibm已經出爐的高性能計算系統存儲api為hadoop發行版作為一種替代hdfs。

另一個有趣的解決方案可以幫助解決資料的問題。一個是dataguise,資料安全啟動,能切實有效地保護hadoop的大資料集的一些獨特的ip,它可以在一個大的資料聚類自動識别和全局覆寫或加密敏感資料。水準線資料科學(water linescience)是這個領域的新興技術,如果你連線登陸你的資料檔案到hadoop,無論資料在哪裡,即使是hdfs,它都将自動儲存。 大資料提供的産出物有助于快速建立商業應用,利用資料的來源和位置來統計商業所需的資料。

如果你一直持有hadoop的管理或企業資料中心存儲的興趣,這是一個好時機去update自己對大資料的了解,如果你想跟得上大資料的腳步,就不應該拒絕新技術的應用。

原文釋出時間為:2014年12月23日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。