海量資料戰争——誰能赢得未來？

2022-12-19 00:38:52

時至今日，海量資料時代的來臨已經毋庸置疑，尤其是在網際網路、電信、金融等行業，幾乎已經到了“資料就是業務本身”的地步。在這其中，還挾裹着一個更為重要的趨勢，即資料的社會化，這也是我們通常所說的非結構化資料。

以往人們認為，把企業自有的營運資料進行深度分析後，自然會有所得。但在今天看來，這種做法的一大缺陷就是，資料不夠全面、及時。從理論上講，誰掌握的資料越全面，得出的結論就越趨向于合理。企業隻有建構一個容納了足夠多關鍵資訊的“深水池”，才更有可能做出正确的決策。

這種趨勢已經讓很多相信資料之力量的企業做出改變，随之而來的，則是企業在IT架構上的改變，這也意味着，海量資料市場，正孕育着一個前景無法限量的巨大商機。

海量資料市場争奪——對IT大佬們而言，這也是一場誰也輸不起的“戰争”。

海量資料戰争——誰能赢得未來？

Hadoop的神話

從Yahoo的 Web搜尋研究，到Facebook的資料分析，再到百度的搜尋日志分析、淘寶的資料魔方服務，以及中移動推出了 “大雲”(BigCloud)系統，Hadoop的身影都已經到處閃現。簡單來講，社會化資料時代的企業需要像八爪魚一樣，能夠發現并拿到他需要的資料，而Hadoop技術的好處就是，不但可以友善地嵌入到各種實際應用中以實作全文搜尋/索引，而且可以進行資料抓取。比如雅虎，通過應用這一技術，幾乎可以實時分析每一個頁面點選并優化内容的排名，每7分鐘就能更新一次結果。

以Hadoop為代表的海量資料處理開源工具無疑是吸引人的，“開源工具可以檢視代碼，這樣開發者可以找到他們整合時裡面是什麼。在幾乎所有的案例中，開源分析都更具成本效益和靈活性。”Revolution Analytics的Minelli表示。

資料量在持續的增長，公司将被迫增加基礎設施的部署。專利費用将一直增加，而開源技術，則省了這筆一直持續的專利費。Twitter選擇Hadoop，其中重要的原因是專有工具的費用太高。

Hadoop之是以能夠風靡一時，在筆者看來，除了其在海量資料處理上的方式，最重要的因素關鍵在于它是免費的。

更長遠的來看，開源工具使企業建立新的分析技術，更好的處理非結構化的語言，比如圖檔等。而不能寄托于傳統廠商發展新的分析技術。開源工具給了企業創新的機會。

但是Hadoop也并不能代表一切，Hadoop的MapReduce在性能上的确是有局限性的：比如MapReduce沒有索引，隻有靠強大的運算能力來處理；此外，MapReduce本身存在一些lower-level實作的問題, 特别是skew和資料交換等等。

Cloudscale創始人和首席執行官Bill McColl曾指出，從性能上而言，下一代的架構需要在MapReduce/Hadoop的基礎上有10——10000倍的性能提高。正因如此，我們看到，針對Hadoop遭遇到的性能瓶頸，Yahoo正準備開始對Hadoop進行重構。

與此同時，Hadoop的競争對手們，比如Cloudera、Mapr們，正緊鑼密鼓地推出更具競争力的産品和技術，而最新的産品無疑是Mapr ，Marp是一個比現有Hadoop分布式檔案系統還要快三倍的産品，并且也是開源的。Mapr配備了快照，并号稱不會出現SPOF單節點故障，且被認為是與現有HDFS的API相容。是以非常容易替換原有的系統。

總之，Hadoop并不一定适合所有的案例。比如海量資料的捕捉、存儲、分析，依靠特殊的應用的特性，等等，這些都非Hadoop所長。相比較 Hadoop的處理能力，一些SQL架構依然呈現數量級的優勢。從某種意義上而言，在采用scale-out網絡連接配接方式的EMC Isilon或IBM的SONAS，可能對于使用非結構化的資料比如圖檔、視訊會更好。

是以，海量資料競争的另外一個領域就是開源與專有工具的混合使用，這也是傳統的IT大佬們正在努力的方向。

IT大佬們的海量資料算盤

如果你認為IBM、EMC、Oracle、微軟這些傳統的資料技術大佬們對海量資料這個市場視而不見，那麼你就錯了。IBM、EMC、甚至包括微軟，他們與開源項目的合作一直都非常緊密。

IBM

實際上，IBM早已擁有了Hadoop項目，并推出了在Hadoop架構上建立作為群集運作DB2或Oracle資料庫的叢集系統，根據IBM的測試資料顯示，在IBM一個擁有40個節點的檔案系統将有12GB/sec吞吐量，并與400個節點的系統可以達到120GB/sec吞吐量。

如果再深究的話，你可以發現，在海量資料上，IBM其實主打的是小型機的并行運算，這一點，從其前不久推出的Watson就能看出，由90台 Power組成的Watson是一個非常典型的BI執行個體，從資料存儲、到資料分析與挖掘，Watson展現的是IBM對于未來海量資料的實作原理，Watson存儲了海量的百科全書、論文文獻等等以文章方式存儲的資料，它們之中也會有相關的資訊。但由于這些資料是非結構化的，是以watson必須通過非常費力的文本搜尋來取得資訊。而這個過程中又會用到前面用過的提取專有名詞、詞性、文本結構等方式。

從架構上可以看到，Watson所使用的軟體實質是建立在IBM開源的UIMA體系結構之上。UIMA是一個用于非結構化資訊管理應用的平台，提供了一個可使問題處理子產品獨立工作的架構，能夠對結果進行篩選得出最佳答案。而Apache項目則開發了目前的UIMA版本以及一些通用子產品，而 Watson在電視節目中使用的子產品隻是其中的一部分。

EMC

2010年7月，當EMC宣布以現金方式收購私有資料存儲公司Greenplum後，迅速以Greenplum為基礎，在資訊基礎架構業務部門之下組成一個新的部門——資料計算産品部。而在完成了Isilon的收購後，EMC也完全具備了進軍海量資料市場的一切産品和技術。

根據EMC的Isilon橫向擴充NAS架構（使用其OneFS作業系統）可以看到，其可在單一檔案系統中擴充至10PB以上，并支援每秒50GB 的吞吐量。然而，大資料應用可能會更注重某方面或其其他相關資料。是以，Isilon中的S産品系列主要針對于高事務處理和IOPS密集的應用，比如基因組研究；而X系列解決方案主要針對容量密集型應用，諸如醫療圖像這樣的需要高并發處理和順序吞吐的應用。

而Greenplum則專注于應對大資料所帶來的分析挑戰。其産品套件支援分析密集型的大資料集，最終幫助終端使用者大資料中挖掘突出價值。這通常需要複雜分析，比如特定的互動分析，而非簡單的結構報告。分析速度尤其重要，特别是在需要頻繁執行時以及資料分析結果有助于決策時。此外，為滿足更大規模的資料應用需求，Greenplum還開發了大規模并行處理（MPP）系統，其關鍵要素在于性能和可擴充性。

微軟

應該說，在非結構化資料市場，微軟一直都在對這個市場持續認真地投入，并于去年年底釋出了公測版Dryad平台，其實，Dryad也并非微軟的新産品，Dryad和DryadLINQ其實早在微軟收購Powerset之前就已經存在，目前推出的，隻不過是商業版。微軟于2007年首度揭曉了關于技術的研究成果，并于2009年向學術界推出了非商業版Dryad和DryadLINQ。

值得注意的是，2008年，微軟曾收購了Powerset，并将Powerset基于Hadoop的技術應用于其（bing）搜尋引擎之上。而微軟當時甚至答應Powerset員工繼續向Hadoop貢獻源代碼，Powerset也由此建立了Hadoop的姊妹項目——HBase，模拟Google 的BigTable資料庫。

與MapReduce不同的是，Dryad是針對運作Windows HPC Server的叢集計算設計的，而非Linux——這恐怕是Dryad容易被人所诟病的一點。由于Hadoop是基于Java編寫的，是以這些程式恐怕并不太适合跑在微軟的Windows平台或者.NET之上；另外，微軟是在2005年進入到高性能計算市場的，目前而言，這個市場是被Linux所占領的。而目前Apache的Hadoop環境是隻支援Linux的，Windows還在不斷開發中。

不僅如此，微軟還在近日釋出了其圖資料庫系統Trinity 。Trinity是一個基于記憶體的資料存儲與運算系統，目前在微軟為Probase和AEther這兩個産品服務。

專有工具、開源工具你選誰？

海量資料正在不斷生成，對于急需改變自己傳統IT架構的企業而言，傳統的結構化資料與非結構化資料的融合，成了所有人的心病，憑心而論，在 Google公開其Megastore之前，類似象金融、電信這樣的客戶，很少敢于将自己的資料系統做全面的遷移，而這對于傳統的結構化資料廠商來說，無疑是給了一個喘息的機會。

短期來講，開源分析将越來越廣泛的使用，并且增長迅速。長期來看，混合技術的應用将在高度競争的市場上出現，兩者将同樣有巨大的需求。

提供了處理大資料分析能力的專有軟體包括AsterData；IBM的專有軟體Netezza、Datameer, 建立在Apache的Hadoop上的專有軟體以及Paraccel。

此外，Oracle 的Exadata以及EMC的Greenplum也是處理大資料量的專有工具。EMC引入了Greenplum資料庫的免費社群版本，該社群版本隻是軟件。Greenplum社群報表包括3個協作子產品Greenplum DB, MADlib, 和Alpine Miner。

處理大資料量的開源工具包括Hadoop、Map/Reduce，以及Jaspersoft 的BI工具。

Jaspersoft提供的BI工具，提供了報告、分析、ETLETL (解壓、轉換、加載) ，針對大量的并行分析資料庫，包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地報告，通過Hadoop和各種類型的NoSQL資料庫包括MongoDB, Riak, CouchDB and Infinispan的開源連接配接。

greenplum hadoop dryad emc ibm mapreduce

上一篇: 可變長參數一、可變長形參之*二、可變長實參之*三、可變長形參之**四、可變長實參之**五、可變長參數應用六、命名關鍵字形參

下一篇: 安裝synopsys EDA工具vcs+verdi license生成器

繼續閱讀