最近,IT行業專家在參加相關會議時發現了一個隐藏的主題,那就是雖然很多人将關注的重點轉移到基于雲計算的架構(混合雲)以及所需要的雲管理平台,但會議的報告表明,很多人都承認并沒有密切關注全球數字資料量的巨大增長。
存儲供應商PureStorage公司的演講報告引用了其他兩家供應商的兩個資料點:首先,思科公司2017年6月釋出的白皮書“Zettabyte時代:趨勢與分析”推斷了網際網路帶寬的增長。其次是由希捷公司委托IDC公司進行研究的調查報告“資料時代2025”推測了全球資料增長的趨勢。PureStorage公司結合了這兩家公司的推斷,得出了結論。如下圖所示。
PureStorage公司的報告描述了全球資料增長和全球網際網路帶寬增長之間的沖突
如果這些趨勢成為現實,并且有足夠的理由認為這些預測是合理的,那麼這些趨勢将在未來幾年對計算和資料格局産生重大影響。并将對雲計算的應用産生特别的影響。注意:雲計算是真實的,将成為未來IT環境的重要組成部分,但是IT部門認為它是一種靈丹妙藥這種簡單化的想法,會讓人想起當初網絡熱潮的破滅。而人們知道将會有什麼樣的結果。
不能回避的問題
無論如何,所有IT都有兩個核心要素:資料與資料的邏輯。每個使用大資料的人都知道:要使用大量的資料,首先需要對資料進行處理,而其處理都會産生一個傳輸瓶頸,并嚴重影響其性能,并且這種邏輯的任何功能都變成純粹的理論。
即使有少量的資料,這也可能是因為延遲而發生。例如,企業将其應用程式伺服器遷移到雲端,同時将資料庫伺服器保留在本地,這可能在理論上可行,但是當應用程式對資料庫與資料庫之間的網絡延遲敏感時,就根本不起作用。對于少量的資料來說,情況就是如此。這就是為什麼許多組織都在嘗試調整軟體的原因,使其對延遲的敏感度降低,進而能夠進入雲端。但是,如果資料量很大,則需要将資料處理和資料彼此靠近,否則就無法工作。企業增加對大量并行性的需求來處理這些資料,并獲得Hadoop和其他處理大量資料問題的體系結構。
現在,全球的資料量呈指數增長。如果IDC公司的推測成為事實的話,那麼在幾年的時間裡,全世界将存儲大約50ZB的資料。另一方面,雖然網際網路傳輸資料的總容量也在增長,但增長速度更為緩慢。在全球資料量增長到50ZB的同一時期,網際網路總帶寬将達到每年2.5ZB(如果思科的推斷成為事實的話)。
從這兩個推斷(并不是不合理的)中得出的結論是,全球可用的網際網路帶寬遠遠不能滿足移動大量資料的需求。而且這也忽略了目前大約80%的帶寬用于流媒體視訊的事實。是以,即使企業已經針對核心應用程式中的延遲問題編寫了代碼,對于資料量較大的情況,也會出現帶寬問題。
現在這個隐患實際上成為了一個問題嗎?如果處理或使用這些資料在本地部署的資料中心發生的話,也就是說在同一個資料中心中存儲資料。但是,一方面,資料量呈指數增長,另一方面,全球各行業也在積極尋求雲戰略,就是把将所有類型的工作負載都遷移到雲端,即使是“無伺服器”(例如,AWS Lambda),這樣的做法也是絕對極端的。
假設隻有小規模的結果(從龐大的資料集中計算出來)也許會有所幫助,因為大量資料的實際價值來自它們的結合。這可能意味着将來自不同所有者的資料(例如企業的客戶記錄與來自Twitter的資料)結合起來。而這所有不同的集合将會成為一個難題。
是以,人們看到的是兩個相反的事态發展。一方面,人們都忙于适應基于雲的體系結構,這種體系結構最終是基于分布式資料的分布式處理。另一方面,人們使用的資料量越來越大,必須将資料和處理整合到一個實體位置。
那麼這意味着什麼
人們可以預期,Hadoop在應用程式架構層面所做的工作也将在全球範圍内發生:龐大的資料集将成為使資料的邏輯具有意義的吸引力。而那些龐大的資料集将會被吸引到一起。
舉個例子:許多公司現在都在努力減少移動資料的需求。是以,在物聯網領域有很多關于邊緣計算的讨論:本地處理傳感器和其他物聯網裝置的資料。當然,這也意味着處理過程也必須是本地化的,可以放心地假設一下,企業不會在一組傳感器中擁有同樣的計算能力,而不是在大分析中可以做到的設定。或者:也許自主駕駛汽車的資料很可能不會再采用Hadoop叢集,而可以通過這種方式來最小化資料流量,但以計算量為代價。
這個問題還有另一個解決方案:與資料中心結合在一起。資料中心托管提供商提供的服務正在崛起。他們提供具有優化内部流量功能的大型資料中心,雲計算提供商和大型雲使用者的伺服器都在一起。從邏輯上講,使用者的業務可能在雲端,但實際上與雲計算服務提供商在同一處所。
企業不僅想在AWS或Azure上運作其邏輯資料,也想在資料中心這樣做,企業也有自己的私有資料湖,是以所有的資料都在本地處理,資料聚合也在本地。但是資料中心托管模式是另一種可能的解決方案,用于解決因資料呈指數級增長而帶來的帶寬和延遲問題。
情況可能不像那兩個調查報告描述的那樣可怕。例如,所有資料的實際平均波動率最終将非常低。另一方面,企業不希望在陳舊的資料上運作分析。但是可以得出一個結論:簡單地假設企業可以将其工作負載配置設定給不同的雲提供商是有風險的,尤其是如果同時處理的資料量(如果企業都想把他們自己的資料與來自Twitter、Facebook的資料流結合起來,那麼更不用說這些組合産生了各種各樣的新資料流)。
是以,企業對資料和處理的位置做出良好的戰略設計決策是成功的關鍵。
本文出處:暢享網
本文來自雲栖社群合作夥伴暢享網,了解相關資訊可以關注vsharing.com網站。