天天看點

什麼是大資料架構?

大資料架構是用于攝取和處理大量資料(通常稱為“大資料”)的總體系統,是以可以針對業務目的進行分析。該架構可視為基于組織業務需求的大資料解決方案的藍圖。

大資料架構是用于攝取和處理大量資料(通常稱為“大資料”)的總體系統,是以可以針對業務目的進行分析。該架構可視為基于組織業務需求的大資料解決方案的藍圖。大資料架構旨在處理以下類型的工作:

•批量處理大資料源。

•實時處理大資料。

•預測分析和機器學習。

精心設計的大資料架構可以節省企業資金,并幫助其預測未來趨勢,進而做出明智的業務決策。

|| 大資料架構的好處

可用于分析的資料量每天都在增長。而且,流媒體資源比以往更多,其中包括流量傳感器、健康傳感器、事務日志和活動日志中提供的資料。但擁有資料隻是業務成功的一半。企業還需要能夠了解資料,并及時使用它來影響關鍵決策。使用大資料架構可以幫助企業節省資金并做出關鍵決策,其中包括:

•降低成本。在存儲大量資料時,Hadoop和基于雲計算的分析等大資料技術可以顯著地降低成本。

•做出更快、更好的決策。使用大資料架構的流元件,企業可以實時做出決策。

•預測未來需求并建立新産品。大資料可以幫助企業衡量客戶需求并使用分析預測未來趨勢。

 我自己整理的一份最新的大資料進階資料和進階開發教程,大資料學習群:522189307   歡迎進階中和進想深入大資料的小夥伴加入。

|| 大資料架構的挑戰

如果做得好,大資料架構可以為企業節省資金,并幫助預測重要的趨勢,但它并非沒有挑戰。在處理大資料時,需要注意以下問題:

(1)資料品質

無論何時使用各種資料源,資料品質都是一項挑戰。這意味着企業需要做的工作是確定資料格式比對,并且沒有重複資料或缺少資料将會使分析不可靠。企業需要先分析和準備資料,然後才能将其與其他資料一起進行分析。

(2)擴充

大資料的價值在于其數量。但是,這也可能成為一個重要問題。如果企業尚未設計架構以進行擴充,則可能會很快遇到問題。首先,如果企業不計劃支援基礎設施,那麼支援基礎設施的成本就會增加。這可能會給企業的預算帶來負擔。其次,如果企業不打算進行擴充,那麼其性能可能會顯著下降。這兩個問題都應該在建構大資料架構的規劃階段得到解決。

(3)安全性

雖然大資料可以為企業提供對資料的深入了解,但保護這些資料仍然具有挑戰性。欺詐者和黑客可能對企業的資料非常感興趣,他們可能會嘗試添加自己的僞造資料或浏覽企業的資料以擷取敏感資訊。網絡犯罪分子可以制作資料并将其引入其資料湖。例如,假設企業跟蹤網站點選次數以發現流量中的異常模式,并在其網站上查找犯罪活動,網絡犯罪分子可以滲透企業的系統,在企業的大資料中可以找到大量的敏感資訊,如果企業沒有保護周邊環境,加密資料并努力匿名化資料以移除敏感資訊的話,網絡犯罪分子可能會挖掘其資料以擷取這些資訊。

|| 大資料架構因公司的基礎設施和需求而異,但通常包含以下元件:

•資料源。所有大資料架構都從源代碼開始。這可以包括來自資料庫的資料、來自實時源(如物聯網裝置)的資料,以及從應用程式(如Windows日志)生成的靜态檔案。

•實時消息接收。如果有實時源,則需要在架構中建構一種機制來攝取資料。

•資料存儲。企業需要存儲将通過大資料架構處理的資料。通常,資料将存儲在資料湖中,這是一個可以輕松擴充的大型非結構化資料庫。

•批處理和實時處理的組合。企業需要同時處理實時資料和靜态資料,是以應在大資料架構中内置批量和實時處理的組合。這是因為可以使用批處理有效地處理大量資料,而實時資料需要立即處理才能帶來價值。批處理涉及到長時間運作的作業,用于篩選、聚合和準備資料進行分析。

•分析資料存儲。準備好要分析的資料後,需要将它們放在一個位置,以便對整個資料集進行分析。分析資料存儲的重要性在于,企業的所有資料都集中在一個位置,是以其分析将是全面的,并且針對分析而非事務進行了優化。這可能采取基于雲計算的資料倉庫或關系資料庫的形式,具體取決于企業的需求。

•分析或報告工具。在攝取和處理各種資料源之後,企業需要包含一個分析資料的工具。通常,企業将使用BI(商業智能)工具來完成這項工作,并且可能需要資料科學家來探索資料。

•自動化。通過這些不同的系統移動資料需要通常以某種形式的自動化進行編排。資料的攝取和轉換、批量移動和流處理,将其加載到分析資料存儲,最後獲得洞察力必須在可重複的工作流程中,以便企業可以不斷從大資料中擷取洞察力。