天天看點

何為大資料架構?

大資料架構是用以提取和處理海量資料(一般稱之為“大資料”)的整體系統,因而能夠針對業務目的進行分析整理。該架構可視作基于機構業務需求的大資料解決方案的藍圖。

大資料架構旨在處理下列類别的業務:

•批量處理大資料源。

•實時處理大資料。

•分析預測和機器學習。

大資料架構的好處

可用以分析的資料量每日都在增長。并且,流媒體資源比過去更多,其中包括流量傳感器、健康傳感器、事務日志和活動日志中提供的資料。但擁有資料僅是業務成功的一半。公司還必須能夠了解資料,并及時應用它來影響重要決策。應用大資料架構能夠幫助公司減少财力并做出重要決策,其中包括:

•控制成本。在存儲大批量資料時,Hadoop和基于雲計算的分析等大資料技術能夠明顯地節省成本。

•做出更快、更好的決策。應用大資料架構的流元件,公司能夠及時做出決策。

•預測未來需求并建立新品。大資料能夠協助公司考量客戶需求并使用預測分析未來發展趨勢。

大資料架構的挑戰

假如做得好,大資料架構能夠為公司節約資金,并協助分折關鍵的趨勢,但它并不是沒有挑戰。在處理大資料時,必須留意下列問題:

(1)資料品質

不論什麼時候使用各種資料源,資料品質都是一項挑戰。這代表着公司需要做的工作是保障資料格式比對,而且沒有重複資料或缺失資料将會使分析不可信。公司需要先分析和準備資料,随後才能将其與其它資料一同開展分析。

(2)擴充

大資料的價值在于其數目。可是,這也将會變成一個關鍵難題。假如公司并未設計架構以進行擴充,則或者會很快碰到問題。最先,假如公司不計劃支援基礎建設,那樣支援基礎設施的成本就會增多。這将會會給公司的預決算産生負擔。另一方面,假如公司不準備進行擴充,那樣其性能将會會明顯下降。這兩個問題都應當在建構大資料架構的規劃環節取得解決。

(3)安全性

盡管大資料能夠為公司提供對資料的深層次了解,但保護這些資料依然有着挑戰性。欺詐者和黑客或者對公司的資料十分感興趣,他們或者會試着添加自己的假造資料或浏覽公司的資料以獲得敏感資訊。網際網路犯罪嫌疑人能夠制做資料并将其導入其資料湖。比如,假定公司追蹤網頁單擊頻次以發覺流量中的不正常模式,并在其網頁上搜尋犯罪活動,網際網路犯罪嫌疑人能夠滲透公司的系統,在公司的大資料中能夠尋找大批量的敏感資訊,假如公司沒有保護周圍環境,加密資料并努力匿名化資料以清除敏感資訊的話,網際網路犯罪嫌疑人可能會發掘其資料以獲得這些資訊。

大資料架構因企業的基礎設施和需求而異,但一般包括以下元件:

•資料源。所有大資料架構都從源代碼開始。這可以包含來源于資料庫的資料、來自實時源(如物聯網裝置)的資料,及其從應用程式(如Windows日志)生成的靜态檔案。

•實時消息接收。假如有實時源,則需要在架構中建構一種機制來攝入資料。

•資料存儲。公司需要存儲将通過大資料架構處理的資料。一般而言,資料将存儲在資料湖中,這是一個可以輕松擴充的大型非結構化資料庫。

•批處理和實時處理的組合。公司需要同時處理實時資料和靜态資料,因而應在大資料架構中内置批量和實時處理的組合。這是由于能夠應用批處理有效地處理大批量資料,而實時資料需要立刻處理才能夠帶來價值。批處理涉及到長期運轉的作業,用于篩選、聚合和準備資料開展分析。

•分析資料存儲。準備好要分析的資料後,需要将它們放到一個位置,便于對整個資料集開展分析。分析資料儲存的必要性在于,公司的全部資料都聚集在一個位置,因而其分析将是全面的,而且針對分析而非事務進行了優化。這可能采用基于雲計算的資料倉庫或關系資料庫的形式,具體取決于公司的需求。

•分析或報告工具。在攝入和處理各類資料源之後,公司需要包含一個分析資料的工具。一般而言,公司将使用BI(商業智能)工具來完成這項工作,而且或者需要資料科學家來探索資料。