天天看點

Hadoop工具如何形成SAP Hana的大資料平台

自2008年以來,sap hana一直是領先的資料庫管理系統之一。它比許多其他資料庫管了解決方案能夠更有效地處理資料,主要是因為它可以使用一些最先進的hadoop工具。沒有hadoop,大多數sap hana資料庫将是相對無用的。通路大多數資料集将是困難的,特别是在它們存儲原始資料的時候。

Hadoop工具如何形成SAP Hana的大資料平台

邁克爾·考克斯和戴維·埃爾斯沃斯在1997年發表的“資料可視化應用控制需求調查”一文中提出了大資料這一術語。然而,大資料的應用直到最近才變得真正可行。

這個問題與存儲容量無關。雲計算的進步地指數級增加了人們存儲資料的能力。然而,在存儲資料後,通路資料是另一個問題。大多數資料提取工具可以從存儲數tb資料的資料陣列中擷取。據資料科學中心稱,它将一些應用的資料可通路性提高了109%。

許多資料已經以非結構化格式存儲,這可能難以提取,開發hadoop來使流程更容易。

一些sap hana解決方案允許使用者存儲高達4.6tb的資料。然而,資料通常以不同的檔案類型存儲,這些檔案類型很難以一緻的格式提取群組織。hadoop使得這個過程更加簡單容易。

将sap hana與hadoop內建可以使通路遠端資料叢集變得更加容易。但是,設定是一個耗時的過程。第一步是設定和安裝叢集。架構可以通過幾種方式建構:

• 内部部署群集本地叢集模型是處理需要少于50個節點的特定位置的項目的理想選擇。

• 基于雲計算的群集。如果使用者需要在大型地理位置進行協調,或者需要超過50個節點,那麼基于雲計算的群集就會更好。

• 确定正确的群集後,使用者将需要建立一個測試環境。cloudera director是其中一個更好的模型。

• 執行幾個測試模拟後,使用者可以使用hadoop來通路saphana智能資料。

使用hadoop與sap hana有什麼好處?

sap hana管理者使用hadoop有很多原因。許多人選擇在hana上使用sapui5,因為它具有特殊的hadoop基礎設施。

成本效益

據戴爾emc公司介紹,成本效益是整合hadoop和sap hana的主要原因之一。其成本節省取決于存儲的資料量,而不管資料是否是結構化的,非結構化,還是半結構化的。

“vmax所有閃存陣列通常由各種存儲組,sap ana生産和非生産資料庫以及非sap hana工作負載組成,每個都具有自己的存儲弦cr。是以,整個系統cr是各種底層存儲組比率的組合。通過工作負載的正常組合,您可以看到大約2:1的系統cr。該比例可能會更高或更低,具體取決于工作負載組合。當内聯壓縮與其他vmaxallflash節省空間的功能(如虛拟配置,零空間回收和節省空間的快照)相結合時,可實作4:1的總體效率。

快速響應時間

響應時間,可擴充性和可靠性之間存在權衡。hadoop優先考慮快速響應時間,是以它是管理者需要緊急通路資料的應用程式的理想選擇。對于可擴充性更為關注的應用程式,hadoop可能不太可取。

使用者将需要首先概述其優先級。然而,由于大多數sap hana使用者的優先權是大多數權宜之計,是以hadoop通常是他們的解決方案。

批處理和挖掘原始資料

使用更原始的大資料提取工具難以擷取原始資料。hadoop使它更容易,這是sap ana應用程式中廣泛使用的主要原因之一。

實體hadoop架構是sap ana應用程式的關鍵

當使用者設定sap hana資料環境時,幾乎總是需要将其與hadoop進行內建。否則通路非結構化資料将是非常困難的。

原文釋出時間為:2017年7月24日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。