天天看點

焱融看|非結構化資料場景下,資料湖到底有多香?

目前,雲計算、人工智能、物聯網等技術在各行各業更加廣泛地普及與應用,前沿技術在給社會創造價值以外,也在産生着大量的資料,導緻資料的管理和價值挖掘變得愈加複雜和困難。這主要是因為,一方面,資料在不斷增長,根據 IDC 的預測,全球資料總量預計到 2025 年将達到 175ZB。據調查,很多企業每年的資料增長量超過了 60%,部分網際網路企業的資料量呈現指數式增長;另一方面,資料類型多樣,出現了大量文本、圖檔、音頻和視訊等非結構化資料。

然而,由于過去缺乏有效的資料處理機制,這些大量的資料,分散于各處,難以管理。是以,如何最大化釋放大資料帶來的價值,不僅成為各個企業關注的重點,也成為如今讓資料湖被高度重視的關鍵原因。那到底什麼是資料湖呢?今天我們就來一探究竟。

什麼是資料湖

資料湖是一個被定義為集中且可擴充的存儲庫,它主要是以本機格式儲存來自多個源和系統的大量原始大資料。

舉個例子,我們可以把資料湖看作是一個真實的湖,其中彙聚成湖裡的水則是原始資料,它們分别從多個資料源流入,然後再流出,用于滿足支援内部和面向客戶的需求和目的。資料湖比資料倉庫更廣泛,資料倉庫更像是一個家用水箱,它主要是存儲“淨化水”,也就是結構化資料,且隻能用于一個特定的房子,而不是在任何場景下都可以使用的。

資料湖可以使用内部建構的工具,或第三方供應商的軟體和服務來執行。根據外研機構 Markets and Markets 的資料,全球資料湖軟體和服務市場預計将從 2019 年的 79 億美元增長到 2024 年的 201 億美元。預計大量供應商将推動這一增長,包括 Databricks、AWS、Dremio、Qubole 和 MongoDB。目前,已經有許多組織開始提供所謂的 Lakehouse 産品,通過單一産品将資料湖和資料倉庫的優勢結合起來。

資料湖的概念是先加載後使用,這意味着存儲在存儲庫中的資料,不一定要立即用于特定目的。它可以按原樣轉儲,并在未來某個階段随着業務需求的出現而全部一起使用(或部分使用)。這種靈活性和存儲海量資料的結合,使得資料湖成為企業内資料實驗、機器學習和進階分析應用程式的理想選擇。

資料湖有什麼好處

資料倉庫僅為某些預定義的商業智能、報告應用程式存儲經過處理的結構化資料(按行和列組織),但是資料湖具有無限存儲一切的潛力,資料可以是是結構化資料、半結構化資料,甚至是非結構化資料,比如圖像(.jpg)和視訊(.mp4)。

資料湖對企業的好處包括:

存儲擴充資料類型多樣化:由于資料湖提供了存儲所有資料類型的能力,包括對執行進階分析形式至關重要的資料類型。企業可以利用它們來識别機會和可操作的建議,進而有助于企業提高營運效率、增加收入、節省資金和降低風險。

擴充資料分析帶來的收入增長:根據阿伯丁的一項調查(Angling for Insight in Today's Data Lake),實施資料湖的機構在收入有機增長方面,比同類公司高出 9%。這些公司能夠對存儲在資料湖中的先前未使用的資料,比如日志檔案、點選流資料、社交媒體資料和聯網裝置資料中,進行新型分析。

來自孤島的統一資料:資料湖還可以集中來自不同部門孤島、大型機和遺留系統的資訊,進而減輕其個人容量的負擔,防止資料重複等問題,并為使用者提供 360 度的視圖。同時,他們可以将儲存資料成本保持在較低的水準,以備未來使用。

增強的資料捕獲,包括物聯網:組織可以實作資料湖,從多個來源(包括工廠和倉庫中的物聯網裝置傳感器)吸收資料。這些資源可以是内部,或面向客戶資料的統一資料湖。面向客戶的資料可以幫助營銷、銷售和客戶管理團隊,為每一位客戶提供最新和統一的資訊來策劃全管道的活動,而内部資料則用于整體員工和财務管理戰略。

借助資料湖,大量企業内部技術高效地支撐了不同資料分析場景,滿足業務資料分析對于彈性擴充吞吐的需求。同時,資料湖多樣的存儲類型,也讓存儲成本有了更多的優化空間。

非結構化資料存儲,是否有更優解?

資料湖最大的優勢之一就是,可以輕松實作非結構化資料的采集、存儲和分析,幫助企業解決了一定的問題,但目前資料湖仍然面臨資料治理的問題。在資料湖中的資料往往大多采用不同的基于檔案的格式,但資料倉庫主要是資料庫格式,這增加了資料治理和兩種存儲類型之間沿襲管理的複雜性。

為此,焱融科技希望能幫助企業使用者打造更高效、精準的資料平台,實作存儲資源可以有效且高效的全生命周期管理。同時,提供高性能、低延遲的資料服務能力,保證各業務系統平穩運作的基礎。

YRCloudFile 是一款在經過企業和使用者訪談、技術交流、全面測試以及版本疊代推出的非結構化資料統一存儲平台,它可以在公有雲、私有雲環境下為客戶提供高性能、高擴充以及雲原生的非結構化資料存儲系統。其核心産品特色是具備高性能特性,借助這一特性,YRCloudFile 可在人工智能、自動駕駛領域中的訓練環節,以及高計算環境中的資料加載運算階段提供高速、穩定的資料通路能力。

焱融看|非結構化資料場景下,資料湖到底有多香?

YRCloudFile 産品構架圖

YRCloudFile 産品架構經典特點:

海量小檔案下的高性能,采用中繼資料節點叢集化、多級智能緩存、智能預讀等多種技術,深度優化海量檔案讀寫性能、目錄通路熱點等問題;

雲原生容器存儲,提供了标準 CSI 接口,支援 PV 配額、Resize、QoS,分别從容量、IO 性能上對存儲資源做了隔離與規劃,通過 PV Insight 幫助管理者檢視存儲卷内部資料分布和冷熱情況;

支援公有雲、混合雲,實作在阿裡雲、騰訊雲、AWS 等公有雲上實作一鍵部署,在公有雲上提供高性能的檔案存儲服務,并通過冷熱資料分層功能使資料在不同層級之間流動,進而降低存儲的總體擁有成本。

繼續閱讀