焱融看｜非結構化資料場景下，資料湖到底有多香？

目前，雲計算、人工智能、物聯網等技術在各行各業更加廣泛地普及與應用，前沿技術在給社會創造價值以外，也在産生着大量的資料，導緻資料的管理和價值挖掘變得愈加複雜和困難。這主要是因為，一方面，資料在不斷增長，根據 IDC 的預測，全球資料總量預計到 2025 年将達到 175ZB。據調查，很多企業每年的資料增長量超過了 60%，部分網際網路企業的資料量呈現指數式增長；另一方面，資料類型多樣，出現了大量文本、圖檔、音頻和視訊等非結構化資料。

然而，由于過去缺乏有效的資料處理機制，這些大量的資料，分散于各處，難以管理。是以，如何最大化釋放大資料帶來的價值，不僅成為各個企業關注的重點，也成為如今讓資料湖被高度重視的關鍵原因。那到底什麼是資料湖呢？今天我們就來一探究竟。

什麼是資料湖

資料湖是一個被定義為集中且可擴充的存儲庫，它主要是以本機格式儲存來自多個源和系統的大量原始大資料。

舉個例子，我們可以把資料湖看作是一個真實的湖，其中彙聚成湖裡的水則是原始資料，它們分别從多個資料源流入，然後再流出，用于滿足支援内部和面向客戶的需求和目的。資料湖比資料倉庫更廣泛，資料倉庫更像是一個家用水箱，它主要是存儲“淨化水”，也就是結構化資料，且隻能用于一個特定的房子，而不是在任何場景下都可以使用的。

資料湖可以使用内部建構的工具，或第三方供應商的軟體和服務來執行。根據外研機構 Markets and Markets 的資料，全球資料湖軟體和服務市場預計将從 2019 年的 79 億美元增長到 2024 年的 201 億美元。預計大量供應商将推動這一增長，包括 Databricks、AWS、Dremio、Qubole 和 MongoDB。目前，已經有許多組織開始提供所謂的 Lakehouse 産品，通過單一産品将資料湖和資料倉庫的優勢結合起來。

資料湖的概念是先加載後使用，這意味着存儲在存儲庫中的資料，不一定要立即用于特定目的。它可以按原樣轉儲，并在未來某個階段随着業務需求的出現而全部一起使用（或部分使用）。這種靈活性和存儲海量資料的結合，使得資料湖成為企業内資料實驗、機器學習和進階分析應用程式的理想選擇。

資料湖有什麼好處

資料倉庫僅為某些預定義的商業智能、報告應用程式存儲經過處理的結構化資料（按行和列組織），但是資料湖具有無限存儲一切的潛力，資料可以是是結構化資料、半結構化資料，甚至是非結構化資料，比如圖像（.jpg）和視訊（.mp4）。

資料湖對企業的好處包括：

存儲擴充資料類型多樣化：由于資料湖提供了存儲所有資料類型的能力，包括對執行進階分析形式至關重要的資料類型。企業可以利用它們來識别機會和可操作的建議，進而有助于企業提高營運效率、增加收入、節省資金和降低風險。

擴充資料分析帶來的收入增長：根據阿伯丁的一項調查（Angling for Insight in Today's Data Lake），實施資料湖的機構在收入有機增長方面，比同類公司高出 9%。這些公司能夠對存儲在資料湖中的先前未使用的資料，比如日志檔案、點選流資料、社交媒體資料和聯網裝置資料中，進行新型分析。

來自孤島的統一資料：資料湖還可以集中來自不同部門孤島、大型機和遺留系統的資訊，進而減輕其個人容量的負擔，防止資料重複等問題，并為使用者提供 360 度的視圖。同時，他們可以将儲存資料成本保持在較低的水準，以備未來使用。

增強的資料捕獲，包括物聯網：組織可以實作資料湖，從多個來源（包括工廠和倉庫中的物聯網裝置傳感器）吸收資料。這些資源可以是内部，或面向客戶資料的統一資料湖。面向客戶的資料可以幫助營銷、銷售和客戶管理團隊，為每一位客戶提供最新和統一的資訊來策劃全管道的活動，而内部資料則用于整體員工和财務管理戰略。

借助資料湖，大量企業内部技術高效地支撐了不同資料分析場景，滿足業務資料分析對于彈性擴充吞吐的需求。同時，資料湖多樣的存儲類型，也讓存儲成本有了更多的優化空間。

非結構化資料存儲，是否有更優解？

資料湖最大的優勢之一就是，可以輕松實作非結構化資料的采集、存儲和分析，幫助企業解決了一定的問題，但目前資料湖仍然面臨資料治理的問題。在資料湖中的資料往往大多采用不同的基于檔案的格式，但資料倉庫主要是資料庫格式，這增加了資料治理和兩種存儲類型之間沿襲管理的複雜性。

為此，焱融科技希望能幫助企業使用者打造更高效、精準的資料平台，實作存儲資源可以有效且高效的全生命周期管理。同時，提供高性能、低延遲的資料服務能力，保證各業務系統平穩運作的基礎。

YRCloudFile 是一款在經過企業和使用者訪談、技術交流、全面測試以及版本疊代推出的非結構化資料統一存儲平台，它可以在公有雲、私有雲環境下為客戶提供高性能、高擴充以及雲原生的非結構化資料存儲系統。其核心産品特色是具備高性能特性，借助這一特性，YRCloudFile 可在人工智能、自動駕駛領域中的訓練環節，以及高計算環境中的資料加載運算階段提供高速、穩定的資料通路能力。

YRCloudFile 産品構架圖

YRCloudFile 産品架構經典特點：

海量小檔案下的高性能，采用中繼資料節點叢集化、多級智能緩存、智能預讀等多種技術，深度優化海量檔案讀寫性能、目錄通路熱點等問題；

雲原生容器存儲，提供了标準 CSI 接口，支援 PV 配額、Resize、QoS，分别從容量、IO 性能上對存儲資源做了隔離與規劃，通過 PV Insight 幫助管理者檢視存儲卷内部資料分布和冷熱情況；

支援公有雲、混合雲，實作在阿裡雲、騰訊雲、AWS 等公有雲上實作一鍵部署，在公有雲上提供高性能的檔案存儲服務，并通過冷熱資料分層功能使資料在不同層級之間流動，進而降低存儲的總體擁有成本。

焱融看｜非結構化資料場景下，資料湖到底有多香？

繼續閱讀

服裝新科技！香港大學研制出防水防油物料，将使不洗衣服成為可能

虛拟主機會影響到SEO嗎

解讀2008年網絡技術熱詞之雲計算

《eWEEK》：09年5大科技發展趨勢雲計算居首

阿裡巴巴分布式服務架構 Dubbo 團隊成員梁飛專訪

資料遷移方法資料遷移原則資料遷移之雙寫方案資料遷移之級聯同步方案

微服務-性能壓測\緩存redis和分布式鎖redisson和SpringCache

Nacos 2.0 更新前後性能對比壓測

Spring資料和Redis

redis叢集資料一緻性_RedisRaft為Redis叢集帶來強大的資料一緻性

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

celery使用入門

雲計算面試題及答案，雲計算主要就業崗位

雲計算面試題——mysql/存儲引擎/備份

雲計算面試題——檔案/權限/分區/軟體包管理

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例