資料湖本身是一個中心化的存儲,能夠存儲任意規模的結構化與非結構化資料。資料湖相比資料倉庫有很多的優勢,但大多是在理想狀态下的,一旦執行起來還有很多技術挑戰。
(一)資料湖的資料可能并不會真正做到實時。在業務環境下,如果把所有資料都放到資料湖裡,那麼從資料湖直接調用資料的過程可能比原來資料倉庫更慢,因為從資料湖中提取出來的資料,依然要經過清洗實作标準化後才能更好的利用。具體能否達到需求的低延遲時間效果,還要根據具體應用場景來進行判斷。
(二)把所有的原始資料都放到資料湖,可能會提升資料的使用難度。對于大型企業而言,業務内容豐富,作業系統繁雜,資料使用者往往期望所有的資料都能平民化,就像資料倉庫提供的那種經過了精心處理的資料,能夠輕松排程和使用來實作對業務的指導。如果是資料湖提供的原始化資料,其本身是很複雜的,資料專家進行了解和處理時或許難度适中,但大多數的平民使用者能否消化、了解并利用這些資料,将會是一個巨大的疑問。
(三)資料治理問題。資料倉庫裡的資料是經過整理、清晰易懂的。但資料湖的概念是不經處理直接進行堆砌,那麼資料湖就有可能會變成“資料沼澤”,篩選難度會變大。當然,資料湖的優勢就是資料可以先作為資産存放起來,問題就在于如何把這些資料在業務中利用起來。當部署了資料湖之後,資料治理問題将會接踵而至,比如從資料湖到資料池塘,如何将資料進行分流、池塘的資料如何進行整理等。
本文來源于:奈學開發者社群