儲存方面:資料湖中資料為非結構化的,所有資料都保持原始形式;存儲所有資料,并且僅在分析時再進行轉換。資料倉庫就是資料通常從事務系統中提取,在将資料加載到資料倉庫之前,會對資料進行清理與轉換。
資料組織形式:資料湖就是捕獲半結構化和非結構化資料。而資料倉庫則是捕獲結構化資料并将其按模式組織。
用途:資料湖的目的就是資料湖非常适合深入分析的非結構化資料。資料科學家可能會用具有預測模組化和統計分析等功能的進階分析工具。而資料倉庫就是資料倉庫非常适用于月度報告等操作用途,因為它具有高度結構化。
Schema:資料湖通常在存儲資料之後定義schema,使用較少的初始工作并提供更大的靈活性。在資料倉庫中存儲資料之前定義schema,這需要你清理和規範化資料,這意味着schema的靈活性要低不少。
本文來源于:奈學開發者社群