借助海量的資料,企業進行了深層次的數字化改革,把資料當成了企業發展的核心,但無效的資料即使規模再大,也對企業沒有意義,是以資料品質也就愈發重要。
資料倉庫
事實上,很多人在看到資料倉庫的第一眼,就把資料倉庫當成了資料庫。當然這也很正常,畢竟從名字來看這兩者确實差別不大,真正區分兩者的是定位、作用等更深一層的東西。不過在這裡還是先解釋資料倉庫的概念,不同之處後邊會進行詳細講解。
資料倉庫是一個面向主題的、內建的、随時間變化但資訊本身相對穩定的資料集合,用于支援管理決策過程。其本質就是完成從面向業務過程資料的組織管理到面向業務分析資料的組織和管理的轉變過程,也是商業智能BI中資料倉庫的主要作用。
資料倉庫 - 派可資料商業智能BI可視化分析平台
資料倉庫就像企業的總的大倉庫,能夠存儲不同來源、不同格式的資料,并且可以通過ETL和資料模型,對資料進行高品質的篩選,分級分類進行存儲。具有很強的穩定性,不會頻繁的進行增删改等操作,能夠反應曆史變化。
用通俗的話來說就是資料倉庫就像一個終端的大倉庫,其他小倉庫的各種貨品會通過各種方式統一存儲到這裡,然後通過倉庫位置的劃分、貨品的擺放進行歸納分類,實作規範、标準的從存放,到分類,再到使用的完整過程。
數倉主題域是什麼
讓我們來看看百度上的定義,數倉主題域是指将業務對象高度概括的概念層次歸類,目的是便于資料的管理和應用。
其實說白了,資料倉庫主題域就是把那些關聯緊密但不同的資料主題,交彙融合到一個更大的主題域當中,讓他們能夠憑借相通點更完善的儲存在數倉中,也更容易被分析人員調取利用。
同樣,為了友善了解,舉個例子,一名顧客通過手機在APP上購買了一件衣服,在這個過程中涉及到了顧客主題、庫存主題、産品主題、訂單主題等,這些主題雖然不同但因為關系緊密可以融入到一個更大的主題域。
更簡單粗暴點了解,主題就是主題域的子集。
如何劃分主題域
就和多個主題組合成主題域一樣,主題域自然也能進一步地分解、細化為不同的主題,這些主題也可以再次分解,産生更多的“小主題”,直到觸及業務流程才不能再繼續劃分。
圖檔來源:派可資料
在企業實際搭建資料倉庫時,一般都是把一個比較深層的主題或部分主題當做核心,圍繞它來進行建設。這種建設方式因為涉及到主題的選擇,必須先由最終使用者和資料倉庫建設人員共同确認主題域,然後繼續完成搭建過程。
進行劃分主題域時需要數倉建設人員了解業務流程,通過總結和分析清楚各個不同的業務流程都有哪些業務活動參與其中。
劃分主題域的方法有很多,不同企業采取的方法也有所不同,總的來說,用得最多的有下面幾種。
1.按照業務系統劃分
因為大部分企業都已經經曆過了資訊化建設或者正處于資訊化建設當中,企業各種業務系統都已經部署完成,财務部門有财務系統、銷售部門有銷售系統、生産部門有生産系統、供應鍊部門有供應鍊系統......
這些不同的業務系統,因為隻會儲存對應業務流程中産生的資料,下級資料主題都互相緊貼,是天然的主題域,業務系統有幾種,就可以劃分為幾種主題域。
圖檔來源:派可資料
2.按照需求劃分
很多時候,企業需要長期對某個方向進行分析,因為這個長期分析的過程涉及到各種主題,會對資料進行細分、歸納,在這個過程中,就由需求誕生了主題域。
就拿銷售分析來說,這個分析過程會涉及到的對象有産品、倉庫、經銷商、顧客等,其中每一個分析對象就是一個數倉主題,而包含歸納這些主題的銷售分析就成為了一個相應的主題域。
圖檔來源:派可資料
3.按照功能劃分
在現代社會,軟體是每個加入網際網路的網民都會使用到的東西,這些由企業開發的軟體擁有着不同的功能子產品,比如說社交軟體中就會有聊天、朋友圈、群聊、發送檔案等功能。
從這些功能中選一個子產品,聊天子產品會涉及到資料倉庫中的使用者主題、圖檔主題、文字主題等,是以聊天子產品也能被歸納為聊天主題域。
圖檔來源:派可資料
4.按照部門劃分
現代企業都有着不同的業務部門,這些部門也會形成各種不同的主題域,比如說銷售域、生産域、财務域等,而這些主題域也是由不同的資料主題組成的。
圖檔來源:派可資料