天天看點

《大資料系統建構:可擴充實時資料系統建構原理與最佳實踐》一2.4 SuperWebAnalytics.com的完整資料模型

本節旨在用superwebanalytics.com示例将本章的所有内容聯系起來。我們将從圖2-17開始,它包含了适合我們目标的一個圖模式。

《大資料系統建構:可擴充實時資料系統建構原理與最佳實踐》一2.4 SuperWebAnalytics.com的完整資料模型

圖2-17 superwebanalytics.com的圖模式,其中有兩種節點類型:人和頁面。人節點和它們的屬性是有陰影的,用以區分這兩類節點

在該模式中有兩種類型的節點:人和頁面。正如你所看到的,這裡有兩種截然不同類别的人節點,用以區分有已知辨別的人和隻能使用web浏覽器cookie識别的人。

該模式中的邊相當簡單。頁面浏覽的邊發生在人和頁面之間的每次獨立通路,而當兩個人節點代表了相同的一個人時,他們之間就産生了等效邊。當一個最初隻能通過cookie确認的人在稍後的時間内被完全識别時,就會發生等效邊的情況。

屬性也是不需要加以說明的。頁面有總浏覽數,人有基本的人口統計資訊(姓名、性别和位置)。

基于事實的模型和圖模式的優點之一是,它們可以改變不同類型的資料使其變得可用。圖模式為任意不同的資料提供了一個一緻的接口,是以很容易吸收新類型的資訊。通過定義新的節點、邊和屬性類型來完成模式添加。由于事實的原子性,這些增加不會影響之前存在的事實類型。

繼續閱讀