天天看點

myfirstBI項目總結

app 應用資訊統計:

saiku安裝:http://blog.csdn.net/longshenlmj/article/details/17359645

workbench解壓即用,http://blog.csdn.net/longshenlmj/article/details/17530379

流程:

1,從hive上導入每天的app應用資訊,來自各個網站,基本字段根據經驗。

2,用kettle清洗設計,導入mysql

3,workbench連接配接好sql,設計XXX.xml的cube檔案。

4,将cube檔案通過saiku呈現。相關配置使用的細節,見上面的檔案saiku安裝。

worbench的緯度:從一個角度(另一個表的某個屬性)看事實表中的資料統計資訊(事實表ft要有對應的字段)。總結:次元表的column設定項與事實表中對應字段(設定在cube的foreign key)關聯

一個緯度表,通過自身的某個鍵,和事實表的某個鍵關聯。dimension的foreign key和level中column的設定。注意level中的顯示列為空,則預設用上面的比較列,設定要顯示的列内容,比如顯示年份,用date_value進行比較,滿足了,在顯示同一行上的另一個列的内容。

saiku資料呈現:同一個dim下的level不能分開到row和column上,隻能同時在一個上。

myfirstBI項目總結

  dim上是的個數,行列都是dim,事實表中同時滿足兩個次元條件的元組個數。

  measure是統計量,用于統計一列上的個數。比如downloads。統計的是事實表上的一列的值。另一方向放次元就表示,按不同次元值分别進行統計。多個次元,則多個滿足條件下的統計。

   注意,measure行列都可以放,想橫着看,還是豎着看,就放到對應位置就行了。統計過程和統計結果不會發生改變(都是統計事實表中的一列)。measure和dim可以放到一起

myfirstBI項目總結

   另外,在右邊的尾部有加圖功能,是以按日期看增長量。下圖中就是有問題的,出現下降,說明資料有錯誤。

myfirstBI項目總結

(再比如,統計每天的下載下傳量,按取值區間統計,觀察是否符合正态分布,如果大值處依舊很高,說明作弊的可能性很大)

 小測試,時間次元用次元表的dataval(次元表的column設定項),與事實表的date_value(cube的foreign key)關聯,可以統計每天的資訊。

 level的type選regular,其它類型time_XXX還在測試中?