目錄
- 寫在前面
- 功能介紹
- 功能詳解
- 寫在最後
寫在前面
繼解釋此增長/下降和分析此分布的不同之處過後,Power BI在2月份又抛出了一枚重磅炸彈——Key Influencers Visualization,翻譯過來:關鍵影響因素可視化元件。可見Power BI對這個AI黑科技的定位不同于前兩者,它是作為可視化元件的身份,希望使用者能時刻将這個功能使用在自己的報表當中,具有舉足輕重的地位。
原文連結:Key influencers visualization
執行個體檔案連結:Microsoft/powerbi-desktop-samples
Power BI 2月份更新說明連結:Power BI Desktop February 2019 Feature Summary
功能介紹
-
功能入口
該功能現在還在測試中,是以需要現在在預覽中開啟,具體操作方式:
檔案→選項和設定→選項→預覽功能→關鍵影響者視覺對象→确定
重新開機BI後,在右側可視化視窗中,便會出現關鍵影響因素元件。 -
功能介紹
打開使用者回報(customerfeedback.pbix)示例檔案,選擇富案件影響因素可視化元件,發現它隻需要添加兩個字段:分析、解釋依據。
分析(Analyze):将需要分析的結果放入其中,如股票的漲跌、門店的活躍、使用者的打分、空氣的品質等,一定要是分類的字段,如果是一連串的數字,Power BI會提示資料量過多結果可能不準确。
解釋依據(Explain by):将可能導緻分析結果的原因放入其中,如天氣、地區、年齡、行業、日期等。
本文根據執行個體同樣選取以下字段進行分析:
最終的分析界面如下:①.切換控件:分為關鍵影響因素和排名靠前的分段。關鍵影響因素分析導緻目前結果的關鍵性原因有哪些,并按照影響程度降序排列;排名靠前的分段,将影響因素組合,并按照導緻結果的可能性進行分段。
②.下拉選擇:分析的結果有好有壞,評分有高有低,按照使用者的選擇,來進行原因分析。本文選擇的是Rating為Low時的結果。
③.圖表标頭:幫助使用者了解左側圖表表達的内容。
④.圖表界面:圖表按照可能性降序列出了各個影響因素。
⑤.圖表标頭:幫助使用者了解右側圖表表達的内容。
⑥.圖表界面:左側標明某影響因素後(綠色高亮顯示),右側柱狀圖展示該因素所在次元下的所有字段(標明的因素呈綠色高亮顯示,其餘的呈黑色)。
⑦.平均線:除了標明的因素,其餘所有因素可能性的平均值。
⑧.主要因素篩選:點選後,柱狀圖隻顯示是影響因素的值。
功能詳解
-
關鍵影響因素
将導緻結果的重要因素一一列舉。
本文分析影響Rating為Low的因素有哪些,在②中選擇Low後,④中立即顯示出主要的影響因素。
比如Role in Org字段為consumer時,Rating是Low的可能性是Rating的其他所有值(本文中為High)的2.57倍,換言之,此時Low的機率是High的機率的2.57倍。
這個2.57是怎麼來的,很多文章并沒有對此進行說明。(甚至還有說不知道的!!!認真看過原文檔了嗎?)官網文檔寫得很清楚,原話:Consumers are therefore 2.57x more likely to give a low score compared to all other roles (difference between green bar and red dotted line)。意思是,這個2.57就是右側柱狀圖綠色圖機率值14.93%和平均線值5.78%的比值。
剛解決了一個值2.57,又多了兩個值14.93%和5.78%,那這兩個值又是怎麼來的呢?
其實,隻要把Role in Org、Rating、以及Customer ID的計數(資料表中最小顆粒度計數)拉出來一看便知。
Role in Org有三個狀态:administrator、consumer、publisher,各個狀态下的Rating都有High和Low兩個評分。顯然:
4373/(4373+24919) = 14.93%, 即為:Role in Org取consumer時,Low所占比重,同理:
390/(390+2516) = 13.42%, 即為:Role in Org取administrator時,Low所占比重
530/(530+12490) = 4.07%, 即為:Role in Org取publisher時,Low所占比重
那麼,平均線的數值也很好了解了,即為:
(390+530)/(390+2516+530+12490) = 5.78%
搞定!弄清楚了這些數字的來源,可以直接搞懂兩個問題:
1、左邊這些排序的依據是按照可能性的倍數來的,那麼倍數的來曆是什麼?
2、右邊柱狀圖的數值和平均線的數值的來曆是什麼?
剩下的内容同學們自己根據AI的結果去分析。
-
排名靠前的分段
看各個因素的組合如何來影響正在分析的結果。
标頭講得很清楚,BI分了4個分段,并按照Rating為Low的比率将這4各分段進行了排名。氣泡的大小說明了資料量的大小,點選每一個氣泡,可以下鑽,檢視詳細資訊。
點選30.8%這個氣泡,出現對該分段的詳細說明:
①.分段内容:該分段裡面選取了哪些字段的哪些狀态?
②.分段機率:該分段下,目标結果Low的占比,以及和整體占比的比較。
③.資料體量:該分段下,所包含的資料量是多少?
④.分段的詳情:進一步了解分段,部分分段沒有此選擇。
30.8%以及其他的數值,計算依據仍是按照本文所說的方法,計算得到的。但是BI為什麼會這樣來選取分段,原文檔并未給出解釋,本文也正在摸索當中。 (能摸索出這個原因,相信對這個控件的了解也會更深刻了吧)
寫在最後
- 關鍵因素的排序規則和數學計算依據,本文将其整理出。其實官網在後續的問題清單中對此進行了詳細說明,有興趣的同學可以去研究一下,關鍵影響因素采用了邏輯回歸的算法, 而排名靠前的分段采用了決策樹的算法。
- 關鍵影響因素的許多其他功能,本文均未介紹:比如影響因素為一系列資料點、路徑成本或彙總值時的分析;“詳細了解此分段”的介紹。
- 由于該功能還在預覽中,BI Desktop使用時偶爾會出現崩潰。不會是本人電腦的緣故吧……
- 如果将影響股票漲跌的因素全部羅列,導入到BI中分析,說不定能得到什麼有用的結論呢。