天天看點

Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後

目錄

  • 寫在前面
  • 功能介紹
  • 功能詳解
  • 寫在最後

寫在前面

繼解釋此增長/下降和分析此分布的不同之處過後,Power BI在2月份又抛出了一枚重磅炸彈——Key Influencers Visualization,翻譯過來:關鍵影響因素可視化元件。可見Power BI對這個AI黑科技的定位不同于前兩者,它是作為可視化元件的身份,希望使用者能時刻将這個功能使用在自己的報表當中,具有舉足輕重的地位。

原文連結:Key influencers visualization

執行個體檔案連結:Microsoft/powerbi-desktop-samples

Power BI 2月份更新說明連結:Power BI Desktop February 2019 Feature Summary

功能介紹

  • 功能入口

    該功能現在還在測試中,是以需要現在在預覽中開啟,具體操作方式:

    檔案→選項和設定→選項→預覽功能→關鍵影響者視覺對象→确定

    Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後
    重新開機BI後,在右側可視化視窗中,便會出現關鍵影響因素元件。
    Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後
  • 功能介紹

    打開使用者回報(customerfeedback.pbix)示例檔案,選擇富案件影響因素可視化元件,發現它隻需要添加兩個字段:分析、解釋依據。

    Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後

    分析(Analyze):将需要分析的結果放入其中,如股票的漲跌、門店的活躍、使用者的打分、空氣的品質等,一定要是分類的字段,如果是一連串的數字,Power BI會提示資料量過多結果可能不準确。

    解釋依據(Explain by):将可能導緻分析結果的原因放入其中,如天氣、地區、年齡、行業、日期等。

    本文根據執行個體同樣選取以下字段進行分析:

    Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後
    最終的分析界面如下:
    Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後

    ①.切換控件:分為關鍵影響因素和排名靠前的分段。關鍵影響因素分析導緻目前結果的關鍵性原因有哪些,并按照影響程度降序排列;排名靠前的分段,将影響因素組合,并按照導緻結果的可能性進行分段。

    ②.下拉選擇:分析的結果有好有壞,評分有高有低,按照使用者的選擇,來進行原因分析。本文選擇的是Rating為Low時的結果。

    ③.圖表标頭:幫助使用者了解左側圖表表達的内容。

    ④.圖表界面:圖表按照可能性降序列出了各個影響因素。

    ⑤.圖表标頭:幫助使用者了解右側圖表表達的内容。

    ⑥.圖表界面:左側標明某影響因素後(綠色高亮顯示),右側柱狀圖展示該因素所在次元下的所有字段(標明的因素呈綠色高亮顯示,其餘的呈黑色)。

    ⑦.平均線:除了標明的因素,其餘所有因素可能性的平均值。

    ⑧.主要因素篩選:點選後,柱狀圖隻顯示是影響因素的值。

功能詳解

  • 關鍵影響因素

    将導緻結果的重要因素一一列舉。

本文分析影響Rating為Low的因素有哪些,在②中選擇Low後,④中立即顯示出主要的影響因素。

比如Role in Org字段為consumer時,Rating是Low的可能性是Rating的其他所有值(本文中為High)的2.57倍,換言之,此時Low的機率是High的機率的2.57倍。

這個2.57是怎麼來的,很多文章并沒有對此進行說明。(甚至還有說不知道的!!!認真看過原文檔了嗎?)官網文檔寫得很清楚,原話:Consumers are therefore 2.57x more likely to give a low score compared to all other roles (difference between green bar and red dotted line)。意思是,這個2.57就是右側柱狀圖綠色圖機率值14.93%和平均線值5.78%的比值。

剛解決了一個值2.57,又多了兩個值14.93%和5.78%,那這兩個值又是怎麼來的呢?

其實,隻要把Role in Org、Rating、以及Customer ID的計數(資料表中最小顆粒度計數)拉出來一看便知。

Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後

Role in Org有三個狀态:administrator、consumer、publisher,各個狀态下的Rating都有High和Low兩個評分。顯然:

4373/(4373+24919) = 14.93%, 即為:Role in Org取consumer時,Low所占比重,同理:
390/(390+2516) = 13.42%, 即為:Role in Org取administrator時,Low所占比重
530/(530+12490) = 4.07%, 即為:Role in Org取publisher時,Low所占比重
           

那麼,平均線的數值也很好了解了,即為:

(390+530)/(390+2516+530+12490) = 5.78%
           

搞定!弄清楚了這些數字的來源,可以直接搞懂兩個問題:

1、左邊這些排序的依據是按照可能性的倍數來的,那麼倍數的來曆是什麼?

2、右邊柱狀圖的數值和平均線的數值的來曆是什麼?

剩下的内容同學們自己根據AI的結果去分析。

  • 排名靠前的分段

    看各個因素的組合如何來影響正在分析的結果。

    Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後

标頭講得很清楚,BI分了4個分段,并按照Rating為Low的比率将這4各分段進行了排名。氣泡的大小說明了資料量的大小,點選每一個氣泡,可以下鑽,檢視詳細資訊。

點選30.8%這個氣泡,出現對該分段的詳細說明:

Power BI 中 關鍵影響因素(Key Influencers Visualization)功能詳細分析(内附福利)——Power BI邁向AI的一大步?寫在前面功能介紹功能詳解寫在最後

①.分段内容:該分段裡面選取了哪些字段的哪些狀态?

②.分段機率:該分段下,目标結果Low的占比,以及和整體占比的比較。

③.資料體量:該分段下,所包含的資料量是多少?

④.分段的詳情:進一步了解分段,部分分段沒有此選擇。

30.8%以及其他的數值,計算依據仍是按照本文所說的方法,計算得到的。但是BI為什麼會這樣來選取分段,原文檔并未給出解釋,本文也正在摸索當中。 (能摸索出這個原因,相信對這個控件的了解也會更深刻了吧)

寫在最後

  • 關鍵因素的排序規則和數學計算依據,本文将其整理出。其實官網在後續的問題清單中對此進行了詳細說明,有興趣的同學可以去研究一下,關鍵影響因素采用了邏輯回歸的算法, 而排名靠前的分段采用了決策樹的算法。
  • 關鍵影響因素的許多其他功能,本文均未介紹:比如影響因素為一系列資料點、路徑成本或彙總值時的分析;“詳細了解此分段”的介紹。
  • 由于該功能還在預覽中,BI Desktop使用時偶爾會出現崩潰。不會是本人電腦的緣故吧……
  • 如果将影響股票漲跌的因素全部羅列,導入到BI中分析,說不定能得到什麼有用的結論呢。

繼續閱讀