天天看點

《資料虛拟化:商務智能系統的資料架構與管理》一 2.9 報告和分析的新形式

1964年,Bob Dylan 寫了歌曲《The Times They Are“A-Changin”》。最可能的是,他從來不是商務智能方面的專家(雖然你永遠不會知道Dylan)。但是這篇文章對如今商務智能現狀是非常适用的。在一開始,使用者對簡單的可以讓發生的事情一目了然的表格報告很滿意,這之後的使用者希望提供更生動的資料。接下來,使用者想擁有更多的動态能力:他們想與報告中資料有所互動,并且他們想能夠做到所謂的下拉和上滾視窗。新的需求接踵而至,似乎沒有停止的勢頭。他們的願望清單也在不斷地改變。他們要求新類型的報告和分析能力。是以最大的問題是,經典的商務智能系統能勝任新的報告和分析形式嗎?在後面的章節裡對一些新的報告和分析形式有介紹。當有必要去實作這些新的報告和分析形式時,這毫無疑問地對商務智能系的設計和開發有深遠的影響。

營運報告和分析是指被營運管理層所應用的報告和分析的形式。在大多數情況下,營運管理的分析需要通路幾乎100%最新的資料,換句話說,(近乎)是實時資料。我們用術語營運資料代表100%達到最新的資料。

有很多案例說明營運分析存在的必要性。例如,一家零售公司也許想了解是否一輛正在運送貨品到特定商店的火車應該重新定方向去一家對那些商品有更緊急需要的商店。這種需求分析運作在昨天的資料上沒有任何意義。另一個應用的地方是信用卡欺詐檢測。一種經典的信用卡欺詐檢測形式的檢測是在被盜的卡被用來購買産品時。每一次交易資料都需要被分析來看看它是否符合卡持有者的購買模式和購買是否有意義。檢測之一是在很短的時間間隔内兩次購買是否發生在不同的城市。例如,一次新的購買是在波士頓,上一次在舊金山的購買僅僅比其早了幾秒鐘,這個可能性隻能在信用卡被欺詐的情況發生。但這種分析形式在對營運資料分析的時候才有意義。

對于營運報告和分析,商業使用者必須至少通路到營運資料。一個巨大的挑戰是大多數的資料倉庫提供一天一次或一周一次的資料重新整理率,是以他們不包含營運資料。另一個挑戰是在經典的商務智能系統中,報告與營運資料相離太遠。對于新資料,從源系統到報告的道路很長。

對于很多報告和分析的形式,存儲詳細資料不是必須的;聚合資料和稍微聚合資料足夠用了。例如,為了決定每個地區的總銷售量,沒有必要去存儲和分析個人銷售記錄。例如,以使用者數量方式聚合資料可能已經足夠了。但是對于某些分析形式,詳細資料是必需的。這叫作深度分析。當一個企業試圖分析一輛卡車應該改道或者決定投放哪一條線上廣告時,必須分析詳細資料。要求詳細資料最最有名的是時間序列分析。但是詳細資料意味着資料所需要的存儲将會增長巨大,可能會導緻查詢性能的嚴重問題。

一種新型的分析方式和深度分析很相似,從名字上來說很相像,稱為大資料分析。許多傳統資訊系統存儲和管理大量記錄。最近,一個存儲資料量比在更傳統的系統要大的新系統已經出現。例如,點選流應用、基于傳感器的應用和圖像處理應用每天都産生龐大的數字的記錄。這裡記錄的數量不是以百萬計量的,而是有時以兆計量。分析這樣量級的資料是一個巨大的挑戰。

對于深度分析和大資料分析,像營運分析一樣,應該制定類似的解決方案。應該允許使用者直接通路生産系統和資料中轉區。資料的龐大規模和一直湧入的新資料的數量使得連續地重新整理資料倉庫幾乎是不可能的。

在使用者生成他們的報告之前,IT部門必須設定整個環境。自助式報告和分析允許使用者用IT部門要求的最小設定來生成自己的報告。在報告必須很快完成,并且沒有時間去準備一個完整的環境,自助分析是非常有用的。例如,一家航空公司想知道會有多少位乘客被明天一次特定的撞擊所影響。另外,被需要的報告是一次性的,自助分析也很有幫助。在上述兩種情況下,首先開發一個像資料集市或PDS一樣的資料存儲,其中包含了在運作報告之前所需要的聚合資料。對于第一個例子,建立一個資料存儲将花費很長的時間;對于第二個例子,根本不值得這樣做。

自助式可能是分析方式和報告最重要的新形式。由Aberdeen Group 在2011年3月做的調查表明超過60%的受訪者把使商業使用者變得更加自足,作為提供靈活的商務智能的主要政策(見文獻[2])。(更多關于自助的知識請看7.6.9節。)

自助分析也許也被稱作無計劃分析,因為資料倉庫的管理者不清楚哪次查詢會被執行和什麼時候會被執行。這意味着提前對這些查詢進行優化和調整是不可能的。

除了經典的報告和分析方式,營運管理也有對于除高層特定需要資料之外的資料需求。在營運環境中,需要直接回應的情況可能會出現。想象一下一家零售公司擁有的一輛貨車期望在開業時間之前運送15托盤的蘇打水到波士頓的商店。不幸的是,這輛貨車發動機出現故障,停在道路一側。對于值班經理要解決的難題是找到另一種使蘇打水運到商店的方式。一種方式是派一輛空貨車去故障車那裡,裝上托盤,然後将蘇打水運到指定地點。但是在指定區域會有可用的車嗎?另一種方式也許是檢查是否在該地區是否有另一家蘇打水商店,并且能從中獲得蘇打水。或者安排一次新的配送會不會更好?無論選擇哪種解決方案,這名經理需要通路最新的資料。給他昨天的資料将是無用的,因為那将不會告訴他現在車在哪裡。

另外,由于解決方案可能不止一個,這名經理必須通路可以讓他想到不同的解決方案的系統。他應該能夠自由查詢可用的資料。例如,他應該能夠進入一個包含關鍵字蘇打水、波士頓和火車的查詢中。查詢的結果應該向他展示出這個系統知道所有的關于這些關鍵字的資訊,希望他會從那些地方找到最好的解決方案。

盡管大多數的資料倉庫環境不支援這種分析形式,但很多組織能夠從中受益。試想在一個醫院的環境裡,一名被送到醫院的病人迫切需要某種特定手術。然而所有的手術室都被占用了,怎麼辦?找另一家醫院?手術室什麼時候才可用?另一個例子是由于大霧不得不臨時關閉機場。你會對本應降臨在那裡的飛機怎麼做?或者當最近降落的飛機艙門不開時,你會做什麼呢?你會如何處置行李?在上述兩種情境中,使用者應該可以自由浏覽全部資訊。

這些例子的特别之處是,該分析是通過一個事件來觸發。一些不可預期的事情發生,并且機構必須做出反應,而且要迅速做出反應。經典的報告對重複發生的問題起作用,但對特殊的事件沒有用。在一個經典資料倉庫環境中,讓使用者查詢未定義的關系将涉及非常多的工作。現存的表必須随着新資料擴充,ETL腳本必須進行調整,等等。但是因為這是一個突發事件,根本沒有時間來做這個。

在前面的情境中,需要的是一種新的分析形式—在這種形式中,使用者可以分析IT部門未預定義的表格和關系。使用者應當可以通路營運資料。我們稱這種分析形式為無限制的自組織分析。添加形容詞“無限制”用來與更加傳統的自組織分析形式相差別。通過傳統的自組織分析,使用者可以進入任何查詢,但是隻有預定義的表格和關系才能使用。如果确定的關系不存在,使用者不能使用他們來分析。是以盡管傳統形式是自組織分析形式,但它仍然是受限的。

無限制的自組織分析很難在經典的智能系統實作,因為使用者在請求資料時應該可以通路到資料,無論源系統是什麼。沒有時間為使用者準備資料集市和PDS。這些使用者需要機會去通路任意資料存儲庫。

保險公司的顧客定期呼叫該公司的客服中心,詢問有關他們保險的問題。對于一個客服中心的接線員來說,他們所了解到的不僅直接關系到他們的保險,而且能夠對顧客有360witter上釋出有關公司的負面消息,呼叫有多頻繁,有多少次呼叫是為了同一件事。呼叫中心的接線員接觸的資料越多,接線員對顧客需求的了解越好,他就會使顧客更高興。

想象一下在波士頓地區的一群零售店的經理發現在商店裡各個品牌汽水的銷售量一直非常低。很明顯,他想知道為什麼會這樣。原因可能不會那麼明顯,也會有很多原因。一個原因可能是,最近給波士頓門店的交貨一直被耽擱,是以産品經常缺貨。也可能是很多員工因患流感而在家休息,這就可能意味着商店不能定期将貨物上架,對銷量有着負面的影響。當然也會有外部的原因,例如顧客由于天氣原因不進行購物。另一個外部原因是競争者進行各個品牌汽水半價的促銷活動。

傳統的報告并不能幫助找到問題的根源。用那些工具完成的報告将會表明,例如,銷售量下降了,而不是這個問題的原因。他們被限制在隻顯示預先定義的彙報中,如果沒有任何報告能回答問題,那麼管理者将找不到背後的問題。

分析工具為管理者提供了從各個角度和每個可能層面的細節來看問題的功能。然而,它僅僅能夠發現在資料庫中預先定義的資料元素連結、關系、關鍵字和次元的關系。在一個多元的立方體中,如果銷售資料和配送資料或者是員工病情之間沒有聯系,就不能說明是配送出了問題。

統計和資料挖掘工具同樣也沒有幫助,因為這些工具雖然很強大,但是隻能用已有的資料制作模型。在某種程度上,我們需要引導這些工具。如果管理者認為是配送導緻了問題,我們可以用工具确定确實是這一個原因。但是這不是管理者的問題,他還不知道是否是配送的問題,是以仍然在尋找原因。而且,正如預測的那樣,原因可能是任何事情。

換言之,當我們對一個問題的原因有初步想法時,這些産品是非常有用的。管理者需要的是一個工具,運用這個工具他可以自己發現問題。發現了問題之後,他能夠切換到使用報告和分析工具來更詳細地研究這個問題。

管理者需要一個這樣的工具,這個工具能夠讓管理者沒有任何限制地查詢、浏覽、分析資料。它應當允許管理者在并沒有被事先定義好關系的資料元素之間建立關系。他應當能夠問到例如“波士頓發生了什麼事?”或者“2012年5月13号所在的這一周有沒有什麼特别的事情發生?”等問題。當問題被解答時,他能沿這個方向繼續。這就是我們所說的探索式分析或調查式分析。

不受限制的自組織分析和探索式分析之間最重要的不同就是,當一個事件發生并且很快找到答案時會使用前者。探索式分析對于那些不需要快速回複的緊急事件可能也是有用的。

在傳統商務智能系統中運用探索式分析也會和不受限自組織文本分析存在同樣的問題。這種形式也需要通路非常大範圍的資料資源和無條理的資料資源。

2011年5月4日,《美國日報》報道了華爾街交易者為投資線索叫喊。他們監控并解碼了話語、觀點、胡言亂語,甚至是鍵盤所産生的發送在社交媒體網站上的笑臉符号。換句話說,他們在分析文本。

許多例子證明分析文本能夠提高團隊的決策程序。例如,一個保險公司可能想要分析所有的合同(文本檔案)來找出他們中的多少将會在一年内到期。一個電器公司可能會對分析Twitter上的短消息感興趣,進而找出他們的産品是否被提及,這些資訊是否是積極的。考慮一個機構發出或者收到的所有郵件,網上和社交媒體網站上的所有資訊。這種無條理資料形式的文本分析就被認為是基于文本的分析。

大多數目前的商務智能系統允許使用者分析結構化資料資源的資料,也就是生産的資料,但是他們不允許使用者開發非結構化的資料(文本)用于報告和分析。這個機會嚴重地錯失了,因為無結構資料數量之巨大,豐富的資訊就隐藏在其中。華爾街的情形是一個完美的例子,它向我們說明了為什麼這些機構在做決定時都想要分析無結構化資料(尤其是在這個例子中)。那麼,最大的問題就是:這些無結構化資料中目前未開發的資源如何運用到報告和分析中?這些無結構化資料如何與目前資料倉庫裡存儲的結構化資料合并?我們如何豐富傳統的商務智能系統使機構受益?

繼續閱讀