天天看點

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

摘要:資料分析在多數人看來是個與資料打交道的枯燥過程,但是,當它遇到可視化的時候,這些數字也能迸發出藝術感和色彩。分析過程可視化圖在資料分析中具有廣泛的應用。

本文将展示teradata利用teradata aster對不同行業資料分析過程的可視化圖,你可能無法想象,航線資料分析可以變換成絢爛的星雲、保險索賠和欺詐保險索賠之間的聯系在可視化圖表中變成了花叢一般的“秘密花園”、而中國大型企業之間的資金流動量的關系則幻化成了一團煙花。

航線星雲

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

l 關于洞察

圖中世界上不同航空公司看起來就像一個美麗的星雲(國際星雲的組成部分)。同種顔色的圓點和粗線提供了見解,它們代表提供相同航線的航空公司,顯示出它們之間的競争以及在不同區域間的潛在合作。

這張基于資料可視化的sigma圖表顯示了相同城市中航空公司的相似性。圖中的圓點或圓圈代表航空公司,連線的粗細和遠近則反映兩個航空公司之間的相似性;連線越粗或越短則代表兩家公司服務的城市越相似。圖表中有幾組航空公司,直覺地表現了它們所服務的地理區域。

這張圖表中的關鍵洞察是航空公司之間的相似性,甚至是重疊,顯示出這些公司之間的競争關系。它們是中國的南航和東航、阿聯酋航空和卡達航空、英航和漢莎航空、美航和達美航空。瑞安航空服務的城市與漢莎航空和英航存在潛在協同,占據了一個利基市場;比起意大利或漢莎等其他的歐洲航司,法國航空則與美聯航等美國航空公司更為相似,這也許可以解釋為聯合品牌效應。本質上說,這是一張多元的韋恩圖,用一種簡明扼要的方式揭示了不同主體間的複雜關系。

總的來說,這張圖表揭示了不同航司之間的相似性和競争情況,有利于發掘潛在的合作關系、增加市場佔有率和市場覆寫面。這項技術可以通過不同參與者之間的相同變量,用于分析任何生态系統。

l 分析技術

這張可視化圖表是通過aster app center生成,運用到了關聯挖掘的分析技術,研究上下文中各條目的共現關系。其中關聯挖掘的算法是協同過濾(collaborative filtering),它作用于航線和城市資料,并将資料當作零售籃子資料。也就是說,籃子代表城市,而航空公司則是條目。兩個航司之間的相似性由相似性得分确定,計分的原則是比較各個航司獨有的航線以及同時營運的航線。之後再将這些成對的相似性得分當作連線的權重,再把各個航司當做節點,共同輸入可視化模型中,運用具有子產品上色技術的force-atlas算法,最終生成出這張美麗的圖表。

作者:karthik guruswamy teradata美洲大資料和進階分析實踐的資深顧問。幫助teradata客戶完全實作資料驅動業務,并利用先進的算法來實作降低營運成本。

就業的耀斑

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

這張可視化分析圖表反映了就業服務供應商對雇主的收費。圖中“噴發”出射線束的點代表服務供應商,外圍的點則代表雇主,它們之間的連線表示兩者之間的關系,連線的粗細和收費的高低成正比。

這張可視化分析圖表可被用于觀察服務供應商和雇主之間的關系。服務供應商幫助人們尋找合适的工作崗位,同時也不斷地為求職者提供維持工作的幫助。為了向每個求職者高效地提供定制化而靈活的服務,服務供應商通常需要跟衆多雇主保持良好的關系。

本張圖表還能檢測到非尋常的聯系,例如:

某一組單獨的服務供應商同多家雇主存在連接配接,但是連接配接網絡卻和圖中其他的參與者不同

某家供應商隻和一家雇主存在關系

服務供應商同時也是雇主

澳洲就業部是負責監管各類就業服務,并将結果提供給澳洲政府。服務供應商負責與當地雇主和注冊的教育訓練機構聯絡,為求職者提供合适的服務組合。繪制這張圖表的目的是調查現有收費中重要,但是不符合體系規定的那一類。

l 分析方法

這張可視化圖表是使用teradata aster lens生成的網狀圖。圖中的收費資料來自就業部,在導入teradata aster探索平台之後這些資料被進行分類,并且按時間、地點、種類分别測試了準确性;之後再進行縱向分析,檢查流程和事件異常。這張網狀圖可用于監察合謀的模型,可以快速檢視服務供應商向雇主收費金額的多少。

還可以跨越不同的時段與這系列的可視化分析圖表進行比較,觀察網絡中是否出現了新的孤島或合謀模型。

作者:tatiana bokareva teradata澳洲和紐西蘭地區進階分析資料科學家。主要負責的資料挖掘、分析和快速的分析非結構化資料、半結構化資料等分析工作。

欺詐入侵者

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

此分析是一種檢測潛在保險索賠詐騙的快速方法。可疑的索賠就像外星人侵略一個星球,或蟲子細菌感染一個純細胞。

這個資料可視化分析顯示了所有正當保險索賠和欺詐保險索賠之間的聯系。圖像中每個點(或節點)代表一個單個的保險索賠,是以整個圈就代表每個索賠。大的節點是那些已經調查過并被發現是欺詐的索賠。較小的節點是正當索賠和那些沒有被調查過的索賠,是以它們可真可假。節點間的線(或邊界)顯示出各索賠之間的聯系。它可能是重複使用同樣的電話号碼、位址、銀行賬号資訊、電子郵箱位址和注冊資訊等。節點間的線越粗,意味着節點之間聯系越緊密,像電子郵箱、位址和電話等資訊重複越多,進而索賠則越可疑。 

從分析中我們現在可以很容易的找出潛在的索賠詐騙,能夠迅速把所有未調查的、卻與欺詐索賠高度關聯的索賠隔離出來。最終輸出的是一項索賠清單,其關聯指出其欺詐的嫌疑,這些索賠會被送入欺詐調查部門進行仔細調查,這樣就帶來了極高的成功率。

這一可視化圖表利用teradata aster及aster lens 建立而成。它使用詳細的索賠資料,通常意味着數百gb到數tb的資料,以及來自呼叫中心機構的關于處理索賠的文本資料。該資料通過加載到teradata aster資料庫進行分析使用。

保單号碼可幫助我們将呼叫中心機構的文本資料和索賠資料聯系起來。但尋找共同的或重複的聯系非常困難,因為它們通常是以文本形式存在的。大多數詳細的關聯資料也是從文本中擷取的,利用原生的aster文本挖掘功能,如命名實體識别(named entity recognition)算法,查出索賠形式和呼叫中心的訓示。輸出的資訊不僅可被用來确定任意2個索賠間可能發現的重複資料,還可建立一個基于節點和邊緣的表格。使用aster lens 和 forceatlas2顯示算法可将其具象成圖表。

作者:christopher hillman teradata 的進階分析團隊擔任首席資料科學家。他幫助客戶洞察資料中的價值并且了解mapreduce 或sql 作為合适的技術。

資金噴泉

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

這個匿名的可視化分析,分析了一系列中國大型企業之間的資金流動量的關系,而這是一家中國大型銀行的企業銀行業務的風險分析項目之一。分析使用轉賬交易資料以了解風險和發現市場機會。

此圖中點(節點)代表公司。線(邊緣)代表兩家公司之間的資金轉移。箭頭,顯示資金的流向。

圖表顯示了不同公司之間的所有資金流動。我們可以将映射通過2、3和4 的後續交易,如綠色公司了解上遊供應鍊的流動和對彼此互相依賴性的公司。

若要管理風險,銀行需要識别高度互相依存的公司。允許銀行确定關鍵的公司在供應鍊和獨立交叉檢查公司的現金流來驗證其資金的健康狀況。

這張圖有助于識别欺詐。銀行可以檢查公司真正的商業活動,并驗證借出的資金使用的目的。同時,有助于市場營銷,顯示了銀行服務方面的差距,能夠為現有的客戶在融資、清算、風險管理等更廣泛的金融服務提供更高的價值。

l 關于分析

這種分析使用了teradata aster和aster lens。裝載的交易資料是非常大的,涵蓋超過 670,000 家公司的 60,802,990條記錄。公司記錄包含行業分類代碼,可以更好地了解他們的業務活動。這張圖包括pagerank是用于選擇頂級32個重要客戶,并包括所有相關的交易,相關方總交易将大于或等于人民币 70 萬元。 

作者:石棋玲teradata中國進階顧問,是aster & hadoop 大資料卓越 (coe)中心的一名成員,也是在中國嘗試使用高強度超級圖形方法的大規模風險分析的資料科學家先驅團隊的一員。為企業級客戶提供創新内容,如"資金噴泉"就是創新工作中的其中一個,旨在幫助消除金融系統中的風險。

擔保圈焰火

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

“擔保圈焰火”展現了某家銀行和汽車廠商、4s店以及個人客戶之間建立的擔保關系網絡。

在這個匿名的圖形中,點代表車貸客戶或者車貸擔保人,線代表擔保人和被擔保人的擔保關系。不同顔色用來區分相應的擔保網絡。

圖形中的這些綻放的焰火,我們很容易看到黃色、藍色和紫色的群體。在這其中,幾個擔保人為很多貸款提供擔保。這些擔保人有的是汽車制造商或者經銷商的下屬機構或者vip客戶。而有些情況,如藍色和紫色群體,是不同的相關實體作為擔保人,這樣就很難發現總體的風險暴露。 

銀行可以針對這些風險暴露采取措施。例如,銀行首先要做的是防止多米諾效應。很多情況下,這些汽車廠商和4s店也是該銀行的高價值、低風險客戶,銀行出于維護客戶關系,擴大業務範圍,提高客戶黏度,為此辦理車貸業務,但相應的車貸風險還是要做好監控和管理。

這個圖形展示了在teradata aster上借助aster lens建立的西格瑪圖形,所用的資料源包含擔保人企業id、擔保合同資訊、擔保金額、企業信用評級等。應用社交媒體分析以發現有影響力的客戶和識别擔保模式。分析函數包括:betweenness、degrees、pagerank、modularity、eigenvector、centrality和local clustering coefficient等。

作者:張玉瑞teradata天睿公司大中華區大資料事業部華東區進階顧問,也是teradata中國區資料科學家團隊的重要成員,緻力于幫助客戶運用大資料分析手段來解決風險管理和市場營銷等方面的業務問題。

擔保圈之謎

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

“擔保圈之謎”揭示了房地産開發行業所産生的潛在風險。首先房地産公司是銀行的重要客戶,開發住宅需要銀行的資金支援,房屋建成後,銀行給購房者提供住房抵押貸款,延伸和拓展了銀行業務,幫助房地産公司銷售産品。 

從銀行的角度來看,每筆房貸是按照購房者的資質來審批。每個人的房貸,如果由房地産公司擔保,本身的風險并不大,但如果房地産公司為很多人提供擔保,很可能是房子沒有賣出去,制造一種虛假銷售,套取銀行貸款,這樣的風險就要嚴加防範。

這個匿名的圖形讓銀行看清房地産開發商和房貸客戶的擔保關系。每個點代表房地産開發商或者房貸客戶。線是房地産開發商和房貸客戶之間的擔保貸款。不同顔色可以區分不同擔保網絡。你會看到一些房地産開發商為大量的客戶提供貸款的擔保。

“擔保圈之謎”讓銀行展現和監控風險暴露的規模和真實的特性。銀行可以對高風險客戶采取措施,這些措施包含收緊貸款審批,甚至可以拒絕貸款。

這個圖形展示了在teradata aster上利用aster lens建立的西格瑪圖形,所用的資料源包含擔保人企業id、擔保合同資訊、擔保金額、企業信用評級等。應用社交媒體分析以發現有影響力的客戶和識别擔保模式。分析函數包括:betweenness、degrees、pagerank、modularity、eigenvector centrality和local clustering coefficient等。

作者:張玉瑞 同五、擔保圈焰火

查詢星座

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

這張可視化分析圖表顯示的是一個分析的過程,其分析的對象是一家英國的銀行的teradata整合資料倉庫(idw)的資料庫查詢記錄(dbql)。dbql描述了sql指令(查詢),這些指令是操作者為了能夠檢索到資料倉庫的表格中存放的資料而發出的。這一分析過程的目的是通過查詢識别出表格的使用情況,區分出“冷”和“熱”的資料組,并把較低使用率的資料組和孤立的工作負載在倉庫平台中設定為“解除安裝”資産。

這些圓點(節點)代表存在資料倉庫中的表格,而這些線則代表在一個sql指令中同時使用了兩個表格,它們共同展示了一項查詢工作對于兩個互相關聯的表格的依賴性。這張可視化圖表的中心是一些高度相關的表格,它們中的大部分是查詢表(也稱作次元),常常與其他資料表聯合使用,并為它們提供額外的描述和背景資訊。大量使用者使用這些查詢指令來擷取這些查詢表格和其他表格,這十分契合于整合資料倉庫。

同時,這張可視化圖表強調了兩組十分緊密聯結的表格,每一組都代表服務于一個業務運用的表格組。是以,這些表格組經常同時被不同的業務運用查詢。

在圖表的邊緣有衆多與其他表格有着少量聯系的表格,相對來說它們不怎麼經常被用到,而當被查詢到時,它們通常以孤立的形式存在。是以這些表格(及它們組成的工作)可以從主要的資料倉庫中轉移出來,放到一個相對更“冷”、在高性能磁盤上花費更少、處理能力相對較弱的平台上。

這個西格瑪可視化分析圖表是用teradata aster生成的,它展示了對dbql中的sql指令的分析。這些分析針對“選擇”指令,指令的對象為儲存在資料倉庫中的查詢表格或視圖。

資料庫中的表格和視圖在資料集裡以節點的形式存在。如果一個sql指令中同時調取了兩個表格或視圖,那麼兩個節點之間就會建立起連結。這形成了建立圖表的基礎,描述了表格間的依存性。

在使用協同過濾技術和可視化西格瑪圖表展示表格中的資料集時,可能會發現被包含于孤立的工作中的表格組,它們相對來說不經常被查詢到。是以,這些表格組會被建議歸為“解除安裝”的,友善負責管理不同平台上資料集的it人員的工作。

作者:yasmeen ahmad teradata最有創意并富有洞察力的資料科學家之一。善于使用各種分析方法,包括文本分析、預測模組化、歸屬政策開發和時間序列分析等。

單一麥芽采樣

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

你的分析能徹底地簡化錯綜複雜的事物嗎?能根本區分出細微的差别嗎?能完全理清蘇格蘭威士忌長達700多年的曆史嗎?其實可以,隻要将蘇格蘭威士忌大師的專業味覺武裝上他的資料集就行。

本可視化分析中将86種單一麥芽威士忌品牌按12種風味特征分成了若幹風味群組,例如香甜味、煙熏味、蜂蜜味和果仁味。通過簡單的圖像形式展示,我們都可以了解到在各種各樣的單一麥芽威士忌品牌之間有何異同。 

每一個點(或節點)代表一個單一麥芽威士忌的品牌。每條線(或邊界)代表威士忌間相似性程度,線條越粗越暗,威士忌的風味就越相似。是以相似味道的單一麥芽威士忌的自然叢集形式會更加緊密、更高度地互相聯系。

這種分析方法可以适用于食品科學研究。它可以與市場佔有率和市場配置檔案資料相比對,開創新口味風格,旨在吸引高價值部分,或重新定位現有的品牌,引進新的領域。它還能為酒吧或者零售商提供備忘單。 

這種分析還能為每天的消費者提供一種有趣的方法,去探索一個非常複雜的話題。如果你喜歡一種品牌的威士忌味道,現在你可以嘗試其他相似味道的品牌,或者去探索其他完全不同味道的品牌。不論哪種方式,你都必将擁有一個無與倫比的美好夜晚。 

本可視化圖表采用teradata aster 的aster lens建立,它使用了斯特拉斯堡大學的威士忌分類開放資料集,包含了86種單一麥芽威士忌品牌、12個專家評定的風味特征,以及這些威士忌廠家的地理坐标資訊。

它使用餘弦相似性将不同風味的威士忌進行分組,并配合一些沒有固定風味特征的單一麥芽威士忌形成的零散資料。aster lens可視化是利用teradata aster 的挖掘算法功能graphgen創造出來的。同等大小的節點代表着同等重量的不同單一麥芽威士忌,其連接配接程度代表其相似性大小。

作者:kailash purang teradata新加坡公司一名出色的資料科學家,還服務teradata在印度尼西亞的主要銀行和通信行業客戶。

星門

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

“星門”是在打擊網絡欺詐、駭客和持續的網路攻擊和戰争中的“分析防衛武器”。

該匿名化可視化分析展現的是在台灣完成的一系列用于分析電信用戶端阻止惡意網絡攻擊的情形。

“星門”的目的是發現并阻止黑暗的力量在網絡世界滋長。進階持續性威脅(apt)是一組隐身和連續的計算機駭客過程,往往是由人們策劃針對特定的實體。apt通常針對組織、國家的商業或政治動機,也用于欺詐和犯罪目的。

可視化使用了2300名員工一年的網際網路使用的網絡日志。它跟蹤每個使用者的網絡浏覽活動然後找出惡意行為的原點的詳細用法路徑。

每個點(節點)表示由使用者通路的網頁。每行(或邊緣)表示從其他網頁到另一網頁的路徑。線的粗細大小代表通路時的時間,節點的大小代表我們計算網頁的128種性質,如類别、信譽評分、通路次數、網頁内容和資料包的生存時間(ttl)值。

在“星門”中心的高度連接配接的節點越大,則表示那些沒有裝備安全防禦軟體或防火牆,阻止惡意行為的高風險的網站。我們也可以看到他們連接配接到其他網站,這可能就代表了高風險。周圍外側的節點是低風險的網站。

此分析使用teradata aster 及 aster lens。這個可視化使用了電信客戶的安全日志并用aster及gephi生成圖表。它涵蓋了超過2300位員工的一年時間的安全日志資料。

在此分析工作,我們用npath、圖形、叢集和文本分析功能。路徑分析是這種模式分析的核心概念,因為它來源于網頁,關鍵是要識别惡意行為的起源關聯路徑。我們用圖來表示,并分析各節點之間的複雜關系,并以圖表的形式呈現出來。

作者: peter wang teradata天睿公司大中華區的大資料coe的資深大資料顧問,是台灣teradata公司的行業顧問,同時也是teradata創新中國資料科學家的重要成員,為銀行和電信開創了新的分析技術,幫助銀行和電信公司擷取大資料的價值。

捕獲異常

當航線、就業、保險的資料分析過程遇上可視化 ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆ ◆

這個可視化分析顯示由保險公司發現的異常行為經紀人。透過其中的資料圖表凸顯了,當有圖形呈現這些連接配接後的異常,變得顯而易見。

點(節點)代表的是使用由保險公司提供了一個經紀人建立報價的平台。節點之間的聯系表明相關聯的報價,即券商用以前生成的報價(點)做一些改變後建立一個新的報價(連結的節點)。

這兩個叢集在中心(紅色)描繪出異常行為,其中一個經紀人在更新少量的屬性後不斷改變和改回報價。這表明這個經紀人在測試保險公司的系統,試圖了解定價引擎的工作原理,這種行為是不受歡迎的,是濫用保險公司的系統。

這一分析的目的是确定保險公司的經紀人是如何使用制度的行為來提升産品的銷售。其目的是了解系統如何改進,以支援券商提供更好的體驗,支援保險公司的業務,并且可以教育業績較不好的經紀人。這個欺詐性的發現是這種分析的副産品。保險公司可以使用視覺化作為同經紀人進行溝通的證據。

這種西格瑪可視化分析顯示了從保險公司為他們的經紀人提供資料進行分析的平台。這個系統将記錄由所述平台上的代理進行的所有操作。

分析的初始部分涉及身份查驗工作的平台和比對經紀人的會話,到一個特定的經紀人和客戶。在這些會議上該分析側重于記錄由經紀人平台報價相關的行動。這些行動被抓獲并模組化為節點。

每個節點代表了不同的會話客戶所産生的報價。節點之間建立連結,如經紀人讀取相同的報價并生成一個重新整理的報價。圖表分析找出由高度互連節點形成的兩個異常大的不正常叢集。

 原文釋出時間為:2016-06-04

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号