天天看點

複雜資料集搜尋與對比的兩種高效可視化分析工具

作者:紙上點将

在大規模資料集中完成複雜的搜尋與對比是一個巨大的難題,傳統的繁複檢查程式讓不少研究人員望而生怯。Zenvisage和ShapeSearch兩種可視化工具能夠在一定程度上解決這類難題,提高研究中的資料處理效率。

複雜資料集搜尋與對比的兩種高效可視化分析工具

資料可視化工具現有挑戰

資料可視化是資料分析人員探索資料的主要手段。在過去幾年裡,資料可視化工具如的可用性和可視化編碼能力有了巨大的發展,比如Tableau和Excel等,但對于在大型複雜資料集中搜尋模式、趨勢和見解來說,現有的資料可視化工具仍有較大限制。

資料分析人員們利用這些工具的方法較為統一,一般是将他們的資料加載到可視化工具中,并反複生成可視化,直到工具生成所需的模式或見解。

不幸的是,随着資料集的規模和複雜性的增加,這種重複的手動生成過程變得痛苦、乏味和耗時。即使在中等規模的資料集中,資料分析師也可能需要生成并檢查多達數萬個可視化圖,而所有這些重複都是為了測試一個假設,這對資料探索來說是一個嚴重的障礙。

一個基因組資料分析中的例子可以展現出這個可視化搜尋問題。

基因組研究人員經常研究基因,比如,基因如何影響臨床試驗結果,基因的行為如何受到特定藥物的影響等。又或者對于一個給定的,由臨床試驗結果組成的資料集,研究人員通常希望找到能夠直覺地解釋這些結果差異的基因。

為了做到這一點,目前的工具需要研究人員手動生成成千上萬的散點圖,其中x軸和y軸分别代表一個基因,每個結果在散點圖中被描述為一個點,最終幫助研究人員确定是否可以在散點圖中清楚地區分結果。

同樣,研究人員也需要在研究藥物對疾病治療的影響的同時,研究基因表達的變化。為此,他們經常探索趨勢線可視化,一個點對應于一個基因,x軸是天數,y軸是表達值。

當受到外部因素的影響時,基因可以被誘導上調或被抑制下調,又或者在一定的時間視窗内可以同時具有這兩種模式。

基于對領域的了解,研究人員首先需要假設受影響基因應該出現的預期表達變化。然後,他們生成數千個可視化圖像,每個基因對應一個圖像,之後再手動檢查這些以尋找假設中的模式。

除了基因學,在天文學、材料科學和公共衛生等其他領域也可以看到這種繁複的操作流程,在這些領域,分析人員手動閱讀數千個可視化圖來搜尋每個理想假設。在大多數這些場景中,常見的主題是手動檢查大量生成的可視化圖,以比對特定的可視化模式。

如圖1所示,這個可視化搜尋問題有兩個挑戰。

首先,使用者很難指定他們感興趣的可視化的搜尋空間,這迫使他們需要手動生成大量的可視化集合。

空間可視化的程度取決于X軸和Y軸的可能屬性、聚合函數和可能的資料子集的數量。随着資料中屬性的大小和數量的增加,這個空間呈指數級增長。

複雜資料集搜尋與對比的兩種高效可視化分析工具

圖1

第二個挑戰是處理可視化比對。在給定的需要關注的特定模式中,使用者通常會同樣注意到與該模式密切比對的可視化子集。膽兒,現有的可視化工具的表達能力不足以解決這兩個難題。

解決現有問題的兩種解決方案

Zenvisage能将使用者想要的進階描述作為輸入,自動識别相關的可視化。同時具有互動界面,支援使用者通過草圖快速搜尋簡單的模式。

為了表達更複雜的搜尋枚舉和比對,Zenvisage支援ZQL,這是一種富有表現力的可視化探索語言,能允許使用者使用一組基于可視化模式的核心原語來操作可視化的集合,比如比較、過濾和排序等。有了ZQL,使用者就可以使用兩行或三行來描述複雜的可視化搜尋任務。

雖然Zenvisage是解決可視化搜尋問題的有用的第一步,但可視化比對的潛在問題仍然沒有得到解決。

Zenvisage使用标準的相似性度量進行比對,比如歐幾裡得距離等,是以當所需模式未指定确定或近似時的搜尋時,它仍缺乏足夠的靈活性。

為了支援更靈活的查詢需求,研究人員進一步開發了ShapeSearch,這是一個模式搜尋系統,支援多種機制來幫助使用者表達和搜尋所需的視覺模式。

ShapeSearch內建了一個富有表現力的形狀查詢代數,該代數由基于形狀的原語和運算符組成,可以用于表示趨勢線中的各種模式。

ShapeSearch支援多種規範機制,這些機制能在内部被轉換為形狀查詢代數表示,ShapeSearch在其中作為自然語言接口,以及一個複雜的解析器和轉換器,可以将查詢條件轉換為代數。

ShapeSearch還支援簡單模式的草圖界面,能繪制趨勢精确比對的可視化結果。

為了滿足更複雜的需求,系統提供了一種可視化的正規表達式語言,能在無法通過自然語言或草圖表達中完成查詢。随着使用者需求和模式複雜性的發展,這三個接口可以同時使用和互換使用。

視覺資料探索系統Zenvisage與ZQL

Zenvisage是一個可視化分析系統,它有一個用于搜尋具有簡單模式的可視化互動界面,以及用于更複雜查詢的表達性查詢語言。

圖2顯示了加載了房地産資料集的Zenvisage的互動搜尋界面。

複雜資料集搜尋與對比的兩種高效可視化分析工具

圖2

算法的第一步是屬性選擇。在這一個步驟中,使用者可以為感興趣的可視化指定所需的x軸屬性和y軸屬性。在圖中,使用者可以将X軸指定為季度,也就是時間,Y軸則被指定為房地産銷售價格。

此外,使用者還需要指定類别,這個變量使用者正在操作的候選可視化空間索引。圖中選擇的類别是“metro”,用以表示一個都會區或鄉鎮。在圖1a中,這個類别被描述為“Z”。

系統算法的第二步是對典型趨勢和異常趨勢的總結。一旦使用者選擇了X、Y和類别,Zenvisage就會立即在框2中填充典型的,或者具有代表性的跨類别趨勢和異常值。

從圖2不難看出,算法在不同的城市,即類别中發現了三種典型的趨勢,一種對應于中間的峰值;一種對應于逐漸增加的趨勢;還有一種則對應于先增加後減少的趨勢,大多數其他趨勢被發現與這三種趨勢中的一種相似。離群可視化則有大量看似随機的尖峰。

系統算法的第三步是繪圖或拖放畫布。在可編輯畫布中,使用者可以繪制他們正在尋找的形狀,或者将顯示的可視化效果之一拖放到畫布中。通過這種方式,使用者能表明他們希望看到的結果,算法就會以此為基礎開始相似性搜尋,當然,使用者還可以自由編輯繪制的圖案。

系統算法的第四步就是呈現相似度搜尋結果。一旦使用者完成了框3中的互動,框4中就會呈現出與框3中趨勢最相似的可視化結果,這個結果會根據不同的類别按相似性排序。

Zenvisage允許使用者在三種不同的相似度名額之間進行選擇。目前系統提供的三個度量是歐幾裡得距離、DTW和分割。總的來說,系統的互動式搜尋界面通過繪制草圖和拖放,滿足簡單的模式搜尋需求,通過代表性和離群模式提供上下文。

然而,當涉及到更複雜的資料探索需求時,Zenvisage提供的表達能力有限。在繪制草圖之前,使用者需要将X和Y軸設定為特定的屬性,這就使得在廣泛的X和Y屬性範圍内,系統很難完成可視化的搜尋。

除此之外,Zenvisage在不使用繪圖畫布的情況下,很難比較兩個可視化圖,系統也不能指定涉及同時搜尋多個模式的多步驟查詢。

為了支援這些更複雜的需求,研究者在Zenvisage基礎上引入了第二種模式,即ZQL。

在比對可視化方面,Zenvisage以及其他可視化查詢工靈活性都較為有限。而ZQL能夠解決柔性形狀比對問題。

形狀查詢系統ShapeSearch

ShapeSearch為使用者提供了強大而靈活的機制,可以搜尋具有所需形狀的趨勢線可視化圖。

ShapeSearch系統有一個用于組合形狀查詢的互動界面。圖3描述了在基因組學資料查詢執行個體中ShapeSearch的互動界面。

複雜資料集搜尋與對比的兩種高效可視化分析工具

圖3

在基因組學資料查詢中,使用者需要搜尋由于藥物的影響而被抑制的基因,這些基因在其基因表達中,有特定的形狀表現,具體表現為首先上升,然後下降,最後再次上升,按照這個順序,目标可分析圖需要同時有三種模式:上升,下降和上升。

要搜尋這個形狀,使用者首先需要通過左側基于表單的選項加載dataset1,然後選擇要探索的可視化空間,具體方法是将x軸設定為時間,将y軸設定為表達式值,最後将類别設定為基因。

類别屬性的每個值都會産生具有給定x軸和y軸的候選可視化。是以,類别屬性定義了使用者在系統上比對形狀的可視化空間。

ShapeSearch支援三種形狀規範機制,分别是自然語言、正規表達式,即regex以及在畫布上繪制的草圖。

通過在畫布上繪制所需的形狀作為草圖,使用者可以使用距離度量,如歐幾裡得距離或動态時間翹曲,搜尋精确相似的可視化圖。在使用者完成草圖繪制後,ShapesSearch将輸出與結果面闆中繪制的草圖相似的可視化結果。

在自然語言(NL)規範中,為了搜尋與模式近似比對的可視化,使用者可以使用自然語言作為輸入。例如,如圖3框2b所示,上述基因組學執行個體中的期望形狀可以用語言描述為:向我展示具有上升,然後下降,然後增加結果圖的基因”。

同樣,分析宇宙學資料的科學家也可以簡便地使用“尋找具有尖銳亮度峰值的物體”來搜尋超新星,也就是明亮的恒星爆炸。

在正規表達式(regex)方面,對于涉及難以使用自然語言,或難以草圖表達的複雜模式組合的查詢,使用者可以發出類似正規表達式的查詢,直接映射到結構化的内部表示,由ShapeSearch原語和操作組成。

在探索過程中,使用者還可以根據查詢的複雜性互換地選擇規範機制。對于NL和正規表達式,ShapeSearch還支援自動完成功能,以引導使用者進行目标查詢,開發者使用術語使用者查詢來指代使用任何規範機制送出的查詢。

ShapeSearch會在後端進行解析,之後将使用者查詢轉換為ShapeQuery,這是查詢的結構化的内部表示,由代數中支援的操作符和原語組成。

除此之外,後端支援歧義解決器,該歧義解決器使用一組規則,自動解決文法和語義歧義,以及将解析後的查詢轉發給使用者,以此進行進一步的更正和驗證。經過驗證的查詢最終由執行引擎優化并執行,結果面闆會将最比對ShapeQuery的頂部可視化圖呈現給使用者。

在ShapeSearch中,目前使用者需要在發出ShapeQueries之前指定X和Y屬性。但是,在某些場景中,使用者可能事先不知道X和Y屬性,或者他們可能希望在不同的屬性組合上搜尋相同的形狀。

此外,使用者也可能會想同時發出涉及多個形狀的多步驟查詢,比如查找挂牌價格趨勢下降但房屋銷售價格趨勢上升的區域。

為了滿足這種複雜的資料探索需求,研究人員提出了新的設想,即将ZQL與ShapeQuery內建在一起。實作這種內建一個簡單的選擇是将ShapeQuery作為ZQL程序列的一部分功能原語。例如,圖4描述了一個內建查詢,能用于查找清單價格趨勢下降但銷售價格趨勢增加的區域。

複雜資料集搜尋與對比的兩種高效可視化分析工具

圖4

ZQL和ShapeQuery的結合還能增加ZQL的表現力和效率。功能原語目前被視為黑盒,是以在Zenvisage中沒有進行優化。而通過添加對形狀查詢的支援,Zenvisage可以利用優化的形狀比對算法來有效地處理可視化。

參考文獻:

Tarique Siddiqui, Paul Luh, Zesheng Wang, Karrie Karahalios, and Aditya G. Parameswaran. 2022. Expressive querying for accelerating visual analytics. Commun. ACM 65, 7 (July 2022), 85–94. https://doi.org/10.1145/3535337

https://dl-acm-org-443.webvpn.xju.edu.cn:8040/doi/10.1145/3535337

繼續閱讀