天天看點

Nat. Biotechnol | PHATE:高維生物資料的可視化方法

高維生物資料的可視化能幫助研究者以直覺的方式了解資料。今天介紹2019年12月發表在Nature Biotechnology的可視化工作。

Nat. Biotechnol | PHATE:高維生物資料的可視化方法

1

研究背景

高維資料需要可視化工具,以直覺的方式顯示資料結構和模式。目前的降維可視化技術存在一些問題,如對噪聲敏感、不能同時捕獲資料的局部和全局非線性結構、受記憶體和運算時間的限制無法運用到大資料集上。為解決這些問題,猶他州立大學的 Kevin R. Moon等研究人員提出了一種新的可視化方法PHATE,它使用資料點之間的資訊幾何距離來捕獲局部和全局非線性結構,能夠在可視化過程中對資料進行降噪。與其他工具相比,PHATE能夠更好地保留資料的一系列模式,包括連續變化、分支和聚類,适用于多種資料類型,包括大規模細胞計數、單細胞RNA測序、Hi-C和腸道微生物組資料。

2

PHATE

為實作PHATE方法,Kevin R. Moon等研究人員結合了流形學習、資訊幾何、擴散幾何思想,PHATE提供的可視化結果,能夠保留資料的局部和全局結構、對資料進行降噪并在轉換成低次元時盡可能提供更多的資訊。研究人員使用PHATE可視化了幾個生物和非生物真實世界資料集,結果(如圖1)顯示,PHATE能夠可視化具有不同潛在結構的資料集,包括軌迹、簇、相交的流形等等,與PCA和t-.SNE相比,PHATE最能表示資料的全局和局部結構。

Nat. Biotechnol | PHATE:高維生物資料的可視化方法

圖1 PHATE概述及其在資料中顯示結構的能力

PHATE算法可總結為三個步驟

1. 通過局部相似性對局部資料資訊進行編碼。

2. 使用勢距離對資料中的全局關系進行編碼。在這一步執行擴散,将局部相似度轉換為從一個資料點躍遷到另一個資料點的機率,然後推廣到t步,計算通過t步遊走從一個資料點躍遷到另一個資料點的機率,局部和全局流形距離都在新計算的機率中得以表示,這種機率被稱為擴散機率。通過考慮所有可能的随機遊走,擴散過程可降低噪聲所産生的僞路徑的權重來對資料進行去噪。

另外,通過特征值分解将擴散機率直接嵌入二維和三維會造成資訊丢失或不穩定嵌入現象。為解決這一問題,研究人員将每個點對所有其他點的擴散機率解釋為“資料點的全局上下文”,并得出每對細胞之間的資訊理論勢距離以比較全局上下文,通過計算兩個細胞與所有其他細胞的關聯擴散機率分布之間的差異求得勢距離,再将勢距離資訊嵌入到低維。

3. 将勢距離資訊嵌入低維進行可視化。通過度量MDS算法将勢距離中的資訊壓縮到低次元以進行可視化,該MDS通過将低次元空間中的距離與輸入距離進行比對來建立嵌入。

表1對這些步驟進行了概述:

表1 PHATE算法中的一般步驟

Nat. Biotechnol | PHATE:高維生物資料的可視化方法

3

方法

3.1距離儲存

在大多數情況下,局部轉移有噪聲且全局轉移是非線性的,諸如全局方差最大化這樣的線性方法不足以捕獲資料中的潛在模式,而且它們通常會産生有噪聲的可視化。為了提供能夠強調資料轉移的結構儲存,需要保持資料點之間的距離來儲存資料的内在結構,資料點之間的變化是非線性轉移、逐漸變化的(圖 2a,b)。

3.2局部相似與擴散算子

在具有非線性和噪聲結構的生物資料集中,全局歐氏距離并不能反映資料轉移。是以,研究人員将全局歐氏距離轉化為局部相似性,以量化歐幾裡得空間資料點之間的相似之處(圖 2c)。

将全局距離轉換為局部相似性時,使用一個高斯核函數根據x和y之間的歐幾裡得距離來量化兩者之間的相似性,:

Nat. Biotechnol | PHATE:高維生物資料的可視化方法

其中帶寬ε用于确定核函數捕獲的鄰域半徑。

一個可靠的結構嵌入及可視化不僅需要超越局部的相似性,還需要考慮資料各部分之間的全局關系。研究人員通過構造一個擴散幾何結構來學習和表示資料的形狀,這種構造基于資料點之間的局部相似性,使用馬爾可夫随機遊走擴散過程在資料中擴散,進而推斷出更多的全局關系(圖 2d)。

随機遊走中的初始機率是通過歸一核矩陣中行的總和來計算的,在使用上述高斯核的情況下得到以下結果:

Nat. Biotechnol | PHATE:高維生物資料的可視化方法
Nat. Biotechnol | PHATE:高維生物資料的可視化方法

Pz是一個馬爾可夫轉移矩陣,這個矩陣也稱為擴散算子。

3.3勢距離

為解決擴散距離不穩定的問題,将擴散幾何所捕捉到的全局結構嵌入到低維中時,使用一種新的基于擴散的資訊距離,稱之為勢距離(圖 2e)。為了将機率空間轉為能量空間,研究人員對幂擴散算子中的機率進行對數變換,并将資料中的局部能量勢之間的L2距離視為固有資料距離。

數學上,對于

Nat. Biotechnol | PHATE:高維生物資料的可視化方法
Nat. Biotechnol | PHATE:高維生物資料的可視化方法

将t階勢距離定義為:

Nat. Biotechnol | PHATE:高維生物資料的可視化方法

3.4将勢距離嵌入低維

一種流行的嵌入擴散幾何的方法是利用擴散算子的位置來建立資料的擴散映射,然而這種方法傾向于将進展軌迹分離成許多擴散坐标。雖然擴散圖保持全局結構并對資料進行去噪,但其較高的内在維數不适合于可視化,是以研究人員使用度量MDS方法将可變性壓縮到低維(圖 2f)。

Nat. Biotechnol | PHATE:高維生物資料的可視化方法

圖2 PHATE算法的主要步驟

4

實驗

4.1從PHATE中提取資訊

PHATE嵌入包含大量關于資料結構的資訊,包括局部轉移、進化、分支以及進化的結束狀态。可根據高維PHATE嵌入的資訊确定端點,分支點和分支,如圖2。這些可能并不總是對應于實際的決策點,但能幫助使用者解釋PHATE可視化。

Nat. Biotechnol | PHATE:高維生物資料的可視化方法

圖2 從PHATE中提取分支和分支點

4.2用PHATE進行資料探測

PHATE可以為各種資料類型揭示資料的潛在結構,其可視化中的可識别軌迹具有生物學意義,這一點展現在基因表達的模式、基因表達與沿軌迹排列的細胞之間的資訊中。

5

總結

PHATE通過建立一個基于擴散的資訊幾何圖形實作去噪可視化,它使用資料點之間的資訊幾何距離來捕獲局部和全局非線性結構。PHATE能夠揭示人類感興趣的視覺結構、在幾個小時内處理數百萬個資料點,提供了一種對大規模高維資料進行可視化、探索和提取資訊的新方法。研究人員希望在高通量基因組學、表型分型和許多其它領域中有大量生物或非生物資料都能夠從PHATE中受益,相信PHATE将為生物醫學資料的探索帶來革命性的變革。

繼續閱讀