中原標準時間2月24日,本篇工作作者申萬祥博士将帶來線上分享,介紹如何通過增強資料的表征和利用卷積神經網絡來提高生物醫學資料的學習效果。更多詳情見文末。
決定 AI 模型識别能力的主要因素是資料和算法,長久以來 AI 領域重點關注在算法來提升性能,但對資料的探索程度遠不及算法的開發。以資料為中心的 AI 方法(data-centric AI)基于高品質的資料建構 AI 系統,主要是確定資料表征能夠清晰地展示 AI 所須學習的内涵特征。
特别是對于生物醫藥領域具有高次元而無序特征的小樣本資料(比如疾病組學資料),合适的資料表征對AI模型的提升效果可能遠遠大于模型算法本身的提升。
來自新加坡國立大學、清華大學深圳國際研究所學生院的研究者,合作開發了一個無監督創新方法 AggMap,将無序資料結構化并以 3D 圖像的表征形式提供後續AI學習, 進而生成結構化的特征圖譜,大幅提升模型的學習效率,尤其适用于組學資料的分析。
作者表示,該工作提供了一套有用的學習範式,未來可能被用于其他領域的資料的學習中。
該方法以「AggMapNet: enhanced and explainable low-sample omicsdeep learning with feature-aggregated multi-channel networks」為題,于2022 年 1 月 31 日釋出在國際著名生物資訊學期刊《Nucleic AcidsResearch》。
卷積神經網絡(CNN)本身的輸入是 3D 的圖像資料,圖像資料的像素點是二維空間相關的、拓撲連結的,此外 RGB 多通道的彩色圖像豐富了資料的資訊。
傳統的機器學習方法如 SVM, KNN,RF,DNN 與 CNN 相比,模型的輸入的時候沒考慮像素特征點的之間的關聯性,是以性能不如 CNN。假如把圖像的像素随機排列而形成「雪花圖」,則 CNN 模型的學習效率則大大降低。這說明高性能的 CNN 模型依賴于像素點的空間局部相關性,而基于多通道資料的 CNN 表現也好于單通道的資料。
基于以上的背景,作者開發了高次元、小樣本資料的結構化算法 AggMap, 将 1 維的無序矢量轉化為 3D 的結構化的、類似圖像的資料作為卷積神經網絡 AggMapNet 的輸入。
為了驗證 AggMap 資料結構化的能力,作者首先将手寫字型 MNIST 像素點随機排列(像素點打亂形成雪花圖),然後使用 AggMap 基于雪花圖進行資料結構化,來探索其結構化能力。
令人驚訝的是,無監督的 AggMap 基于特征點的内在相關性,竟然能完全重構這些随機的像素點而形成與原始圖像高度一緻的圖像:
圖 1:AggMap 重構随機MNIST像素點,Org1: 原始的黑白圖像,通道數為1;OrgRP1: 原始的圖像被打亂後的 “雪花圖” ;RPAgg1: AggMap 基于被打亂後的“雪花圖“而無監督重構的圖像;RPAgg5: AggMap 進一步基于聚類的多通道分割的彩色圖像,通道數為 5 。
無監督 AggMap 究竟是什麼方法?
人類能夠對破碎圖檔的碎片進行邏輯恢複,例如解決拼圖遊戲或文物的修複,如圖 2A 所示。這種能力源于預先學習的先驗知識,可以根據片段的相關性和邊緣連接配接來連接配接群組合片段。這些知識是通過大量碎片恢複過程學習得到的。然而,盡管人們能夠從較大的碎片中修複物體,但無法重建像素點被随機排列的圖像(例如,從圖 2B 中的圖像「a」到圖像「b」)。這是因為圖像從「b」到「a」的原始資訊已經完全丢失。
盡管如此,人們可以根據「a」中像素(特征點,FP)的相似性将圖像從「a」重構為「c」。新圖像「c」比圖像「a」更有結構,甚至在花朵、樹幹和樹葉等各種圖案上的模式非常接近原始圖像。
所提出的 AggMap 旨在通過以自監督的方式模仿人類的組裝能力(解決拼圖遊戲),将 1 維無序的特征點聚合和映射成 3D 結構化的特征圖(Fmap)。這種結構化過程能夠将無序的特征點映射到結構化模式中,以增強 CNN 更有效地對無序資料的學習。
圖 2:重建和結構化過程的示例圖。(A)将破碎的碎片恢複為具有特定模式的物體圖像。(B)将随機排列的圖像分别重建和結構化為原始圖像和結構化的圖像。
是以,作者将 AggMap 稱為特征點的「拼圖求解器」(Jigsaw puzzle solver),旨在通過特征點(feature point, FP)本身的内在相關性和拓撲連接配接性來将一系列的高次元、無序的特征點拼圖般地聚集在一起,形成一個具有特定模式的、有序的、多層的、結構化的特征圖譜(feature map),AggMap 的特征點拼圖是通過自監督來完成。
圖 3:特征點拼圖求解器 AggMap,每個像素塊相當于一個特征點。
具體來講,自監督的 AggMap 來結構化特征點主要分為以下幾個步驟(如圖 4 所示):
基于特征點的相關性距離矩陣來衡量特征點的遠近和拓撲連接配接性(特征點的相關性由樣本來衡量);
基于該距離矩陣來進行特征點的 2D 嵌入。
将 2D 嵌入的特征點(2D 散點)配置設定到 2D 的規則格點中。
為了豐富輸入的資訊,作者使用了層次聚類算法來對特征點進行聚類。類的個數是一個超參數,每個類是一個單獨的通道,将特征點配置設定到不同的通道上,進而形成 3D 的結構化資料。
總結來說,自監督 AggMap 使用了 UMAP 思想,通過學習其資料的内在結構來結構化無序的特征點。其代理任務是最小化在輸入資料空間建構的和嵌入二維空間中建構的兩個權重拓撲圖之間的差異。是以,AggMap 是通過流形學習和層次聚類來暴露特征點的拓撲結構和分層結構,以此來生成結構化的特征圖譜。
圖4:自監督 AggMap 拟合過程的流程圖。
無監督AggMap重構随機打亂的MNIST圖像
為了測試 AggMap 的特征結構化能力,作者将 MNIST 資料任意随機打亂生成「雪花圖」,「雪花圖」完全丢失了原有圖像的資料模式。然後基于像素點無序的「雪花圖」來使用 AggMap 進行資料結構化。
AggMap 資料結構化的過程中,本質上是基于 UMAP 思想最小化交叉熵損失函數 CE(最小化權重圖 D 和 F 的差異)的過程。作者采用了 500 次疊代來進行優化權重圖F的布局,動态視訊如下所示。
(示例代碼見:https://github.com/shenwanxiang/bidd-aggmap/blob/master/paper/example/01_mnist_restore/MNIST-AggMap.ipynb)
視訊 1:AggMap 重構像素被打亂的 MNIST 的動态過程。
視訊 2:AggMap 重構像素被打亂的 MNIST 的動态過程 2。此視訊包含 0-9 的數字在重構過程中的動态變化。
随着疊代次數(epochs)的增加,生成的 Fmap 變得更加結構化,并最終在損失達到收斂時形成穩定的模式。
AggMap 可以恢複随機排列的 MNIST 的原因是,作者認為盡管像素點已經随機排列(打亂),但 MNIST 的像素特征點的流形結構并沒有完全改變(即拓撲結構仍然可以通過它們的成對相關性來近似),并且流形結構可以用低維的權重圖來近似。
盡管 AggMap 可以将随機化的 MNIST 大緻地還原為原始圖像,然而無法将随機化的F-MNIST 還原。MNIST 是曲線形資料,特征像素點之間的相關性不是離散的而是更均勻分布,這符合 UMAP 的資料均勻分布假設。
作者在 AggMap 特征重組的圖形布局優化階段比較了 MNIST 與 F-MNIST 的交叉熵 CE 損失和 PCC相關性。MNIST 具有更低的損失和更高的 PCC 值,表明 MNIST 中的 2D 嵌入分布更類似于原始資料的拓撲結構。MNIST FP 的最終 2D 嵌入也比 F-MNIST FP 的分布更均勻。
是以,AggMap 可以重構随機 MNIST,部分原因是盡管MNIST 像素點被随機置換,但像素點之間的流形結構并沒有完全改變,并且流形結構可以通過低維權重圖來近似。随機化的F-MNIST 被重組為更緊湊的模式,其中一些局部更新檔恢複為原始更新檔。是以,AggMap 可以将随機化的 F-MNIST 重構為高度結構化的形式,即使它不能完全恢複為原始圖像。
由于特征點的之間的相關性是根據樣本來衡量的,是以樣本量的大小不同可能導緻特征點之間的相關性距離有差異。非常小的樣本可能無法準确衡量特征點的内在相關性。AggMap 具有單獨的拟合(fit)和轉換(transform)階段,這有助于在大量無标簽的樣本上進行特征點的距離測量(或者預訓練)。
作者分别使用了像素随機排列的MNIST訓練集的 1/1000(60樣本)、1/100(600樣本)、1/10(6千個樣本)、1/5(1.2萬個樣本),1/2(3萬個樣本)和全部 6 萬個樣本進行預訓練(如圖 5),得到的結構化程度也不一緻。非監督拟合的樣本量越大,其生成的特征圖譜越結構化,随機打亂的 MNIST 也越接近真實的數字。
圖 5:AggMap 預拟合在不同數量的随機排列圖像以重建 MINST 圖像(RPAgg1)。
基于聚類的多通道的優勢
AggMap 資料結構化主要聚焦在特征在 2D 的空間相關和多通道上。為了進一步增強基于 CNN 的模型 AggMapNet 對無序資料的學習效率,作者使用了基于聚類的多通道生成政策。
該思想創新性地将特征點聚類成 C 個聚類簇(cluster),每個聚類簇的特征點将被配置設定到一個單獨的通道中。
與單通道相比,多通道特征圖譜是一種非堆疊形式的資料表征。C 越大,特征點被越細粒度地分開,作者通過實驗結果證明了該方法對于 CNN 模型 AggMapNet 的提升效果非常顯著。
多通道的資料表征有明顯的優勢,如圖 6 所示,在一個細胞周期資料集上(5 個樣本,每個樣本是一個細胞周期,每個周期都有 5162 個基因表達,但表達量不一樣),通過聚類的多通道方式(增加通道數),很容易選出各個周期特異性的基因。
這相當于特征選擇性學習,對于高次元的特征,避免了傳統方法的特征選擇過程,實作了自動化、多層次的學習。
圖6:AggMap 在細胞周期資料集CCTD-U重構上的表現。
作者進一步在不同資料集上測試了多通道對模型性能的影響,如圖 7 所示。多通道與單通道(C=1)相比,能夠顯著提升模型的性能。通道數越多,效果越好,但過多的通道數可能引起過拟合。是以通道數是一個超參數,但是整體而言,多通道對模型的提升效果非常顯著。
圖 7:通道數對 AggMapNet 模型的性能影響。
AggMapNet的可解釋性與應用
為了增強基于 CNN 的 AggMapNet 模型的可解釋性,作者還內建了兩種模型無關的特征歸因方法:基于核 Shapley 值的解釋方法(Shapley-explainer)和基于簡單的特征替換的方法(Simply-Explainer)。
雖然核 Shapley 方法基于博弈論的堅實理論基礎,并且是被廣泛用于模型未知的特征重要性計算,但作者提到它在特征重要性的測量中存在 2 個主要問題:第一,是在計算全局特征重要性的時候計算複雜度是指數級别的,在高維資料中使用 Shapley-explainer 計算特征重要性非常耗時。第二,是由于核 Shapley方法考慮的是每個特征對模型預測值(而不是真實值)的貢獻量,是以它可能無法充分探索特征與真實結果之間的全局關系。
作者開發了 Simply-explainer 是為了為 AggMapNet 模型解釋提供額外的方法。Simply-explainer 旨在更快地計算高維組學特征的全局特征重要性,并考慮特征與真實标簽的關系。
圖 8:AggMapNet 中的 Simply-Explainer 計算特征重要性的過程。
作者比較了 Shapley-explainer 和 Simply-explainer 的解釋效果。在 MNIST 識别模型的局部解釋中,Simply-explainer 在 MNIST 圖像識别模型中上顯示出比 Shapley-explainer 更高的 PCC 和 SSIM 值。
此外,在乳腺癌診斷模型的全局解釋上,兩個解釋器計算的全局特征重要性(GFI)高度相關。然而,Simply-explainer 的計算複雜度比 Shapley-explainer 低得多。并且Simply-explainer 中的特征重要性得分往往比 Shapley-explainer 更離散,這表明 Simply-explainer 可以成為鑒定關鍵生物标志物的競争方法。
作者進一步使用 AggMapNet 可解釋子產品 Simply-explainer,來基于高維的蛋白質組和代謝組資料來确定用于 COVID-19 嚴重程度預測的關鍵代謝物和蛋白質。這些關鍵關鍵代謝物和蛋白質與文獻報道的高度一緻。
這些解釋結果表明,Simply-explainer 可能是揭示重要特征的更好選擇。Simply-explainer 還表現出對特征重要性的高度區分,計算結果非常快,特别适合揭示高維資料集中的關鍵生物标志物。
圖 9:AggMapNet 中的 Shapley-explainer 和 Simply-explainer 在 MNIST 識别模型中的解釋效果對比。
讨論與結論
這篇論文的主要思想是基于無監督方法進行資料結構化,之後使用卷積神經網絡學習資料。通過非監督的 AggMap 和監督訓練的 AggMapNet,提供了一套高維無序資料學習的流程。
在無監督資料結構化中,聚焦在「局部空間相關」和「多通道」上的優化,顯著提升模型的性能,說明合适的資料表征對模型的學習起到極大的作用。
結構化資料的 AggMap 可以用作遷移學習,也即在大量無标簽樣本上進行特征點的相關性預計算,然後在小樣本有标簽的資料上做轉換,進而生成結構化的特征圖譜,提升模型的學習效率。
該方法非常有利于高維小樣本的表格資料的學習(Tabular data, 每一行是一個樣本,每一列是一個特征)。AggMap/AggMapNet 提供了一套有用的學習範式,未來,它可能會被用在其他領域的資料學習中。
論文連結:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac010/6517966
代碼連結:https://github.com/shenwanxiang/bidd-aggmap
線上分享
中原標準時間2月24日,機器之心最新一期分享邀請到本篇工作作者申萬祥博士,為大家介紹如何通過增強資料的表征和利用卷積神經網絡來提高生物醫學資料的學習效果。
分享主題:組學機器學習中的資料表征與卷積神經網絡
分享嘉賓:申萬祥博士,目前就讀于新加坡國立大學(NUS)藥學院,即将博士畢業并入職NUS化學系,從事AI輔助的藥物設計與合成的研究。他曾供職于AI公司如清華資料創新基地D-lab、北京曠視科技研究院等并擔任資料科學家、視覺算法研究員等職位。他的主要研究興趣包括基于機器學習的組學資料發掘和藥物發現、藥物設計、以及生物醫學資料學習算法的開發,在Nature Machine Intelligence、Nucleic Acid Research等國際期刊上發表多篇學科交叉的相關論文。
分享時間:中原標準時間2月24日19:00-20:00
直播間:關注機動組視訊号,中原標準時間2月24日開播。
交流群:本次直播設有 QA 環節,歡迎加入本次直播交流群探讨交流。
如群已超出人數限制,請添加機器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,備注「組學」即可加入。
機器之心 · 機動組
機動組是機器之心發起的人工智能技術社群,聚焦于學術研究與技術實踐主題内容,為社群使用者帶來技術線上公開課、學術分享、技術實踐、走近頂尖實驗室等系列内容。機動組也将不定期舉辦線下學術交流會與組織人才服務、産業技術對接等活動,歡迎所有 AI 領域技術從業者加入。