天天看點

結合優選算法 利用可視化進行進階資料分析的五個步驟

結合優選算法 利用可視化進行進階資料分析的五個步驟

【導語】

在大多數科學研究中,大量的實驗資料的統計分析工作通常由計算和統計方面的技術專家完成。 遺憾的是,這些專家不是相應領域研究的專家,這可能導緻分析中的缺陷。 如果,研究人員本人能夠輕松使用工具和方法來處理和分析資料,那麼肯定會獲得豐富研究成果。

問題

許多科學家都面臨着共同的挑戰,特别是那些分子生物學領域科學家,他們的實驗産生了大量的資料。對于如此海量的資料,人們需要軟體工具來有效地解釋其資料。

如今,面臨日益增長的大資料,計算機軟體仍大多側重于資料處理,通過面向技術專家的使用者界面,以标準的統計方法來呈現資料結果。 是以,科學家/研究者很難深入解釋這些資料,大量的資料分析工作隻能由專業的生物資訊學家和生物統計學家來執行。 然而,這個模式并不盡如人意,因為通常情況下,科學家才是最了解該研究領域的人。

結合優選算法 利用可視化進行進階資料分析的五個步驟

解決方案

結合優選算法,可視化方法可以在某種程度上應對這些挑戰,并可使更多使用者去探索和分析資料。可視化技術,給大家提供了一種快速識别重要結構和模式的積極有效的方法,而且回報資訊也很易于了解。 從團體化的視角來看,這也是一種很重要的方法,因為它使更多的科學家能夠分析和讨論實驗資料和結果,進而推動創新。

當使用可視化來識别資料中新的子組資料和模式時,我們建議使用五步法來確定可重複的顯著的結果。 此分析步驟的是出于多方面的考慮, 最基本的意圖是嘗試在資料中識别全新的組或模式, 另一方面是為了探索資料,并且僅檢測預期的模式,這是一種品質控制的好辦法。 通過應用這個五步法,科學家就可以研究大量複雜的資料集,而不必成為統計專家。 該方法在下面更詳細地描述,但是一些基本概念需在此交代清楚, 它可應用于任何類型的生命科學行業資料,可以是高次元資料和樣本資料,例如 rna-seq,基因表達陣列,蛋白質組學,dna甲基化,代謝組學等等。

第一步:降低資料次元

首先,高維資料需要被降階到較低的次元,使得其可以進行3d繪制。 為此,我們建議使用主成分分析(principal component analysis, pca)的方法。另外,還需要用資料染色工具來增強資訊,并用過濾器等工具來篩選資料集的部分。

結合優選算法 利用可視化進行進階資料分析的五個步驟

在五步法的起始階段,研究人員會對活動資料集中存在的最強信号進行檢測和去除。 一旦識别了該信号就可以去除它,以便檢視是否存在其他模糊但仍然可辨認的信号。移除一個強信号,通常會導緻活動樣本和或變量(特征)的減少。

第二步:評估信噪比

該過程的第二步是通過使用pca、投影分數和随機化來評估資料中的信噪比。 投影分數會顯示檢測的信号或模闆的視覺強度。

結合優選算法 利用可視化進行進階資料分析的五個步驟

第三步:方差濾波去除噪聲

第三步是通過方差濾波去除“噪聲”。 如果研究人員可以在其活動資料集中看到顯著的信噪比,那麼他們應該嘗試去除一些最可能貢獻噪聲的活躍變量。 為了識别所需的方差過濾量,使用者可以使用由pca可視化和投影得分的方法來獲得方差過濾量。 通過測試多個不同的方差設定,可以更容易找到清晰的模式。

第四步:統計測試

結合優選算法 利用可視化進行進階資料分析的五個步驟

第四步,統計測試是可選的執行步驟,可以應用于五步過程的任何/所有其他階段,也就是說,可以在初始分析期間執行,或者當某個步驟重複的時候執行,或者在步驟結束時執行,或者不做也可以。 被測資料組可以是預定義的,或者是在疊代過程中确定下來的。 (建議對第二個資料集去驗證發現的資料結構和數組)

第五步:搜尋子組或群集

最後一步,使用圖形來細化子組或群集的搜尋。 例如,在網絡或圖形中連接配接樣本,使其可以搬升至更高的次元(即,大于三個次元,可以用3d pca圖來表示),因為在樣本圖中建立的圖形是基于所有活動變量的空間距離,是以它可以使使用者對資料結構有更深入的了解。

重複這五個步驟,直到無法再找出新的資料結構。

就此方法來操作,可視化可以作為研究人員的強大工具。資料能夠以清晰的方式可視化,科學家可以輕松識别那些有趣和/或重要的結果,而不必依賴于專業的生物資訊學家和生物統計學家。 相反,科學家可以與生物資訊學家合作,去收獲更有意義的成果。

本文作者:carl johan ivarsson

來源:51cto

繼續閱讀