天天看點

生命之圈:生物資料可視化的美麗新方法

作者:大資料文摘
生命之圈:生物資料可視化的美麗新方法

大資料文摘作品,歡迎轉發至朋友圈,如需轉載請在背景留言申請授權,已申請到授權的朋友不必再次申請,按約定轉載即可。

編譯|席雄芬 丁一

校對|姚佳靈

當Martin Krzywinski在加拿大的邁克爾·史密斯基因組中心做系統管理者時,他并沒有打算成為21世紀的生物學資料可視化的先驅。事實上,他甚至沒有生物學的背景,雖然他已經完成了實體學和數學的研究所學生課程。但那是上世紀90年代末,他能夠操控一台電腦。

Krzywinski建立了該中心的第一個資訊系統,加強了其安全性,設計并優化了鍵盤布局,基本把極客能做的事情都做了。與此同時,他開始幫助研究人員做他們的項目,逐漸了解了他們的資料和資料的潛力。剩下的就是創造曆史了。

急速下降的DNA測序價格以及細胞複雜性的日益增加很快釋放了基因資料的洪流。但是,收集資料的工具已經遠遠超過了那些描繪資料的工具。Krzywinski說:“我很沮喪,閱讀了大量的科學論文卻不了解他們在說什麼。我隻是希望它們能夠變得更簡單,我沒辦法做什麼使生物學更加簡單,但我開始囑咐人們做出更清晰的圖(來描繪生物學)。”

為了做到這一點, Krzywinski開發了Circos ,一個開源的可視化工具用來以圓形排清單格資料。這是一個簡單的想法,但具有革命性的意義:它已經數千次被用于可視化,并成為了我們當下資訊豐富性的獨特審美代名詞。

生命之圈:生物資料可視化的美麗新方法

從右上角順時針看,人類、黑猩猩、老鼠、斑馬魚的基因排列成一個圓圈,每一個顔色方格對應一對染色體顔色。線條相連類似DNA序列,隻是在視覺上強調,我們與其它物種共享多少基因。(圖:Martin Krzywinski/EMBO)

生命之圈:生物資料可視化的美麗新方法

這是英國圖書館正在進行的項目,從馬到鴨嘴獸,對比16個不同物種與我們基因的不同。在每個小格中,一個圓圈代表與一個人類染色體之間的對比結果,人類的基因沿着圓的下半部分排列,而給定物種的整個基因組則位于圓的上半部分。(圖:Martin Krzywinski)

生命之圈:生物資料可視化的美麗新方法

在1848年9月13日,一次爆炸使得一根鐵棒穿進了鐵路建築工頭Phineas Gage的頭骨。令人難以置信的是,Gage活下來了,但他的個性和氣質發生了巨大的變化,這使他成為早年的行為神經解剖學教科書的案例。在這幅圖像中,研究人員為那根鐵棒如何擾亂人腦的特定系統建立模型,排列在Circos圖的圓周上,它們之間的聯系用連線表示。(圖:Van Horn 等/PNAS)

生命之圈:生物資料可視化的美麗新方法

對于這幅圖像,Krzywinski試圖以一種新的方式來思考基因組,轉換它們的特征(即重複内容的數量)為方向矢量。他說:“現在,這些基因組都有意想不到的形狀,這隻是純路徑算法。有的圖是圓形,有的圖看似像大陸或國家的形狀。我隻是認為這是用一種令人吸引的方式來看基因組,而不隻是給出一個序列。”(圖:Martin Krzywinski)

生命之圈:生物資料可視化的美麗新方法

對于資訊設計者,π值是非常具有魅力的。Krzywinski為了繪制這兩幅圖,用顔色對數組編碼,左圖中,顯示的是π值的前3422位;右圖中,顯示的是π值的前123,201位,它們以阿基米德螺旋狀排列。(圖:Martin Krzywinski)

生命之圈:生物資料可視化的美麗新方法

亂糟糟的毛球:像這樣的可視化幫助激發了Krzywinski的工作靈感。通常所說的毛線團,被用于将網絡間的互相作用可視化。在正确的場景中,它們非常有用,但是當網絡變得龐大而複雜時,它們沒有辜負它們的綽号。Krzywinski說:“許多毛球看起來是随機的,而且許多時候,它們的結構會迷惑我們而讓我們陷入思考我們知道某些實際上不知道的東西。”例如,上面的毛球來自于人類蛋白質的互相作用圖,暗示了實際上并不存在的架構。研究人員寫到:“明顯地,黃色的節點帶是圖布局算法的一個僞影。”。該算法并沒有解釋紅和藍邊緣明顯的分離,但是人的裸眼能識别。(圖:Rual 等/Nature)

生命之圈:生物資料可視化的美麗新方法

Krzywinski最新的可視化工具是Hive Plot,在Hive Plot中網絡節點被配置設定給有屬性定義的軸,比如:連通性、密度、中心度。正是如此排列,結構特征變得明顯,上圖中,處于上方的是現在的E. coli(左)和Linux(右),對比處于下方的原來版本的結構特征要明顯很多。Krzywinski說過,設計hive plots或者任何可視化的關鍵是要了解需要強調什麼參數。雖然一些資訊學家仍然相信,隻要有足夠的資料,就能按照規則簡單地呈現原始資料。他說:“我不相信那個,你需要策劃和解釋。結果不會就這樣出現。”(圖:Martin Krzywinski)

生命之圈:生物資料可視化的美麗新方法

在這裡,研究人員比較三株拟南芥(一種經常被用來研究植物遺傳模式的植物)和它們共同的祖先。每一株的基因組被放置在一個軸上;如果它們來自同一祖先序列,這兩個區域就派生相連。(圖:Mandáková 等/植物細胞)

生命之圈:生物資料可視化的美麗新方法

Circos不僅用于比較基因組,也用于描繪它們,比如Gloeobacterviolaceus,一種最原始的光合細菌品種之一的直系後裔。雖然這張圖無疑對科學家比對一個門外漢富含更多的意義,它仍然是一個引人注目的圖:相比于十年前基因組的可視化,是意義深遠的,并且明顯更加豐富的。圖:Saw等/ PLoS One

生命之圈:生物資料可視化的美麗新方法

并非所有的Krzywinski的工作都涉及到資料可視化。這些小鼠胚胎血管圖像是去年一期美國國家科學院院刊的封面圖檔,它來自多個微觀橫截面圖像的合成,它們的顔色根據哈勃太空望遠鏡的照片和《星際迷航》進行了調整。Krzywinski說:“現在可以說已經完成了我的一個人生目标了,使生物學看起來像天體實體學”。(圖: Krzywinski / PNAS)

大資料文摘編譯者簡介

席雄芬北京郵電大學無線信号處理專業研究所學生在讀,主要研究圖信号處理,對基于社交網絡的圖資料挖掘感興趣,希望借助此平台能認識更多的從事大資料方面的人,結交更多的志同道合者。丁一杜克大學藥理系在讀博士,對生物資訊學和臨床藥學的大資料挖掘很感興趣。姚佳靈家庭主婦,對資料分析和資料處理方面的知識很感興趣,正在努力學習中。

2015年8月幹貨檔案打包下載下傳,請點選大資料文摘底部菜單

生命之圈:生物資料可視化的美麗新方法

大資料文摘精彩文章:

回複【金融】 看【金融與商業】專欄曆史期刊文章

回複【可視化】感受技術與藝術的完美結合

回複【安全】 關于洩密、黑客、攻防的新鮮案例

回複【算法】 既漲知識又有趣的人和事

回複【谷歌】 看其在大資料領域的舉措

回複【院士】 看衆多院士如何講大資料

回複【隐私】 看看在大資料時代還有多少隐私

回複【醫療】 檢視醫療領域文章6篇

回複【征信】 大資料征信專題四篇

回複【大國】 “大資料國家檔案”之美國等12國

回複【體育】 大資料在網球、NBA等應用案例

長按指紋,即可關注“大資料文摘”

專注大資料,每日有分享

覆寫千萬讀者的WeMedia聯盟成員之一