10個巨大的科學難題需要大資料解決方案

在勞倫斯伯克利國家實驗室的超級計算中心，我上司國家能源研究科學計算中心nersc的資料和分析小組。在這個角色上，我追蹤需要大資料分析來解決的前沿科學問題。超過6000個使用者使用了nersc的超級計算平台來解決各類科學問題，從天文學到有機生物學，從分子一直到亞原子實體。典型的資料集從十萬兆位元組到帕位元組不等。

盡管nersc已經有先進的計算和存儲資源可以處理複雜邏輯，但是真正的挑戰是在于選擇可擴充的分析方法和軟體架構。在本文中，我的科研合作者和我評論了在科學資料分析中最難的一些問題，希望能夠邀請更多的資料科學社群參加到正在發展中的的科學研究工作中。

每一天，世界各地的天文望遠鏡都在進行“巡天”以收集圖像資料集。這些資料集包含關于大量恒星、星系和類星體等宇宙天體的位置和結構的有價值資訊。不幸的是，這些資料集不便于科學家們進行通路或者共享。

由勞倫斯伯克利國家實驗室的天體實體學家、統計學家和計算機科學家組成的團隊為了尋求這一他們認為科學界最大的圖模型問題的解決方案，正在開發一個全新的、完全可生成的宇宙模型，稱為“塞萊斯”（celeste）。通過對龐大的圖形模型使用複雜的變分推理（一個高可擴充的算法）以及分布式蒙特卡洛馬爾科夫鍊推理（mcmc-markov chain monte carlo），塞萊斯項目旨在為所有在可見宇宙中的天體建立統一的目錄。這意味着從500萬億位元組的圖像資料或是約一萬億像素資料中推理o(1000億)數量級的參數。

主要合作者：大衛·施萊格爾（david schlegel，勞倫斯伯克利國家實驗室），喬恩•麥考利夫（jon mcauliffe，加州大學伯克利分校），以瑞恩·亞當斯（ryan adams，哈佛大學）

如今宇宙中的物質結構自從宇宙大爆炸開始便受到将物質牽引到一起的重力的引力作用以及暗物質的“負壓力”膨脹的影響。為了了解宇宙的組成（例如，那裡有多少物質，以及暗物質是由什麼組成的），宇宙學家研究了從天文調查中得出的星系分布。随後，他們的觀察結果與涉及幾萬億粒子的理論模拟的預測結果進行了比較。但是，這裡就有一個分析問題：由于資料集的大小從30到300萬億位元組不等，用于特征化物質結構的統計資料計算起來太過密集，他們包含了星系的叢集、2度關聯計算以及3度關聯計算。

最近我們開發了bd-cats系統，這是一個資料叢集算法dbscan的高可擴充版本，它可以在超級計算平台上完整聚集數萬億粒子資料集。bd-cats正在幫助了解在等離子實體（關于帶電粒子和流體與電場和磁場互相作用的研究）中粒子加速背後的機制，并在宇宙學的資料聚合能力方面呈現出優越的性能。

主要合作者：黛比·巴德（debbie bard，勞倫斯伯克利國家實驗室），澤裡亞·盧基奇（zarija lukic，勞倫斯伯克利國家實驗室），莫斯托法·帕特瓦裡（mostofa patwary，英特爾）

氣候變化問題是人類最為緊迫的問題之一。在nersc，我們對于研究未來全球變暖會如何影響氣候的各種方式均深感興趣（遠遠不止是平均海平面上升和全球平均溫度上升）。我們還感興趣的是，在極端天氣事件的統計資料中檢測是否将會有氣候變化。比如飓風，在未來我們認為飓風會變得更弱還是更強？我們認為四級和五級飓風會更頻繁的登陸嗎？天氣資料分析中的一個很大的挑戰性問題是涉及到因果推理：我們是否可以識别異常事件并将它們和一些機制建立因果關系？這些機制在未來會怎樣變化？

通過分析大量資料集來識别極端天氣模式與視訊資料中的語音檢測相類似，我們不僅需要處理一百萬個網格點，每個點又有一大堆變量。解決這樣的挑戰需要我們開發出高可擴充的模式識别能力，讓我們可以挖掘100萬億位元組到1帕位元組的大規模時空資料集。我們已經成功應用了mapreduce架構（在極端天氣分析工具包（toolkit for extreme climate analysis）中實作），并且正在積極探索使用深度學習來解決這一問題。

主要合作者：普拉伯特（prabhat，勞倫斯伯克利國家實驗室），邁克爾·魏納（michael wehner，勞倫斯伯克利國家實驗室），威廉·德魯·科林斯（william d. collins，勞倫斯伯克利國家實驗室）

在網際網路的時代，對于我們來說在一瞬間釋出、交流以及共享結果變得十分平凡。然而，對海量資訊的便捷通路帶來了獨有的問題：對于個人而言，對在一般科學以及特定主題的最新進展進行追蹤變得難以管理。此外，所有的資訊來源并不是同等可信的，我們需要在得出重要的結論之前考慮的資訊的數量和品質。最後，科學界迫切需要對科學文獻進行自動整理、挖掘和品質評估。

與這個問題關聯的資料分析的挑戰很大程度上與處理出版物中的非結構化資料有關。比如說文本、表格、圖表、圖像、原理圖、等式以及引用。每一個科學領域都有一個約定的分類法，可能編寫成文也可能沒有。是以，關鍵的挑戰是要從出版物中根據主題（比如說疾病或者療法）抽取科學實體，以知識圖譜的形式建立實體之間的關系，并且基于多條線索為實體和關系進行權重。最後，支援基于知識圖譜回報的流利問答功能，并要具有相當置信度和關聯推理，這将對改進更廣泛的科學界的生産力十分關鍵。許多有發展前景的技術眼下正在開發之中：ibm 沃森系統慶祝了廣為人知的勝利，它在jeopardy!（一個美國人機智能問答）大賽中戰勝了人類專家。而由斯坦福開發的deepdive資料管理系統在一些科學領域展示了令人期待的結果。未來随着這些技術以及類似技術的更多的定制化開發，征服更多的科學領域隻是時間問題。

主要合作者：亞當·阿金（adam arkin，勞倫斯伯克利國家實驗室），安納博阿夫·賈恩（anubhav jain，勞倫斯伯克利國家實驗室），普拉伯特（prabhat，勞倫斯伯克利國家實驗室）

數十年間，人類一直試圖了解人類大腦的神經活動是如何看似毫不費力地生成語音的。大腦的哪一部分功能性組織負責計算并生成語音？功能獨立的大腦區域是如何互相溝通來産生協調模式并進而産生語音？從語言的組織到發音在大腦皮層上有哪些互動？在這個獨特的人類能力上的深入了解對于語音修複學的發展的是十分重要的，語音修複學旨在為失去語音能力的人恢複該能力。

了解大腦皮層生成語音的過程要求記錄大面積皮質上高時空分辨率的神經活動。記錄人類的這一活動隻能通過侵入性腦電圖技術來完成，這使得資料非常稀有。我們最初的調查旨在将大腦活動的時空模式“翻譯”成有意連續的語音。然而這些資料有長時間的時間依賴性、大量的噪聲并且受到樣本數的限制。目前的資料集大小約在10兆位元組。此外，将來自多個發言人樣本的資料組合起來是具有挑戰性的，但是也是最後成功的關鍵所在。

我們使用深度神經網絡在對感覺運動皮質上的資料基于57個元音輔音音節的分類上取得了最前沿的結果。此外，為了實作一個混合式連續分類系統，我們正在調研遞歸網絡。對于最終為人們開發的發聲器來說，用于語音生成相關的神經分析的計算元件必須是實時的且非常低能耗的。

主要合作者：克裡斯·布沙爾（kris bouchard，勞倫斯伯克利國家實驗室），愛德華·昌（eddward chang，加大舊金山分校），彼得·徳内斯（peter denes，勞倫斯伯克利國家實驗室）

生命是以多尺度的形式組織和持續的，從單個蛋白質到細胞器，細胞，以及微生物群到組織，器官到生物有機體。捕獲這些資料在規模上有巨大差異，從宏觀和中觀到微觀和納米級，這要求多模态成像。然而，沒有一個單獨的成像技術可以捕獲整個範圍。此外，每一種技術提供的在不同長度、時間、分辨率上有些許互補的資料

這一特定問題的資料分析挑戰包括分割技術、生物實體分類技術的開發，以及實作一個以地圖為中心的資料庫用以執行量化分析。這項工作的最終目标是整合所有的相關時空資訊（一個大小約在100兆位元組到1萬億位元組的資料集）到一個通用的坐标系，進而得到統計上有意義的定量的地理資訊量（例如計算一個形狀的表面積或者體積），并且将生物實體分類到一個可視化資料庫，使得它們可以通過這些地理資訊的模式進行查詢。這使得生物學家可以使用定量的資訊，通過三維結構辨別、分子/代謝組成以及核心高分子成分（如蛋白質）的本地化等，來區分不同的疾病的狀态和發展情況。

主要合作者：曼弗·雷德奧爾（manfred auer，勞倫斯伯克利國家實驗室），華金·科雷亞（joaquin correa，勞倫斯伯克利國家實驗室）

從頭測序序列拼接是現在基因學中最重要的計算之一。這個過程涉及到将短小的、随機抽樣的“鳥槍”基因序列轉化成一個連續的、準确的複雜基因組的重構。複雜基因組的重拼接要求大量序列資料。是以，由于海量的計算需求以及拼接大規模基因組和宏基因組的算法複雜度，從頭拼接已經不能跟上洪水般的資料（大約在1到10萬億位元組）的步伐。例如，高重複度的小麥基因組比人類的大五倍，從結合複雜度和規模來看，這樣的拼接、映射是特别具有挑戰的。

在從頭測序基因組拼接中，起始處理和資料約簡（k-mer分析法）是受到帶寬限制的，随後的徳布魯金圖（de bruijn graph）的構造和周遊是受到延遲限制的，序列對齊是受到計算量限制的。許多針對低直徑圖開發的圖處理技術不适用于徳布魯金圖，因為它有非常低的度和大直徑。我們通過hipmer系統來解決這一挑戰。這是一個高性能、端對端的基因序列拼接器，通過并行地在一個超級計算機的多叢集上同時執行代碼，進而簡化和加速基因組拼接以及映射。以前需要花費數月的處理過程，比如拼接整個人類的基因組，現在能在大約8分鐘之内完成。

主要合作者：伊萬格洛斯·喬格納斯（evangelos georganas，加州大學伯克利分校），艾登·布拉克（aydin buluc，加州大學伯克利分校），丹·洛克薩（dan rokhsar，加州大學伯克利分校），凱西·伊列克（kathy yelick，勞倫斯伯克利國家實驗室）

大約80%的新藥因為不可預期的對人體的毒性而失敗。此外，每年有超過500種的基礎工業用化學品被開發，其中的大部分将不會接受任何種類的毒性檢測。毒理學是一種我們所依賴的科學原理，來保護我們不受癌症、出生缺陷、心血管以及神經退化性疾病的侵害。對它們的風險評估仍然依賴于一個較小集合的模型物種，每種化合物要花費超過五年的時間以及超過150萬美元。通過風險評估，我們了解到了緻命劑量，以及在一些情況下的最小緻病劑量。但是我們對于毒理機制一無所知。

我們每個人有獨特的生活史、遺傳基因、微生物以及生理特征，它們互相作用産生我們個性化的對周邊環境挑戰的易受影響的部分和适應恢複的能力。毒物對于胎兒的影響與成人完全不同，在一個基因背景下有效的藥物可能對于另外一個人來說極少的劑量都是緻命的。

盡管我們不能在每一種遺傳基因背景，甚至是每一種最終的閱聽人物種上測試每一種化合物，但是我們可以通過可得到的、成本效益高的資料将毒物與毒理畫像以及中毒後的分子狀态關聯起來。我們可以認識個體易受性的基礎，并将我們的易得的疾病和毒性反應映射到整個生命樹上。利用生物科學的潛力來達到準确的毒理學測試将使得在産品的開發前期就可以進行精确的分析和風險評估，有助于減少開發的開銷。

這個問題天生就是一個計算問題，并對我們的社會和星球是一個巨大的挑戰。我們對于這一挑戰的最主要的解決方案是分子系統毒理學（在多物種環境下暴露生物體）：我們以一小群易馴服的生物為模型進行測試，然後使用定量的生物進化工具（包括針對多物種分析的新形式的張量回歸、應用量子計算的路徑發現、深度學習以及基于随機森林的回顧學習機）來對公共祖先和所有的現存物種做出預測。這一方案是通過映射和利用大約18萬億位元組的高容量資料集來完成的。在兩年之内，我們預期這些資料集的大小将會增長到1帕位元組。

主要合作者：本·布朗（ben brown，勞倫斯伯克利國家實驗室），約翰·科爾伯恩（john colbourne，英國伯明翰大學）以及環境學和毒理學協會

技術創新很大程度上受新材料的發現所驅動。我們經常被給到一組理想中的材料屬性（例如：硬度、透明度、電導率、可承受電壓等），并要求發現具有這些屬性的材料的挑戰。如今的計算機模型可以近似可靠地預測材料的屬性，并且有收集了上千種這類預測的資料庫可供使用。例如，materials project 是一個公開可通路的資料庫，該資料庫在nersc收集了成千上萬種材料的資訊。下一步是分析這一龐大的資料集（大約100萬億位元組），測試和發現新的解釋材料行為的科學原理，展現複雜的資料（例如，周期性三維水晶），并将發現和開發新材料所需要的時間從現在的大約20年減少到很短的時間。

材料的自動化分析要求我們解決兩個關鍵問題：自動化特征學習以及高維回歸。一旦這些問題被解決了，那麼我們可以想像一個線上系統，它能自适應地探索材料部分標明的設計空間來決定最有前景的值得模拟和制造的材料。

主要合作者：安納博阿夫·賈恩（anubhav jain，勞倫斯伯克利國家實驗室），克裡斯丁·佩爾松（kristin persson，勞倫斯伯克利國家實驗室）

高能粒子實體旨在從最基本的亞原子層面了解宇宙的秘密。盡管我們的了解已經進步了不少，并在最近發現希格斯玻色子後達到一個高峰，但是我們知道仍然有許多關鍵的未解之謎需要解決，比如暗物質的來源以及重力在萬實體論中扮演怎樣的角色。探索這些未解之謎需要最龐大最複雜的實驗設施。比如，大亞灣反應堆中微子實驗就是這樣一個例子，它旨在推進我們對于中微子的了解。中微子是由衰減中的放射性元素生成的，比亞原子粒子少一個電子。另外一個例子是大型強子對撞機，它有所有粒子加速器中的最高能量，旨在發現從未見過的粒子和互相作用。

這些裝置使用了數十億管道的模式和異常檢測器，以納秒的精确度收集資料，産生了極大規模的資料管道。其資料集大小從上百萬億位元組到上百帕位元組，快速而準确的分析是很有必要的。這一領域已經應用“模式檢測”技術有一段時間了，但是用它們直接對實體事件在原始資料的規模下進行分類仍然是一個挑戰。我們目前使用深度神經網絡來學習新的資料的高層次表達方式。轉化後的資料将會被用于快速的資料分析，包括信号和背景源的可視化和特征化。

主要合作者：克雷格·塔爾（craig tull，勞倫斯伯克利國家實驗室），瓦希德·佩姆奇（wahid bhimji，勞倫斯伯克利國家實驗室），彼得·薩多夫斯基（peter sadowski，加州大學歐文分校）

strata+hadoop 2016-8-3登入中國！請持續關注大資料文摘相關報道

原文釋出時間為：2016-04-30

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

10個巨大的科學難題需要大資料解決方案

繼續閱讀

淺談企業活動中進行資料分析的重要性

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

win10本地scala和spark安裝安裝scala安裝spark