天天看點

王童:知行合一 · 當大資料遇到生物學 | 優秀畢業生專訪

[ 導讀 ]清華-青島資料科學研究院(以下簡稱“資料院”)自2014年4月成立以來,秉承“學校統籌,問題引導,社科突破,商科優勢,工科整合,業界聯盟”的指導原則,搭建跨學科交叉融合平台,創新跨學科交叉培養模式,培養具有大資料思維和創新能力的“Π”型人才。

大資料能力提升項目由清華大學研究所學生院,資料院及相關院系共同組織,面向在校研究所學生(包括碩士和博士)。項目形成大資料思維與技能、跨界學習、實操應用相結合的大資料課程體系和線上線下混合式教學模式,旨在提升學生資料分析和管理資料的能力,讓學生在本專業的學習和實踐中擴寬思維,并鍛煉在本專業領域的資料研究能力。

截至2019年6月,已有來自31個院系的271名同學獲得“大資料能力提升項目”證書,其中資訊類同學160人,非資訊類同學111人。

大資料能力提升項目究竟為同學們帶來了什麼改變?下面,就讓我們聆聽優秀畢業生們與大資料結緣的故事,一起發現大資料對他們學習、科研和創業的啟發與幫助吧!

王童:知行合一 · 當大資料遇到生物學 | 優秀畢業生專訪

2019年畢業于生命科學學院生物學專業計算生物學方向的博士生王童,在2015年加入大資料能力提升項目。在大資料的四年中,他将大資料技術與生物學原理緊密結合,利用深度學習和大資料技術進行蛋白質三維結構預測和蛋白折疊機理的研究,第一次把深度學習技術和大資料技術應用到了片段組裝法的蛋白質結構預測中。他即将入職微軟亞太研究集團,任進階算法工程師。

一、我與大資料:專業結合,綜合培養,團隊合作,長期追蹤

與大資料結緣,王童更多是出于自己的專業。計算生物學經常面對的是百億到千億量級的資料量,需要多次處理、清洗的龐雜資料。

“生物資訊也是一種大資料。”

大資料能力提升項目的課程包括了大資料理論學習、大資料實踐實習以及相關知名企業的參觀走訪等内容。

理論學習主要是對大學所學的數理基礎知識、統計學習方法,高等數學學習方法等的回顧、總結和梳理。項目實踐主要是将理論知識運用到具體的項目和實踐中。

以王童印象最深的徐葳老師的大資料系統課程為例,前三分之一以講授經典算法、軟體和操作等大資料基礎知識;後三分之二則是分組做一個真實的資料課題。他當時參與的一個課題是《微網誌水軍的判别》。該課題頗具挑戰性:資料量多達數千萬條,需要用老師上課教的memory reduce的算法進行資料處理;資料很雜,需要做大量的資料清洗。

“理論和實踐相結合,知行合一。”王童在采訪中反複強調了這一觀點。“清華的同學很聰明也很努力。但是在實際應用和工作中還是需要重新去學一些東西和如何将理論運用到實際當中。實作從理論到應用的過渡,我建議大家利用好在大資料實踐課和實踐項目中應用課堂上學習的内容的機會;并且,将大資料理論運用到研究所學生的實習或者博士生的課題中也是一個很值得嘗試的方法。”

企業對接需要了解企業的需求,彙報工作進展和協商企業可提供的幫助。在這個過程中,王童真實地感覺到這個行業的現狀,有助于他今後的實習和職業選擇。他也建議同學們要勇于和項目、企業、公司合作。“大資料離不開實際的項目,隻有真正和企業溝通與合作,你才能真正了解企業的需求以及如何把技術轉變為生産力,再把生産機轉化為産品和價值。技術落地和技術變現是在課堂上和實驗室很少涉及的,但是卻是需要同學們認真考慮的一個很重要的問題。”

大資料能力提升項目彙集了來自不同專業、不同年齡、不同背景的同學,在團隊合作中,雖然開始可能會有障礙,但最後收獲的是思維的碰撞和深厚的友誼。

團隊組成很多樣,文理工科都有,組員各自發揮自己所長,計算機系同學工程能力和代碼實踐能力強,我作為組裡唯一的博士生負責設計科研路線和模型算法,文科的同學則負責項目需求調研和與客戶的交流,明确客戶的需求和協商我們需要的幫助,整個課題做下來,我們這個團隊裡建立了非常深厚的友誼。

對學員的長期追蹤是大資料能力提升項目的突出特點。在大資料的四年裡,王童學到了很多。而在畢業以後,他與大資料的聯系也不曾間斷。

“我一直和老師們保持聯系,積極參加一些相關的活動,老師們也對我有長期的跟蹤和關注,也很關心我的畢業去向和工作。我覺得這種長期跟蹤的培養模式對項目裡的學員有非常大的幫助。”

二、大資料與生物:優化預測蛋白質結構的算法

王童的博士研究課題是蛋白質結構預測,預測的模型經過兩個階段的優化,各項名額都取得了巨大飛躍:

“我的博士研究課題可以分為兩個階段,第一個課題是和哈佛大學合作的聯合項目,這個項目将序列預測蛋白質結構的F1-Score從之前其他優秀算法取得的45%提高到了約60%,第二個課題則在世界範圍内首先開發了一些相關算法,進一步改善第一個課題中的模型,将第一個課題中的F1-Score從60%提升到90%。可以說我們的研究成果是在所有名額上都是領先世界的。”

在優化模型的過程中,大資料算法在其中發揮了重要作用。

“第一個課題主要運用了傳統機器學習的算法,包括邏輯回歸模型、內建學習的方法去模組化,處理的是百億量級的資料。我們嘗試了經典傳統機器學習的三種模型:邏輯回歸,随機森林,支援向量機,最後發現邏輯回歸特别适合海量資料樣本的處理,效率高、速度快。在準确性差不多的情況下邏輯回歸的速度是其他兩種方法的幾十倍甚至上百倍。但是邏輯回歸模型的問題是它的準确性不高。

第二個課題用的技術是LSTM(長短時記憶網絡)、聚合殘差網絡ResNeXt和知識蒸餾技術。前兩個技術特别适合處理序列問題和對序列資訊模組化,也提高了準确率,但是與此同時速度也減慢了。而知識蒸餾技術主要是用來對模型進行加速,也可以說是一種‘加速算法’,在準确性幾乎不變的情況下,我們的模型運作時間縮短了三倍以上。”

王童用圖表生動地為我們展示了他們算法的優勢:

王童:知行合一 · 當大資料遇到生物學 | 優秀畢業生專訪

我們DeepFragLib算法與其他SOTA算法相比在各項名額上提升明顯,使用我們算法産生的預測結構(藍色)比其他算法産生的預測結構(紅色)與真實晶體結構(綠色)相比更為接近。

王童:知行合一 · 當大資料遇到生物學 | 優秀畢業生專訪

三、選擇大資料:認清方向,提升自我

談到對目前在大資料能力提升項目學習、将來可能進入大資料的同學的建議時,王童說:

我覺得在大資料的學習也是一個認清自己,進行職業生涯選擇的過程。因為我們加入項目比較早,對自己的職業生涯也比較迷茫。在大資料能力提升項目中從理論到實踐到實習的過程中,真正地在企業工作、和企業打交道會發現自己是更喜歡企業的氛圍還是純科研的氛圍,進而找到自己職業生涯發展方向。

“此外我覺得大資料能力提升項目包容性很強,同學們來自學校的各個專業、年齡也不同。無論是什麼專業、什麼年齡的同學,隻要有出色的能力和成果都能獲得獎學金。

大家一定要趁早學,積極學。加入項目四年來,資料院給我帶來了很多的收獲和支援。如果大家加入了這個項目,堅持下來一定會有收獲。大資料能力提升項目發展至今,從小到大,資源從少到多,能提供給學員的也越來越多,建議大家在項目中要積極地參與。

最後,從我自己的經曆中來說,我覺得無論是科研還是實習、找工作,更多受重視的是綜合實力。我希望學弟學妹能夠充分利用學校的資源,多走出書本,多鍛煉自己,提高自己的語言表達能力、交流能力群組織協調能力,提高綜合素質。”

口述:王童

采訪:陳沅倩

整理:肖祎涵