新京報專訪周濤：複工潮之下，大資料如何進行疫情分析？

新冠肺炎疫情的發展牽動着每個個體、每個家庭的心，也影響着各行各業的生存與命運。随着疫情每日确診資料和疑似資料、死亡病例和治愈病例的波動，我們的心情也随之起伏，因為這每個數字背後，都是高密度的生命悲歡與哀樂。

而除了這些肉眼可見的資料之外，又有哪些居于暗處的、微觀細小的、甚至毫不起眼的資料是我們所應該關注的？哪些資料又将會在這場疫情防控中幫助我們突出重圍？并為我們以後的公共生活與個人生活提供反思？

與2003年SARS時期相比，彼時尚未廣泛應用的大資料正在這次疫情中發揮重要作用。在網際網路成為主要資訊平台的當下，搜尋引擎、社交網絡、社交媒體、APP用戶端等海量資訊的流動，得以幫助人們實時擷取疫情動态，知曉和關切疫區人民的安危；而在資料、科學與技術的合力下，科學家們也可以通過對網際網路資料和手機資料等資訊的搜集和分析，有針對性地預測疫情趨勢，防控疫情。目前，多家大資料公司和科研部門正在加緊運用大資料支撐疫情防控服務，“大資料+流行病學”的廣泛應用，也許會給這次的疫情防控以及未來的公共衛生防疫體系建設，提供一條重要的道路。

當然，在任何情況下，大資料都是一種資源，也是一種工具。它告知資訊但不解釋資訊，它指導人們去了解，但有時也會引起誤解，這取決于它是否被正确使用。

關于此次大資料在新冠肺炎疫情防控上的應用，新京報采訪了DataCastle資料城堡發起人、電子科技大學教授、大資料研究中心主任周濤。他認為，控制新冠病毒的傳播是一場持久戰，而非一場殲滅戰，社會經濟生活不能因為這場疫戰而中斷，而複工複學又會帶來人口跨省區的流動和大量人員聚集，為病毒的傳播創造條件，非常可能引緻新一輪的傳染高峰。是以周濤目前正在全力進行疫情資料分析，密切關注疫情動态。

輕中度患者數量昭示了新冠肺炎疫情的緻病嚴重程度

新京報：在這次新冠肺炎疫情中，大資料在不少領域發揮了重要作用，比如人群流動分析、疫情評估和預測等。你主要關注的是哪些方面？根據你的了解，目前大資料在防疫應用中有哪些值得借鑒的案例？

周濤：根據目前疫情的發展狀況,我目前主要關心兩個方面的問題。一是估算新型冠狀病毒傳播初期的關鍵參數，進而為挖掘病毒的傳播規律和趨勢奠定基礎；二是在2月10日之後，我們即将面對學生、農民工、上班族等人口流動需求的壓力，屆時我們将通過對包括人口遷移資料、社交媒體資料、傳播初期的微觀病例資料和病人移動軌迹資料來定量分析人口遷移對疫情傳播的影響。

大資料在防疫應用中有很多經典案例值得借鑒，例如衆所周知的2009年甲型H1N1流感，谷歌根據檢索的詞條大資料，建構起詞條使用頻率與流感在時間和空間上的傳播關系，進而成功的對冬季流感的傳播做出了準确預測。

新京報：目前，我們對疫情的關注重點大多在确診病例、疑似病例、重症率、病死率和治愈率等名額上，但你和幾位學者指出，除了這些，還應當關注醫院收治的輕度、中度患者數量的絕對值和相對值，這些資料對于疫情防控和預測有什麼關鍵意義？在這次疫情中，有哪些容易被忽視的重要資料？

周濤：在傳染病的防控過程中，阻斷傳播尤其重要，而輕度和普通程度患者的數量暗示了新冠肺炎的緻病嚴重程度，緻病嚴重程度則會影響感染者就醫的時間和比例。即如果感染者并未被引起嚴重疾病，未出現症狀或隻出現輕微症，他們很可能不會重視并就醫，通過日常活動就會将病毒傳播給更多的人。在醫療資源和其他公共資源有限的情況下，特别是随着正常社會經濟生活的展開，我們很難對其進行有效的隔離，對傳播控制造成極大的困難。

此外，疑似病例轉化為确診病例的比例也很重要，現在也是流感高發期，我們需要判斷出大概有多少出現症狀的人是病毒感染者，這可以讓我們能提前做好醫療資源配置設定，不至于出現院内傳播和未被有效隔離的現象。目前有些地方檢測、隔離和治療資源都比較有限，我們目前還正在計劃通過對發熱門診病人的資料進行深度分析，計算不同年齡、性别、活動區域、接觸記錄和症狀表現的人被确診和發展為重症的機率，進而為有限資源的優化配置提供借鑒。

丁香園·丁香醫生每日實時更新的新冠肺炎疫情地圖

新京報：在疫情發展的不同階段，大資料分析應該都會面臨不同的任務和困難。在目前階段，你覺得大資料工作者最應該在哪些方面發力？

周濤：大資料分析目前主要是在阻斷傳播的措施建議和政策效果評估上起到主要作用：

（1）通過大資料分析病毒的基本再生數和有效再生數等，我們可以量化病毒的傳播能力，對于應采取的措施手段有細化的建議，能有效及時地阻斷傳播；

（2）通過資訊化手段對防疫相關的醫療資源和其他公共資源進行一體化的管理和排程，在政策落實的高效化上發揮一定的作用；

（3）對目前病例情況的分析，可以使我們明确前期的政策是否起到了效果，起到了多大效果，并在不完善的方面進行建議和修正；

（4）可以利用大資料挖掘防控政策應該針對的精準地點、精準人群和精準行為，就是說什麼人在什麼地方做什麼事兒是最容易被感染的。

新京報：根據你的了解，2003年非典時期是否已經出現大資料應用的經驗和範例？這次的疫情與非典時期相比，在資料分析水準和環境上有哪些進步？還有哪些待完善的地方？

周濤：在SARS期間，美國已有自己的全國公共衛生系統，包括國家應急行動中心、電子網絡疾病監測報告系統、大都市症狀監測系統以及臨床公共衛生溝通系統。這些系統充分利用大資料分析的優勢，對不同的疾病相關資訊做分類監測，各司其職，高效地完成了醫護人員和醫療資源的排程配置設定，能在早期就發現疾病暴發的先兆，并及時阻斷傳播。我們相對而言還比較弱，但是在社會協調和社會動員方面遠強于其他國家，是以很快通過有力措施控制了疾病傳播。

而目前來說，不論是硬體還是軟體上，大資料分析都取得了十分大的進步，包括資訊存儲能力、傳播能力，都不可同日而語，而在大資料分析手段上，如機器學習等學科的發展都為大資料分析提供了更豐富的方法和手段。是以，我們應該充分利用這些進步與優勢，完善現代公共衛生防疫機制，以大資料為核心做好疾病資訊共享和應急救援的快速反應等。在現代化突發公共衛生事件應對體系的基礎上，才能有效利用大資料防控傳染病。

當然，即便現在，和西方發達國家，尤其是美國相比，我們還有明顯的差距。首先是美國資訊共享做得更好，這點在新冠肺炎流行的過程中我們就有了長足進步，很快就可以不弱于美國了。但是美國以東北大學為代表的學者們，開發了一套流行病仿真和預測系統，可以把國家劃分成25公裡乘以25公裡的網格，知道這個網格中的人口密度，人口結構，家庭和企業規模分布，每日通勤人流情況。

另外，他們系統中還有所有這個網格之間的人流情況。這些資料來自很多部門和企業，有些還用到了衛星遙感來較準。這使得美國做傳染病流行預測非常準确，現在WHO做判斷基本就用這樣的系統。我很希望5-10年後，能在中國看到這樣一套系統，這才是真正從根本上提高我們國家現在化防疫能力的舉措。電子科技大學和四川大學目前正在打算攜手做這個大計劃。

《為資料而生》，周濤著，湛廬文化丨北京聯合出版公司

在這本著作中，作者列舉了許多真實案例，比如大資料在個性化醫療等領域的創新實踐等，為大資料應用提供了許多具有可行性的路徑指南。

新冠肺炎疫情的傳播不僅是一個公共衛生事件，也是一個重大公共事件

新京報：為了避免疫情悲劇往複重演，你提出，應當大幅提升疫情資訊公開和資料共享的程度。在你看來，這個緊急公共衛生事件的資料共享機制的建立，需要哪些支援？曆史上很多國家都進行過“資料公開運動”，有沒有我們可資借鑒的例子？

周濤：建立資料共享機制的基礎支撐，核心在于彙聚高價值資料。借助流行病病理學和傳播學特征，系統梳理和評估緊急公共衛生事件中的共享資料名額的同時，建立資料回溯技術，對各資料名額的提供方的資料被查詢、下載下傳的次數和産生的實際價值進行定量評估，形成高價值資料的彙聚。

其次，建立統一的資料上報系統标準，以及可靠、精确和具有獨立核查能力的上報流程，能夠對上報資料進行核驗和追蹤，并保障社會公開的及時性。

最後，是各省市需定期針對緊急突發的公共衛生事件進行必要的應急演練，在演習的過程中除了關注各部門應對能力，還需實時評估該資料共享機制提供的資料價值及發揮的作用潛力。

此外，從立法律面來說，國家可以通過立法和資訊化的手段保證資訊的強制上報，而且超過某種危險程度就要強制披露，不能把專業人士和老百姓都蒙在鼓裡。

新京報：你此前翻譯過《大資料時代》一書，此書開篇便是大資料在變革公共衛生方面的應用，比如2009年甲型H1N1流感。你剛剛也提到了這個案例，2009年甲型H1N1流感暴發的時候，與習慣性滞後的官方資料相比，谷歌成為了一個更有效、更及時的訓示标，他們的預測與官方資料的相關性高達97%，和疾控中心一樣，他們也能判斷出流感的傳播源頭，而且判斷非常及時，公共衛生機構的官員也從中獲得了非常有價值的資料資訊。這對我們有哪些啟示？

周濤：近些年來，大資料理念已經被廣泛推廣。然而，谷歌之是以能更有效且更及時的做出預測，除了理念外，谷歌所具備的資料資源、資料處理能力、資料統計能力是其能做出準确預測的前提。是以僅獲得資料并不能保證我們能得出有價值的資訊，要知道谷歌在2009年預測甲型H1N1時，總共處理了近4.5億個模型，其資料分析處理能力可見一斑。

希望疫情結束後，我國應該進一步提升在資料處理方面的布局，針對突發公共衛生事件，須建立一個基于資料驅動的個體流行病仿真實驗平台，通過對流行病傳播模型的相關仿真和實驗能有效檢測流行病的預測準确性，同時也可驗證政府控制政策的有效性。進而在将來降低傳染病及流行病等對國民健康和經濟發展的危害。

此外還需要強調一點，不同于09年谷歌基于搜尋詞條資料的預測，目前新型冠狀病毒的傳播不僅僅是一個公共衛生事件，也是一個重大公共事件，真相、謠言、呐喊和恐慌交織其中，搜尋記錄受到的影響太大。是以還是要針對這次的具體情況，具體分析。

、

《大資料時代》，[美]維克托·邁爾·舍恩伯格、肯尼斯·庫克耶著，周濤譯，湛廬文化丨浙江人民出版社

在這本著作中，作者認為建立在相關關系基礎上的預測是大資料的核心。通過找到一個關聯物，相關關系可以幫助我們更好地捕捉現在和預測未來。

新京報：不過很多時候，大資料并不能解釋原因，隻能揭示互相關系，這些關系性資料分析有時甚至會和傳統醫學的經驗和看法相悖。《大資料時代》的作者認為，建立在相關關系基礎上的預測是大資料的核心。他提出，相關關系不僅能為我們提供新的視角，而且提供的視角都很清晰，而我們一旦把因果關系考慮進來，這些視角就有可能被蒙蔽掉。但這一觀點也受到很多批評。對此，你怎麼看？尤其是在應對新冠肺炎疫情的當下，我們該如何對待大資料提供的資訊？這次疫情或以往疫情中有沒有相關的案例？

周濤：關于相關性和因果性的問題，我在《大資料時代》的序裡也發表過自己的看法。維克托本人也并非要完全放棄因果性，他本人也提出，挖掘因果邏輯是解決“資料獨裁”的必經之路。對相關關系的重視多是從效率層面和目前主流的資料分析手段（譬如機器學習）來考量問題。我本人并不認同《大資料時代》中“相關關系比因果關系更重要的觀點”。從大處講，放棄對因果關系的了解，也就是放棄了人類智能的優勢。

具體從這次疫情來看，新型冠狀病毒的宿主和中間宿主，乃至相關藥物疫苗的研究都需要反複論證其因果性才能得出準确的結論。而且在流行病防控這個領域，僅掌握關聯關系是不充分的，目前真正精确的預測模型，主要都是機制模型。純粹的關聯模型，無助于我們對關鍵因子的發現，以及評估和設計防控政策。相關關系的确會更加有利于各類需求的預測并提供些全新的角度來了解問題，但如果僅是依賴相關關系的話，在目前漫天謠言的資訊環境下，反而會加劇挖掘真相的困難性。

至于如何對待大資料提供的資訊，我認為将其與流行病模型結合才是對大資料的最好應用。事實上，許多經典的流行病模型在傳染病的預測效果已經被反複論證，例如流行病動力學模型結合全球航空網絡的人口流動資料就準确預測了2003年的SARS和2009年的H1N1到達世界各個城市的時間。

但目前最為棘手的問題是，通常傳染病傳播初期，可利用的微觀傳播資料不僅稀少且缺陷較多，是以利用大資料彌補其不足，做出更及時、更精确的預測才是我們目前應該思考的重點。

大資料是完善防疫機制中不可缺少的一環

新京報：大資料應用的前提是隐私和安全。但此前有新聞報道，一名從武漢坐高鐵回家的醫學生發現自己和幾百人的隐私資訊，包括乘坐車次、姓名、電話、住址、身份證号等等，都遭到了洩露，給當事人帶來了巨大困擾。在你看來，在目前的疫情環境下，該如何合理利用大資料，在防疫的同時保護人們的隐私與安全？

周濤：在此次疫情的防控中，人員流動的追蹤是最大的難點。在一級防控的需要下，公民隐私訴求要讓位于國家戰略。政府部門必須要針對來自疫情發源地人員進行必要的資訊登記和追蹤。與此同時，我們又要做好相關資料的資訊安全管理，特别對于基層治理的負責人，要強調資訊安全的重要性，因為很多個人隐私都是他們不小心洩露出去的——如果對他們進行了簡單的教育訓練，就可以避免這樣的問題。

新京報：大資料防疫有好的方面，但也有其局限性，有時候會被錯誤解讀和利用，造成一些誤導性的“謊言”，如果在隐私和預測方面對大資料管理不當，或者出現資料分析錯誤，導緻的不良後果會很嚴重。你如何看待大資料可能産生的負面影響？對于大資料的應用，你有哪些反思？

周濤：流行病的傳播模型是相關學者常用的一種計算和預測方法。然而，針對任何一場實際發生的疫情傳播，由于實時流行病學的資訊極為有限，輸入資料過少，考慮的影響因素簡化，同時，還存在一定的資料真實性問題，其計算和預測結果都有一定的局限性，隻能提供大體趨勢。但這對于疫情的防控措施開展，其相應的計算思路和結論，還是能起到一定的參考作用。通過不斷引入更多參數，提高資料輸入量，也可以較大程度地提升相關模型預測的準确性。

新京報：關于現代公共衛生防疫機制的完善，大資料可以在哪些方面發揮貢獻？未來是否需要由國家來主導建立基于日常衛生防疫防病的大資料系統？

周濤：現代公共衛生防疫的優勢在于資訊傳播的高效和資料分析的技術手段的提高，而大資料則是完善防疫機制不可缺少的一環。

一方面，可以利用大資料對全國甚至全世界的疾病情況做監測，這樣可以在傳染病暴發初期就能及時識别并做出反應，做好阻斷措施和安排好醫療資源等，避免因早期的誤判、認識不到位等加重疫情。這其實就表明了建立基于日常衛生防疫防病的大資料系統的必要性，我們需要更系統化和更全面的資料來對各種疫情進行分析和防控，這也決定了必須由國家主導，才能組織好各地的資料，在保障隐私和資料安全的同時對資料進行有效利用。

另一方面，就像剛剛提到的，在保障病人隐私的基礎上，可以建立緊急公共衛生事件的資料共享機制，常态化各地疾控中心的資料共享，友善有緊急突發事件後，各地能夠快速組織專家進行研究分析研判。

新京報：關于新冠肺炎疫情，你還有什麼具體的感受、預測或者建議？

周濤：我們初步計算的新型冠狀病毒的基本再生數在2.2-3.1之間，是以可以基本判斷病毒的傳染性屬于中等偏強，總體上可防可控。但由于前期缺乏對新型病毒的了解以及各類原因，我們錯過了第一時間有效抑制傳染病傳播的最佳時間，而且新型冠狀病毒在潛伏期也有較弱的傳染性，而且輕微症比例高，較之03年SARS更難控制。這一次我們更早實行外部幹預，加之各界群衆都積極的參與到疫情的防控中去，隻要控制住傳播，我們完全有能力将病毒的基本再生數降低到1以下，赢取抗疫的最終勝利，是以我認為大家完全沒有必要恐慌。當然，大家也不能過度樂觀，認為可以短平快打一場殲滅戰。我們可能需要打一場持久戰，但是隻要新增感染者總數走低，随着有效的疫苗和治療手段的出現，情況肯定越來越好。給大家的建議還是盡量減少和人的接觸。總體來講，我希望這一場戰役之後，中國能夠建立起以現代資訊技術為基礎的現代化的防疫體系，再把中國的防疫力量提高一個層次。

新京報：最後一個問題：當下正值複工潮的到來，屆時資料分析之後，您覺得能夠在哪些方面給公共防疫政策一定的建設性意見？

周濤：我們正在聯合華西醫院、市大資料公司、四川大學、電子科技大學等團隊，讨論建立一個成都市的居民防疫資訊管理服務平台。期望通過全市居民防疫資訊的快速采集、實時分析、精準上報、服務推送等融合性應用，幫助市民、醫院、政府等各方面快速掌控疫情分布情況，提高防控部署的決策效率。

具體來說，我們将個人填報的資料與政府資料、第三方平台資料打通，實作“一人一檔”的個人防疫資訊，通過多源資料的彙集和計算，一方面可能為居民提供諸如感染機率指數預測、實時的防護建議、高風險感染人群的智能篩查等個體防疫服務，另一方面，可對政府的區域防疫工作提高精準度和效率，繼而為如醫療資源調配、防控措施實施等政府管理行為提供決策支撐。

另外，我們也正在研究以一種便宜和簡單的方式，在交通樞紐、學校、寫字樓、産業園區以及其他人員聚集地，通過熱成像的方式，對進出人員進行無感覺且快速精準的體溫測量，對從業人員每3-4小時用便攜式熱成像裝置進行無感覺的體溫測量。我希望最終體溫測量能夠變得很便宜很簡單，和門禁、安防等裝置直接內建起來，這樣我們以後控制疫情手段就先進了，因為發熱是很多傳染病的重要症狀。有了這個，我們控制重型流感就有了更有力的武器，大家不要小看重型流感，帶來的損失很驚人。

新京報專訪周濤：複工潮之下，大資料如何進行疫情分析？

新京報專訪周濤：複工潮之下，大資料如何進行疫情分析？

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

新京報專訪周濤：複工潮之下，​大資料如何進行疫情分析？

繼續閱讀

新京報專訪周濤：複工潮之下，大資料如何進行疫情分析？