大資料預測霧霾以及存在的商機微軟和IBM去年在中國的研究實驗室裡開發了自己的污染預測技術，并都獲得了首批政府客戶。

近段時間，全國範圍内尤其是京津冀地區接連陷入霧霾之困，北京更是頻頻釋出空氣重污染紅色預警，中國小連續停課，機動車單雙号限行。霧霾的背後，重污染天氣的預警預測工作顯得尤為重要，不僅可以讓公衆提前合理安排生産生活，也可以讓政府相關部門及時采取應急措施，緩解重污染天氣帶來的危害。

鄭宇

微軟亞洲研究院主管研究員鄭宇【麻省理工科技評論tr35（35名在科技創新領域具有傑出成就的35歲以下頂級青年創新者）2013年的獲獎者，就是上圖那位帥哥】一直從事大資料挖掘和算法研究，希望用大資料解決現代城市所面臨的問題。

他和他的團隊已經成功用大資料計算出1km×1km細粒度的空氣品質狀況、尾氣排放資料和噪聲污染指數。

大資料能不能成功預測霧霾？

urban air正是由微軟亞洲研究院開發，用大資料預測城市空氣品質的項目。目前，urban air已經實作全國70多個城市空氣品質預測，可以對京津冀、長三角、珠三角、成渝城市群未來48小時的空氣品質進行預測。

“大資料不僅能預測霧霾，還可以精細化預測。”鄭宇說，依靠經典模拟方法預測預警霧霾，隻能算出空氣品質的均值，而大資料可以對1~6小時的空氣品質逐小時進行預測，對7~12小時、12~24小時、24~48小時進行最大值和最小值的預測。

除了在預測精度上有優勢外，大資料精細化預測還展現在地域範圍上。目前，傳統模拟方法預測霧霾隻能精細到區的範圍，比如可以預測到北京市海澱區、朝陽區的空氣品質，而大資料可以精細化到每個空氣品質站點，比如可以預測海澱區萬柳站點未來48小時的空氣品質狀況。

大資料不僅能預測霧霾，還可以很快速。據鄭宇介紹，傳統的重污染天氣預測工作需要6小時左右的模拟運算時間，無法快速實時釋出，而大資料可以在幾秒鐘之内快速算出重污染空氣品質資料。

未來，霧霾的運作軌迹也将有望實作，霧霾從哪來，到哪去都将不是難題。記者了解到，鄭宇和他的團隊正在從事霧霾因果相關性的研究，目前還處在研發階段，預計明年将正式投入應用。

能夠預測霧霾的大資料究竟包含哪些資料?這些資料又如何預測霧霾？

霧霾的大資料主要包括目前空氣品質資料、氣象條件、未來天氣預報3類資料。鄭宇特别介紹說，空氣品質資料并不是指單純的空氣品質站點資料，而是以某空氣品質站點為圓心，囊括了方圓300公裡範圍内所有的與空氣品質相關的資料，比如空氣品質站點資料、交通流資料、氣象資料、廠礦資料、人口流動資料、路網結構等。

與傳統模拟空氣品質不同，大資料預測霧霾依靠的是多元融合方法，也就是說，空氣品質的預測不僅僅看空氣品質資料，還要看與之相關的氣象資料、交通流量資料、廠礦資料、城市路網結構等不同領域的資料，不同領域的互相疊加，互相補強，進而預測空氣品質狀況。

“大資料應用于預測霧霾，首先，由于每個站點、每個時段空氣品質的影響因素都不盡相同，是以針對每個空氣品質站點，我們都會為這個站點每個時段單獨建一個空氣品質模型，之後再将三者資料疊加，最後将資料進行融合，制作出空氣品質預測模型。”鄭宇說

，這樣算下來，為預測北京市空氣品質，建立的模型已經達上百個。

多元融合的大資料算法與傳統的空氣模拟預測相比，是否更準确？

“其實，大資料預測與傳統模拟方法有一定的相似性，都是通過資料來拟合模型，隻不過是資料量大小不同。”鄭宇說，以往由于獲知的資料有限，傳統模拟方法隻能基于有限的樣本資料，由科研人員通過經驗、假設找出這些資料間的規律，模拟出簡單的模型，預測空氣品質。

而随着資料增多，單單依靠人工已經無法從海量繁雜的資料中找出規律，是以需要借助機器學習和資料挖掘等工具來發現多源資料中隐含的規律。

如今影響空氣品質的因素越來越多，傳統模拟的方法顯得“力不從心”。鄭宇介紹說，傳統模拟空氣品質預測首先需要搜集完整的污染源資料，比如企業的排污資料和汽車尾氣排放等，而這些資料無法全部獲知;其次模型太理想化，污染物在空氣中傳播和變化的實際情況，要複雜很多。

随着影響空氣品質的因素增多，資料量的增大，大資料在空氣品質預測上頗有優勢。

比如傳統方法要拿到精确的地面污染源資料才能預測，而大資料則可以解決資料缺失的問題。比如對于交通尾氣資料難擷取的情況，大資料運算可以采用與交通尾氣相關的交通流量、排量等相關資料，間接地分析其與空氣品質的關系。

“大資料的精髓就是a領域的問題可以借助b領域、c領域、d領域的資料來一起解決，通過多中繼資料融合的方法來解決資料缺失和不精準的問題。”鄭宇說。

空氣品質站點、相關領域的資料、大資料先進的挖掘技術和模型，保證了大資料預測的準确性。據了解，現在大資料對京津冀霧霾的預測精度可以達到75%，對成渝等地的預測精度會更高，平均準确率比統模拟方法高15%~20%。

大資料預測還存在哪些困難？

雖然大資料對霧霾的預測已經成功實踐，但鄭宇也坦言，大資料預測霧霾确實還有很多困難。

資料量少是大資料發展的掣肘，大資料的預測是基于對大量的資料進行學習。但我國資料開放程序比較晚，并且很多污染源資料都還不完善。

“資料量大小直接影響大資料預測的精準度。”鄭宇說，比如資料樣本量不夠，會導緻霧霾的拐點很難預測，目前傳統經典模型和大資料模型都很難說清楚霧霾何時會消散。

“很多人認為大風來了，霧霾一定會散去，真實情況并非如此，霧霾消散與大風的強度、持續時間、風向來源地都有非常大的關系。

比如，如果風向的來源地本身是污染源，那麼霧霾不但不會散去，反而會加重。”鄭宇說，目前有關拐點出現次數的資料特别少，可能一百天出現一次，對簡單的統計學模型來說，拐點出現就是少數派，模型很難預測拐點。目前，鄭宇和他的團隊也在單獨對拐點進行模組化，準确度已經提高到30%。

針對大資料在環保領域未來的發展，鄭宇認為國家首先要培養資料科學家，不僅僅是懂大資料挖掘算法，還要動行業知識，這樣才能把大資料轉化為生産力。

其次，大資料時代要求政府開放資料。隻要資料足夠，未來工業園區的建設與空氣品質的變化情況，整個城市設計與空氣品質的變化情況，完全可以依靠大資料實作。

預測霧霾中的商機

預測空氣品質已經成為一個增長迅猛的新生市場，全球兩大科技公司ibm和微軟都在争奪這個市場。

本月，酸性霧霾數次包圍北京城，迫使市政府釋出了史無前例地釋出了兩次“紅色預警”——一旦釋出這種預警，就相當于告訴北京的2200萬居民，嚴重空氣污染有可能持續3天以上。

這種預警需要依靠先進的污染預測技術。政府希望通過改善霧霾監控和治理措施來回應日益高漲的公衆訴求，這類技術的重要性也越發凸顯出來。

微軟亞洲研究院研究員鄭宇表示：“人們越來越關注空氣品質預報服務，越來越多的人開始關注這項資訊技術。”

第一個在中國釋出空氣污染預報的是曾經在北京居住過的美國地球化學家達斯汀·格雷澤西克(dustin grzesik)。他在2013年創辦了一個名為“辦事兒呢”的免費網站和一款配套的手機應用，利用公開的氣象和風力資料預測空氣品質。

berkeley earth是美國的一家非營利性組織，他們一直在繪制中國實時空氣污染地圖，該組織從業人員羅伯特·羅德（robert rohde）稱：“如果你能預測天氣，那麼你隻需要多使用幾個變量就可以預測空氣品質。多數時候，污染物排放情況變化不會很快。”

如今，“認知計算”(在這種技術中，機器可以自主提升模組化能力)的進步催生了更複雜的預測軟體。這種軟體可以利用天氣、交通和土地使用等資料和政府監測網站的實時污染指數，甚至還有社交媒體上釋出的資訊，來預測10天之内的空氣品質指數。

ibm的首批客戶是北京環保局。該局所使用的空氣污染預警系統就是基于ibm的技術。

ibm與北京市環保局在本月早些時候共同創辦了“聯合環境創新中心”，使得政府官員可以在最惡劣的情況下更好地制定減排計劃。

ibm還與張家口市簽訂了協定，在冬奧會之前作出一些前期規劃和應對方案。張家口是2022年北京冬奧會的協辦城市。

微軟也與中國環保部、福建省環保局和成都市環保局簽訂了合作協定。

“我們需要在世界各地使用相同的基礎系統來進行空氣品質預報，”ibm綠色地平線（green horizons）項目業務主管布拉德·加蒙斯(brad gammons)說。“借助機器學習技術，我們可以快速預報空氣品質。”

這兩大科技巨頭不僅僅在争奪政府客戶。商業客戶（尤其是可再生能源發電公司）和普通消費者也是他們的目标客戶。全中國已經有30多個太陽能發電站使用ibm的預報技術，這項技術還能幫助他們預測陽光照射值。

原文釋出時間為：2015-12-31

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

大資料預測霧霾以及存在的商機微軟和IBM去年在中國的研究實驗室裡開發了自己的污染預測技術，并都獲得了首批政府客戶。

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希