天天看點

資料科學的未來資料科學的未來

資料科學的未來

From: Kirk Borne

資料科學的發展日新月異,正深入我們生活的方方面面。資料科學改變了我們探索世界,與世界互動的方式,而且資料科學的算法和應用也在持續發展。我們期待這一趨勢繼續,因為資料科學對人類産生了日益深刻的影響。在這裡我們描述的是資料科學領域中我們參與的未來幾年即将出現的一些趨勢與應用。

資料科學算法的進步可以追蹤那些資料科學家所使用的用來表示他們研究領域的資料結構和資料模型的發展。可以反映這種聯系的一個最明顯的例子是部署在圖形資料庫(包含網絡資料和語義聯系的資料庫)中的大規模圖分析算法的應用。人們有時候說,“整個世界是一個圖”,是以最自然的資料結構不是由行列構成的表,而是由點和邊構成的網絡圖。圖形分析方法包括了傳統的機器學習方法。

另一個資料科學算法增長的領域是地理空間時間預測分析,能夠應用在任何涉及空間位置和時間的資料集,而這包括了我們生活的一切。我們希望在法律執行、氣候變化、災難控制、人口健康,社會變遷等更多領域越來越多地進行這一方法的進階部署。

很明顯,更大更快更複雜的資料集需要更快(超快)的分析。我們期盼着利用先進技術優勢如量子機器學習、記憶體資料運算和基于專門裝置(GPU等)的機器學習等的先進資料科學算法出現。在這些商業裝置中,我們希望開發更多的嵌入式機器學習算法(尤其是深度學習),在資料收集時刻能夠執行時間要求嚴格的資料到洞察的轉換。随着物聯網(IoT)的出現,包括工業物聯網和一切網際網路,這一應用場景将會極大豐富。

認知機器學習也取得了新進展,包括開源和開發可配置算法,能夠用來探索流式實時資料的全部内容,上下文和語義意義。使用360度情景的能力使其在正确的時間,正确的地點,正确的語境下做出正确的行動-這是認知分析的本質。另一個考察認知分析的方式是,針對某一個對象或種群,算法能夠找到你應該問你的資料的正确的問題(這可能不是以傳統的方式問的問題)。

資料科學發展的另一個領域,跟特定的資料類型有關的,是非結構化資料,尤其是文本。這種非結構化資料的增長是驚人的,因為在自然語言中有着比表格中數字更多的含義,是以需要比數值型算法更豐富的算法。面向非結構化資料的資料科學新算法将适用于多個方向。自然語言生成将用于将資料點轉換為文本,可以用來自動生成資料的故事。結構化資料庫生成将文本文檔或其他非結構化資料轉換為資料點(即将定性資料轉換為機器可計算的定量資料)。

所有這些技術進展,加上那些我們想象不到的,将會被引進以支撐我們的新領域。

機器學習即将在未來幾年被應用的一些最熱門的,最關鍵的領域有:

資料科學的未來資料科學的未來

  • 網絡安全,包括先進的檢測、模組化、預測和規範分析
  • 醫療,包括基因組學、精密醫學、人口健康、醫療傳遞、醫療資料共享和內建、健康記錄挖掘和可穿戴裝置分析
  • 物聯網,包括傳感器分析,智能資料,突發事件報警和響應
  • 客戶參與和體驗,包括360度的視角,遊戲化,及時的個性化
  • 智能 X,其中 X =城市、公路、汽車、輸送系統,供應鍊,和更多
  • 精準 Y,其中Y =醫藥、農業、采摘、制造,定價,和更多
  • 個性化 Z,其中 Z =營銷,廣告,醫療,學習,和更多
  • 人力資本(人才)群組織分析
  • 社會公益

    總結:資料時代,深入了解本質,我們大有可為。

繼續閱讀