天天看點

5G對未來資料科學發展趨勢的影響1 大資料的特點2 移動網際網路資料特征3 物聯網資料特征4 産業網際網路資料特征5 5G對資料科學發展趨勢的影響

1 大資料的特點

大資料的大并非隻是代表資料的體量巨大,事實上在大資料這個概念的出現前,資料的體量就已經随着人類社會的發展而增加到了一定的程度。通常所認為“大”的定義為以下4個方面:

(1) 資料體量巨大

(2) 資料類型繁多

(3) 資料價值密度低

(4) 資料處理速度快

在雲計算出現前,因為系統的處理能力有很大的局限性,是以對于體量巨大、類型繁多并且價值密度低的資料無法進行有效處理,大量的資料因無法處理而未被收集或是已經收集了但過了留存期限而被銷毀。按照傳統IT架構方式下的資料分析方式,從價值密度低而數量龐大的資料中去挖掘需要的資訊所需要的成本大、效率低,是以往往按照經驗來總結出一套理論來分析較小體量的資料并在此基礎上對未來的同類型問題進行預測,統計學和機率論即在解決這個問題的過程中不斷的完善。雲計算技術應用後,計算力得到大規模提升,統一的資料倉庫形成,同樣的統計學算法和機率算法在輸入資料爆發性增加後輸出值的精确度無限接近于真實情況,大幅度減小了原來基于小規模資料得出的結果的誤差。此外,因為雲平台降低了計算的成本,是以對于存量資料和增量資料都能夠進行反複疊代計算,機器學習由此誕生,其原理是通過對于現有的大量資料進行有監督學習(根據現有資料訓練得出規律預測未來)和無監督學習(在海量資料中尋找規律),根據訓練的結果總結出模型并預測未來的情況。

2 移動網際網路資料特征

網際網路時代到來之後,提升了人和人之間的溝通效率,目前通常将人人通過PC機溝通的時代定義為網際網路的初級階段,智能終端的崛起則将網際網路推動到了移動互聯時代,整個技術發展的趨勢就是人類在不斷向線上化靠攏。

PC機初步解決了人人線上的問題,雖然在實時程度上還不夠但和傳統書信、電報及電話相比已經大幅度的增加了人類溝通的便捷性,移動互聯則是在此基礎上進一步提高人與人之間的線上化程度,移動網際網路和PC時代的網際網路從溝通效率相比有兩個顯著的提升是:

(1)終端從固定向移動發展

(2)多人使用一台終端到各人使用一台終端

前者使人能夠擺脫原先空間上的限制,保持時刻線上狀态,這為電子商務、即時通信和移動支付業務等提供了技術基礎,表象展現出來的便捷性提高的背後是整個社會的扁平化以及解決了許多領域資訊不對稱的問題。後者是各類個性化服務的基礎,在PC機時代因為往往多人使用同一台終端并且有空間限制,是以在資料采集方面一是由于非完全實時的因素導緻資料采集非連續性,另一個是對個體特征值的提取很不友善,無法精确的根據提取出的資料來判斷個體的各項特征并用于未來行為的預測。移動網際網路的發展解決了這兩個問題,突破了空間的限制并且縮小了使用者群體的顆粒度,同時,也在這個過程中帶來了大量原先不需要、沒能力進行處理和無法取得的資料,而真正改變整個社會消費習慣、生活習慣并創造出數字經濟這種經濟形态的正是這些海量的資料。是以在技術體系中,雲計算、大資料和移動網際網路的協同發展和運作是缺一不可的,雲計算提供計算力的保障,移動網際網路作為資料的源頭提供已被現代社會視為重要資源的資料和資料的傳輸通道,大資料在前兩者基礎上分析和挖掘資料資源的價值。

3 物聯網資料特征

如果說移動網際網路提供的還是人與人之間的溝通媒介則近年來開始蓬勃發展的物聯網則将人的線上化進一步擴充到物的線上化,根據通常的定義,物聯網就是物物相聯的網際網路,這使資料的來源和預期的數量變成幾乎無限,因為如果人還是有個總數的概念則物的總數根本沒有辦法去統計,是以在雲計算未誕生前物聯網雖然已經有文獻提出過這個概念但是根本沒有技術支撐和計算力保證。傳統方式下将物與物相聯和物與人的相聯的方式稱為自動控制,即并非傳統模式下物與物之間或物與人之間就一點互動也沒有,其特點是有明确的邊界範圍并且提供的資料量非常有限,各個子系統之間既沒法互通也沒有為以後的互通做好預留接口,更不可能将互通範圍擴大到不同領域和不同行業。自動控制與物聯網的差別就如同統計學與大資料的差別,其核心的方法沒有太大的差異但是因為資料量的提升和對資料使用率要求的提高,造成原來的體系不再适用于如今幾乎沒有邊界的範圍。和移動網際網路一樣,物聯網同樣是技術協同體系中資料的源頭和傳輸通道,需要雲計算提供計算力支撐和大資料對于收集的資料進行分析挖掘。

4 産業網際網路資料特征

從生産上各類裝置的運作資料屬于典型的低價值密度資料因為這些裝置在大部分情況下工作是正常的,在原先缺乏計算力的情況下沒有辦法能夠挖掘這些資料,判斷裝置的故障采用的是安裝測量儀表的方式,明顯的缺陷是測量儀表隻有在故障發生時才能通知運作人員并進行保護動作,而大資料應用後,能夠通過曆史資料和同類型裝置運作資料特别是故障情況下的特征進行挖掘和提取,通過預判來做到在裝置可能會發生故障時就通知運作人員處理而不必等到故障真正發生,顯而易見,這種預測的模式對于生産效率的提升非常顯著。

5 5G對資料科學發展趨勢的影響

結合以上幾個領域的資料特征和5G的特點,可以判斷一下5G對資料科學發展趨勢的影響。5G的顯著特點就是傳輸速度快并且時延低,從雲管端三個層面來分析,5G處于網絡層,傳輸速度的提高代表非結構化資料(視訊、圖像、語音等)的大規模接入會是未來的趨勢,并且這個發展趨勢會同時出現在移動網際網路、物聯網和産業網際網路領域,跟随而來的是對于非結構化資料處理和計算的要求變高,雲計算方面各領域對于GPU伺服器的需求度将會顯著上升。

從資料算法方面面向結構化資料的機器學習算法目前已經在不斷向面向非結構化資料和異構資料計算的方向靠近,這個趨勢從阿裡雲天池比賽的賽題設定可以明顯的感受到。在5G出現以前,雲端其實已經有能力針對大量的非結構化資料進行大規模計算,但是由于傳輸通道受限,海量單體檔案較大的非結構化資料傳輸是個很大的問題,傳輸速度的限制導緻了實時性也一并降低是以阻礙了很多應用場景的落地。5G使無線傳輸速度大幅度提升後解決了傳輸限制,以神經網絡為代表的非結構化資料算法才能夠大規模在實際中采用,特别是在無人駕駛、醫療、視訊監控等資料量大并且實時性要求極高的場景,傳輸速度直接影響這些場景下資料的有效性(資料價值随時間下降)。網絡層限制解決後,平台層方面流計算的應用程度将會提高以確定資料處理和計算疊代速度不會成為新的瓶頸。

産業網際網路的典型特征是資料的傳輸都是雙向的,将資料分為回報資訊和控制資訊分析,回報資訊進入邊緣端或者雲端後,通過規則引擎(參見ALIOS IOT平台)計算得出需要發送給感覺層的控制指令,對感覺層控制裝置進行操作。這使網絡層的時延必須非常低并且傳輸非常穩定,由于工業生産過程中各類參數往往在實時波動,是以高延遲不但會造成平台層收到的回報資訊滞後于實際生産過程,更會由于控制資訊的傳回再次被網絡層延遲而造成控制效果變差甚至毫無意義,嚴重者會幹擾工業生産過程的安全運作。5G的低延時性(約為4G的10分之1左右,15ms)從實時性角度看直接關系到産業網際網路整個業态的發展,當然在5G實際運用到實時性要求較高的生産場景時,是否真的在可靠性上能夠做到和有線傳輸同等水準比如面對生産環境幹擾較多的情況能否不受影響還需要根據其實際落地後并試驗後才能驗證。

繼續閱讀