本節書摘來異步社群《擁抱機器人時代——servo雜志中文精華合集》一書中的第4章,第4.8節,作者:美國servo雜志,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視
當物聯網從各種各樣的裝置中收集到的資料被創造性地使用時,就會變得更加有價值。這就是所謂的大資料的技術問題。這是一個描述大量資料的簡單術語——資料集合如此之大,以至于無法用傳統的關系型資料庫技術來處理了。為了展現物聯網真正的價值,需要開發處理海量資料的應用以建立連接配接和相關性,進而達到智能決策的效果。總的來說就是要把從各處收集的傳感器資料連接配接起來,得到一個非常獨到的結論。
處理物聯網所收集的大資料實際上會面臨3個挑戰。首先是資料的擷取,其次是資料的存儲,最後是資料的分析。
資料擷取(data harvesting,也稱作data ingestion)是一個多步驟的過程,包括從各個裝置收集資料,然後将資料傳送到某個中心資料庫。這主要是關于裝置和網絡的問題,當然,也包括資料庫。前面我們基本上已經講解了相關的内容。
資料存儲看起來很簡單,但這種說法非常有欺騙性。你所需要的就是很多的伺服器,也許是雲伺服器,以提供足夠的能力來存儲所有收集到的資料。這聽起來很簡單,特别是看到存儲的成本不斷下降的時候。
問題當然不會那麼簡單,即使這是一個老問題。很多公司就是被存儲層面的問題擋住了而一直沒能實作更重要的分析功能。
這可真糟糕!因為實際上有很多公司可以提供解決資料庫存儲需要的方法,而且有好幾種這樣的方法可用。
一個流行的方法就是找一家提供“資料庫即服務(database as a service,dbaas)”能力的公司,通常都是基于雲的資料倉庫。已經有很多選擇,包括amazon redshift、來自hortonworks的enterprise hadoop以及cloudera enterprise。這些資料庫管理和自動化服務緩解了公司安裝、管理和運作他們自己的大型資料庫的需要——進而把珍貴的資源釋放出來進行更重要的資料分析。
管理服務提供商(managed service provider,msp)與dbaas提供商很相似,但是它們提供了更加有用的服務,比如all covered和treasure data。這些公司不僅能夠進行外包資料的收集和存儲工作,還可以享受基本分析功能,通常是從主資料中抽取特定的資訊。利用msp來完成最費時耗力的工作,一個公司就可以把它的注意力聚焦在資料分析的細節上——并根據那些分析進一步采取措施。
這是第三個挑戰,也是最具挑戰性的。假設一個公司可以外包資料的擷取和存儲,那麼現在的問題就是如何從收集到的海量資料中抽取價值。換句話說,當收集到了海量資料之後,一個公司要怎麼做呢?
為了處理這個數量級的資料,必須開發用來分析所收集的資料的趨勢、模式和壓點(pressure point)的應用。這是一個巨大的計算挑戰,特别是當你希望實時呈現結果的時候。
當處理這個數量級的資料的時候,資料經常是以一種非結構化的形式收集(和存儲)的,主要問題之一就是你要確定沒有一不小心忽略重要的東西而在根本無關緊要的資料上花費了太多的時間。對于特定的應用,很有必要把麥粒和糠皮分離開。
注意
因為将來所有的物聯網資料都需要分析,人力資源團隊預測對資料分析專家的需求會很快上升。這應該是一個可以進入的好職業。
但是僅僅分析資料是不夠的。對于一個真正從海量的潛在實時資料流中受益的公司,必須建立一種資料驅動決策的文化。這就是說,公司需要按照資料所指引的方向行進——而不是按照老式的管理層所認為的方向行進。這是個勇敢的新世界,是由物聯網所收集的新資料所驅動的。有些公司将茁壯成長,而另一些則相反。