一、簡介
近年來“物聯網”(IoT)和“大資料”是兩個最受矚目的話題。在物聯網的概念裡,有關任何開和關切換到網絡的裝置皆會彼此連接配接,它們之間都彼此互相連結。這包括了手機、咖啡機、洗衣機、耳機、台燈以及可穿戴的裝置,很多物品都是屬于這個範疇(圖 1)。這也适用于機器零件,例如:飛機的噴氣發動機或石油鑽井平台的鑽頭。無論有沒有意識到這一點,我們的生活周圍已經被這些依賴于大資料的東西所包圍了,不過這也使得生活更美好。

圖1 物聯網在連接配接裝置的應用 (來源: the IPSO Alliance)
物聯網(IoT)是目前大資料市場的最新趨勢。在未來十年内,估計會出現約兩百五十億個網絡連接配接裝置,比個人計算機、手機和平闆計算機等的數量加起來還多,這是一個很龐大的連接配接(有人甚至估計這個數字還要高得多,超過一千億)。物聯網是連接配接 “物品” 的巨大網絡。這關系是在人與人、人與事、物與物之間。是以,影響物聯網最大的因素之一就是資料:資料量、資料的管理和使用,如圖2 所示。
圖2 物聯網連接配接資料的數量
二、大資料
大資料是指大量的資料,它是非結構化和沒有組織性的,指的是不斷增加的資料,且需要收集、儲存、管理和分析的技術。這是個複雜的和多層面的現象,影響到人員、流程和技術。從技術的角度來看,大資料整合了組織、管理、分析和顯示資料,這些都是“Seven V’S”的特點。
圖3 在 Seven V’S 裡面的大資料演變為資料的價值
1. 資料量
大資料的資料量,是指從這些來源(文字、聲音、視訊、社交網絡、調查研究、醫療資料、空間意象、犯罪報導、氣象預報和自然災害等等)所收集到的各個資料。而在處理大資料的問題時,數量的多寡是一個關鍵的因素。
2. 資料輸出輸入的速度
這個速度影響負責大量數量和資料進來的速度。例如,當發生資料有時間上的緊迫、需要立即處理并迅速儲存的時候。
3. 資料類型,多樣性
多樣性是指資料的不同資料資源和格式,而它不能将自己儲存在結構化的關系資料庫系統。資料的多樣性直接影響資料的完整性。資料中的多樣性越複雜,就越容易産生錯誤。
4. 真實性
由于非結構化和大資料的處理應考慮其準确性 - 資料的真實性。而“真實性”将成為最受關注的一項因素,尤其是對于大資料的處理、相關分析以及最後結果這些方面而言。
5. 有效性
資料的有效性可能聽起來相似于資料的準确性,但概念上卻是不同的。有效性意味着資料的正确性和精确度。
6. 能見度
能見度指的是能夠看到或被看到–它是隐含的。來自不同來源的資料需要合并在一起,而它們是由可見的技術層所組成的大資料。
7. 價值
這是一個非常重要、具有價值或很有用的資料。這個“價值”是大資料處理後所期望的結果。實際上,資料的價值必須超過成本。
大資料技術是一項新的技術和結構,意指在從各種非常大量的資料中擷取價值,并透過使用快速采集來發現和/或分析大資料技術層,包括:
基礎設施,如儲存系統,伺服器和資料中心網絡基礎結構
資料組織和管理軟體
分析和搜尋軟體
決策輔助和自動化軟體
伺服器包含業務咨詢、業務流程外包、IT 外包、以 IT 項目為基礎的服務、IT 輔助和教育訓練有關大資料如何運用。
圖4 大資料在物聯網中的角色
如果沒有适當的把資料收集到位,對企業而言将不能排序所有在嵌入式傳感器(圖 4)中流動的資訊流。這意味着,如果沒有大資料,物聯網僅可提供企業一點點東西。要引進先進的物聯網使用案例,其關鍵在于:在一般情況下進行資料分析、要能從想象中到實際上可以實施、借助進入到資料基礎結構,來達到經濟實惠和易維護性。
8. 大資料架構
新大資料結構是彌補傳統系統中的不足之處,但也增加了整體的複雜性。這種技術使公司能夠配置設定資料的儲存與資料的分析,并分析有效性以及辨識模式、趨勢等。公司不僅能夠進行曆史分析和回饋導向的報告,同時也期待着,預測商業的見解,進而積極支援未來的決策。多數專業系統需要處理不同的需求和方法。特别是對于物聯網而言,M2M 和傳感器的資料,因為資料的實時處理和分析是必要的,而且傳統系統無法提供其所需,是以記憶體和流動式資料庫的應用程式是必要且不可少的。
大資料的技術結構可以分成六個不同的重點領域,以專業技術為主軸:資料儲存、資料存取、資料整合、分析處理、視覺和資料管理。
圖5 簡易大資料架構
9. 雲端運算
而物聯網真正的創新來自于它與雲端運算的完美結合。當連接配接裝置之間互相發生作用時,大量的資料将産生于此。這些資料很容易地被捕捉到以及儲存,但需要将其轉化為有價值的知識和可執行的情報–而這是雲端真實的實力所在。實際上,雲端運算是一個模型,為了足夠友善、并依據網絡需求權限,來配置運算資源的共享池(如網絡,伺服器,儲存,應用和服務),它可快速配置和釋出最小的管理工作或服務提供商互動。有三種雲端服務模式如下(圖 6):
(1)雲端軟體服務(SaaS)
多數的 SaaS 應用程式,是用來涵蓋在所有情況的範圍之下企業使用者的所需。
(2)雲端平台服務(PaaS)
PaaS 提供開發人員工具和知識庫建構、測試、配置和在雲端基礎設施上運作這個應用程式。PaaS 借助無需配置和擴充 Hadoop 的元素來實作降低管理的工作量,并作為先進分析應用程式的開發平台。
(3)雲端基礎設施服務(IaaS)
IaaS 在共享資源伺服器中能配置設定或拖延時間,這往往是虛拟化,處理的運算和儲存需求的大資料分析。
圖6 服務模式
三個主要的雲架構模型已經随着時間的推移而發展; 私有、公共和混合雲(圖 7)。它們都共享資源商品化的想法,并為此常常虛拟化的計算和抽象的儲存層。
(4)私有雲
私有雲是專用于一個組織,不共享實體資源。此資源可由公司内部或外部提供。私有雲配置的典型要求是安全性,嚴格區分企業的資料儲存和處理是否被無意或是惡意進入共享資源。
(5)公共雲
公共雲的資料傳輸、儲存和處理共享實體資源。然而,客戶有隐私的可見運算環境和獨立儲存。安全方面的問題,采用一些私有雲或自定義的配置,對絕大多數的客戶和項目不相關。
圖7 私有和公共雲端運算之間的差別
(6)混合雲
混合雲架構合并私有和公共雲的配置。通常是為了實施安全性和彈性,或提供更便宜的基本負載和脈沖能力。
雲端運算模式提高 IT 的靈敏性,就能節省很多成本。此外,雲端運算是一個自由的大資料 - 任何企業都能在規模龐大的資料裡與非結構化資料一起運作。雲端運算和雲端資料儲存的興起,對于大資料的出現而言,将成為一個前兆和推動者。雲端運算借助标準化技術方法,來計算時間和資料儲存,并商品化。它比傳統的實體配置有更顯著的優勢。然而,雲端平台有好幾種形式,有時不得不與傳統架構一起整合。雲端運算運用可視化在同一台實體機器上,來運算資源來以運作許多标準化的虛拟伺服器。雲端提供者允許低價格和根據短的時間間隔來計費,以實作這一經濟規模效益。這種标準化使得計算需求,具有彈性和高可用性的選項。
借助增加附加的執行個體與服務他們每個人一部份的需求,來垂直擴充以實作彈性。像 Hadoop 的軟體是專門為分布式系統來利用垂直擴充,他們在大平行規模裡處理小的獨立任務。分布式系統也可以作為資料儲存,例如 NoSQL 資料庫,或檔案系統像是 Hadoop 的 HDFS。透過與複雜工作流程的機器叢集,可用風暴在接近實時之下提供協調資料流的處理來替代。典型的雲端大資料項目的資料處理重點放在縮放或采用 Hadoop。像 Hive 和 Pig 這兩個工具已經在 Hadoop 之上,這使得它可行輕松地處理龐大的資料。
三、HADOOP
Hadoop 是一個強大的開放架構,它幾乎是由整個大資料堆中許多不同的技術所組成,借着利用正在使用的幾個組織,并透過物聯網(IoT)來收集分析和處理資料。對于物聯網(IoT)收集非結構化資料,這僅僅成功了一半,另一半處理批量,是使用 Hadoop 分析資料。物聯網的成功或失敗取決于大資料,随着企業步入物聯網的世界裡,物聯網與大資料之間的共生關系被廣泛利用在盈利的業務決策上。物聯網大部分是關于資料而不是裝置中的資料。大資料和物聯網就像是戰略合作夥伴,因為它們不隻是從物聯網收集資料,還必須進行處理和分析,以争取改善業務營運。因資料的特性,物聯網裝置适合用于采用分析大資料的方法。物聯網(IoT)的基礎設施已經達到了成熟的水準:
無所不在 - 現在傳感器已經很便宜,并可被包含在任何系統内。
向外擴充集中計算-Hadoop 可被用于分析、處理和儲存所有 IoT 所産生的資料,并具有成本效益的可擴充分布式計算系統。
Hadoop 運用企業級儲存處理層,可儲存接近一兆的檔案。各種相關性可以在不同類型的非結構化資料之間,借助利用 Hadoop 和物聯網,進而為企業的競争優勢提升到另一個層級。下圖所示的互相作用物聯網(IoT),說明資料儲存和大資料分析引擎之間是如何發生的,如圖 8。
圖8 物聯網三要素之間的互相作用
四、物聯網的應用和大資料 HADOOP
1. 迪斯尼世界獨有的流行魔術手環
迪斯尼世界獨有的魔術手環,是物聯網如何利用大資料的最佳範例之一。魔術手環是一種可穿戴式的手環,遊客可以戴在手腕上,從辦理報到手續到他們的房間開始、購買食物、進入主題公園的旋轉門。迪斯尼收集有關遊客在主題公園内活動的非結構化資料,以将其用于分析,幫助他們 - 從業人員的吸引力和遊樂設施的有效性,調節餐廳在尖峰時段的存貨,容納更多的客人進入飯店。
2. 受到大衆喜愛的珠寶店 Alex and Ani
Alex and Ani 這兩家受到大衆喜愛的珠寶店,它們在店内使用 Beacon 的技術來追蹤商店内的遊客數量和發送特定的折扣券,使顧客一進入到商店中就能發送給他們。
3. Beacon 技術在麥當勞食品供應鍊
麥當勞是用 Beacon 技術透過顧客的手機應用程式,知道誰在麥當勞餐廳附近,以提供優惠券給客戶。顧客收到有個人化種類的訊息,并使用手機應用程式找出最有關聯的交易。
4. UPS(聯合包裹服務公司)
UPS 是美國最大的運輸公司,他們正在利用傳感器資料進行大資料分析,以提高辦事效率來節省資金,并減少對環境的影響。UPS 在送貨車輛上安裝傳感器來追蹤油量行駛裡程數,停止和加速的發動機狀況。這些物聯網傳感器從每個車隊的每一台車輛采集近 200 個資料點,每一天将近 80,000 個。UPS 已成功地減少有害排放燃料的消耗和減少車輛的空閑時間。
五、運用大資料的案例
現在的大資料技術提供了各種不同的能力。它已經用來創造新産品、預測行為和趨勢,并優化銷售活動。大資料正在改變各種行業的經營方式,它能提供量身打造的醫療保健,使得我們的城市更智慧、更安全。本節的其餘部分将讨論,大資料被用于一些特定的情況。
1. 利用大資料來預測犯罪地點
預測未來犯罪是現在現實的一部分。其中一個例子是洛杉矶警察局(LAPD)在近期利用大資料來預測犯罪地點,是以降低整個大都市區的犯罪,在使用預測軟體的區域作出了以下貢獻,降低 33%的室内偷竊、21%的暴力犯罪和 12%财産犯罪。當地震發生的時候,在附近會有很高的機率出現餘震。這個數學模型,是由一位助理教授喬治莫赫所開發的,它可以用來定義和預測新餘震圖案。
犯罪資料顯示類似的模式(見圖 9)。這些資料有助于洛杉矶警察局 LAPD了解犯罪的性質。它表示當犯罪發生在一個地方的時候,就會有更多的犯罪出現在附近,這些犯罪活動的模式,就類似餘震模式。當他們把之前的犯罪代入方程式,就會産生在過去預測裡發生了什麼事。而現在該部門可以透過運算來分析識别犯罪模式,這系統的分析,讓暴力犯罪在洛杉矶連續遞減。
就像遵循一個地震餘震,附近的盜竊也跟着快速重複發生(從洛杉矶 2004/5 的資料)
圖9 犯罪餘震
2. 以大資料作為醫療保健創新的源泉
大資料的釋出可能會激發很多公司開發醫療保健應用程式,或類似的創新。以下是大資料革命創造有關醫療創新的一些例子:
(1) MHealthCoach 支援慢性病照護的病人、提供教育,并透過一個互動系統來治療。這個應用程式利用醫療保健的成本和項目的資料,這是由衛生保健研究與品質的機構所贊助的,以及來自臨床試驗的結果和警告。MHealthCoach 也可被供應者用來識别高風險患者,和提供重要的消息并提醒他們(圖 10)。
圖10 Mhealthcoach
(2) Asthmapolis 創造了一個可使用 GPS 追蹤器的東西,它借助哮喘來監測吸入器的使用情況,并在 Google Play 商店和 App Store 推出了名為Propeller Health 的應用程式(見圖 11)。這個 Propeller 傳感器會持續追蹤患者藥物的使用,并随着時間和地點來記錄,定位病人使用的吸入器。也可同時用于救援和控制藥物症狀追蹤。這些訊息會被放到中央資料庫,并用于識别個人、團體,并基于人口的趨勢,合并哮喘催化劑 CDC訊息(例如,在東北花粉計數和火山霧在夏威夷的影響),以幫助醫生制定個别化的治療方案,并預防突發的狀況。該 Propeller 無線傳感器與患者的智能手機,會使用内置藍牙的技術與手機同步。為 iOS(如iPhone 和 iPod Touch)和 Android 裝置的 Propeller 手機應用程式可以讓病人來檢視資料,給他們個人化的回饋和教育的方法,來改善他們的哮喘控制或慢性阻塞性肺病。
圖11 Propeller 應用
Ginger.io 提供了一個手機應用程式,即患者(如糖尿病患者)同意,與他們的供貨商合作,透過他們的手機進行追蹤和協助應用程式記錄呼叫訊息、簡訊、位置,甚至是移動的訊息(圖 12)。患者也響應了智能手機的調查。Ginger.io應用程式整合了從美國國立衛生研究院取得的公共研究,和其他健康資料訊息。獲得可揭示的見解;例如,缺乏運動或其他活動,可能預示着患者感覺身體不适,和不規則的睡眠模式可能預示着焦慮發作迫在眉梢。
圖12 Ginger i.o 的應用
六、大資料為企業和消費者帶來的好處
大資料為企業和客戶創造價值,這些好處可以在廣泛的領域中感受到,不論是大型或小型公司。在大型公司中,有投資大資料技術的幾個驅動因素; 分析業務和交易資料,能夠收集深入了解網絡上顧客的行為,并采用先進的分析來發現,其中 BTO 模式的制造商可以用影響最小的現有生産計劃到排程機、從業人員來銷售。大資料正由制造商提高保修管理和裝置監控,以及優化他們的産品投入市場的物流。零售商正在利用各種各樣的客戶互動,線上和線下,以提供更有針對性的建議和最優定價。科技公司正在利用大資料來分析數以百萬計的資料,以提供更可靠,更準确的語音接口。銀行使用大資料技術來提高欺詐檢測。
對于顧客而言,大資料創造的産品和服務,影響他們的日常生活。使網絡安全專家透過利用大量的網絡和應用資料,并用它來識别異常情況和威脅,以保護信用卡系統。近 29%的美國人誰是“無銀行賬戶”或“已經開戶”有資格獲得信貸額度的使用範圍更廣,如支付租金、水電費、行動電話使用者、保險、兒童保健和學費。
當企業采用大資料作為其商業戰略的一部分,第一個問題通常大資料會啟動什麼樣的價值? 有助于高層或低層,或者會有一個非金融類驅動? 從一個價值點來看,對大資料分析應用程式可分為三個次元(見圖 13)之一。
第一項也就是最明顯的是營運效率。在這種情況下,資料是被用在做出更好的決策,以優化資源消耗,并提高過程的品質和性能,這是自動資料處理一直在提供的,不過也有一個增強的功能集。第二個次元是客戶體驗; 典型的目标是提高顧客的忠誠度,進行精确的顧客細分,優化客戶服務。包括公共網際網路龐大的資料資源,大資料推動 CRM 技術的下一個發展階段,這也使新的商業模式,從現有産品的補充收入來源,并建立全新的(資料)産品的額外收入。
圖13 價值次元的大資料用例