天天看點

《大資料分析原理與實踐》一一1.2 哪裡有大資料

本節書摘來自華章計算機《大資料分析原理與實踐》一書中的第1章,第1.2節,作者:王宏志 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

大資料是無處不在的。

大資料包括那些數目極龐大的網絡資料。有自媒體資料(比如社交網絡),有日志資料(比如使用者在搜尋引擎上留下的大資料),還有流量最大的富媒體資料(比如視訊、音頻)等。例如,淘寶每天的資料量就超過50 tb;新浪微網誌晚高峰時每秒要接受100萬次以上的請求;美國youtube網站一分鐘有100小時的視訊被上傳。

大資料包括企事業機關資料和政府資料。一家醫院一年能收集包括醫療影像、患者資訊在内的500 tb資料,用于預測、預防、改善等;中國聯通每秒記錄使用者上網條數近百萬條,一個月大概是300 tb;國家電網資訊中心目前累計收集了2 pb的資料。

大資料包括我們身邊的一些公用設施所記錄的資料。就監控而言,很多城市的交通攝像頭多達幾十萬個,一個月的資料就達到數十pb,還有基本上所有的超市都覆寫着攝像頭,這些都可以是大資料的基本來源并進行挖掘利用;在北京,每天用公交一卡通的乘客有4000萬刷卡記錄,而每天地鐵刷卡的乘客也有1000萬,這些資料可以用來改善北京的交通狀況,優化交通路線。

大資料還包括國家大型公用裝置和科研裝置等産生的資料。例如,波音787每飛一個來回可産生tb級的資料,美國每個月收集360萬次飛行記錄;風力發電機裝有測量風速、螺距、油溫等多種傳感器,每隔幾毫秒就要測量一次,資料彙集用于檢測葉片、變速箱、變頻器等的磨損程度;一個具有風機的風場一年會産生2 pb的資料,這些資料用于預防維護,可使風機壽命延長3年,極大地降低了風機的成本。

工業領域也産生了大量的資料,ge能源監測和診斷(m&d)中心每天從客戶處收集10千兆位元組的資料;長虹集團有限公司等離子顯示闆制造中生産流程資料涉及75條組裝線,279個主要生産裝置,超過10 000個參數,每天3000萬條記錄,大約10 gb;杭州西奧電梯有限公司的數字化工廠中的房間監控超過500個參數,每天産生約50萬條記錄;浙江雅瑩服裝有限公司數字化生産線由15個子系統組成,超過1000個參數,每天産生約80萬條記錄,約1 gb。

大資料甚至還包括一些地理位置、基因圖譜、天體運動軌迹的資料。總之,任何可以利用資料分析來達到目的的地方就會有大資料的存在。

繼續閱讀