從大資料時代開啟的第一天起,我們的生活注定被資料灌滿了。這是一個人人都需要隐私但又不懂得在乎和保護隐私的時代,幾乎所有人都在釋出資料,把它們挂在網上或傳播到公共平台。人們既向外發散,又向内吸收,自覺或不自覺地收集各種各樣的資料資訊。——《大資料在中國》
在與很多不了解大資料的朋友交流時,果金老師往往會被問到一個問題,那就是大資料究竟是做什麼的?事實上,經過了十多年的發展,大資料相關技術的應用已經滲透到了我們工作生活和學習中的各個方面了,往往有很多我們沒有意識到的産品或服務,其背後都是經由大資料相關技術産品的輔助下,得以實作的。下面看看怎麼入門大資料
第一章 大資料概述
1、通過對大資料技術産生的背景和行業應用案例了解hadoop的作用;
2、掌握hadoop底層分布式檔案系統HDFS的原理、操作和應用開發;
3、掌握MAPREDUCE分布式運算系統的工作原理和分布式分析應用開發;
4、掌握Hive資料倉庫工具的工作原理及應用開發。
大資料的4V特征:
大資料解決的問題:
1.4大資料涉及到的技術
資料采集、資料存儲、資料處理/分析/挖掘、可視化
1.5大資料帶來的挑戰
對現有資料庫管理技術的挑戰
經典資料庫并沒有考慮資料的多類别
實時性的技術挑戰
網絡架構、資料中心、運維的挑戰
其他挑戰:資料隐私、資料源的複雜多樣等
1.6 挑戰之如何對大資料進行存儲和分析
系統瓶頸:存儲容量、讀寫速度、計算效率
Google大資料技術:GFS、BigTable、MapReduce
1.7如何學好大資料
查找官網、英文
項目實戰融會貫通
參加社群活動
多動手、多練習、堅持
想要在大資料這個領域汲取養分,讓自己壯大成長。分享方向,歡迎想學習,想轉行的,進階中你加入學習。關注我可以找到組織
Spark綜合項目:
介紹:該項目使用了Spark SQL和Spark Streaming對遊戲整個生命周期産生的資料進行了分析,從玩家第一次登入遊戲到每天産生的遊戲日志,通過大量的資料來分析該遊戲的營運情況和玩家的各種行為:如活躍使用者、使用者留存、充值比例、遊戲收人、外挂分析等。