一:項目開發流程
1.項目調研
了解項目的初始需求,然後結合市場的技術,看一下能否完成
2.需求分析
明确一個項目到底需要做什麼?
最終做出的是什麼樣子?
重要性:一個好的需求分析能夠明确項目的後續發展主題方向
3.方案設計
概要設計:
項目結構,技術選型
詳細設計:
按照子產品設計
4.編碼實作
具體實作
5.測試
功能測試:功能是否達到了需求
內建測試:子產品之間的相容性
壓力測試:高并發,多使用者下,系統是否可以運作
使用者測試:根據使用者的建議進行修改
6.上線
試運作階段:新系統與老系統同時線上上運作,使用分流技術
正式運作:線上隻有新系統運作
7.後期維護
開發的再一次疊代
二:什麼是資料分析平台
1.離線資料分析平台
mapreduce,hive,sparkcore(spark on yarn)
2.實時資料分析平台
sparkcore(spark on standalone),sparkstreaming,strom
三:為什麼要自己做資料分析平台
1.優點
不存在資料的洩露
定制化強,可以自由的開發
資料在自己的公司,可以進行後續的開發
有利于公司的人才儲備
2.缺點
需要人才成本,時間成本
伺服器成本,機器成本大
四:資料的來源
1.日志伺服器
nginx日志,apache日志,linux日志
2.業務日志
log4j日志
産品:ELK=>ElasticSearch,Logstash,Kibana
3.業務資料
存儲在業務資料庫中,提供業務支援的資料
4.使用者行為資料
點選,浏覽,選擇,收藏,下單,離線
5.購買的第三方的資料
6.網絡的爬蟲爬來的資料
7.合作者的資料
五:資料處理流程
1.資料收集
收集使用者資料,儲存到HDFS上
2.資料處理
資料的清洗,過濾,補全
根據業務進行需求開發
将結果儲存到sql,或者nosql
3.資料可視化
展示結果,可以使用圖表等。
4.基于結果的其他應用
使用者畫像
推薦
資料分析師