天天看點

大資料項目及實作

1,離線資料處理:項目内容為通過對網站通路日志的采集和清洗,結合資料庫中的結構化使用者資料,統計并展示網站的PV、UV情況,以對網站的運作情況進行監控。通過此項目,回顧并串聯前面講述的離線資料處理相關技術,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB級資料離線處理的一般過程和架構。

2,流式資料處理:項目内容為通過對資料庫交易資料修改的實時同步,監控網站實時交易情況,以提高網站交易情況監控的時效性,降低網站運作的風險。 通過此項目,回顧并串聯前面講述的實時資料處理相關技術,如:kafka、Spark、Streaning和HBase等,了解和掌握實時資料處理的一般過程和架構。

3,推薦系統:項目内容,基于公開資料庫的商品推薦,某大型互金公司産品推薦系統剖析, 通過對公司實際推薦項目的剖析和根據真實資料搭建推薦系統的實操演練,了解推薦系統的一般架構和常用算法。

【大資料開發學習資料領取方式】:加入大資料技術學習交流群458345782,點選加入群聊,私信管理者即可免費領取

時間上下文itemCF算法: 最常用的是基于物品的個性化推薦系統

物品相似度

線上推薦 : 使用者近期行為更關鍵

時間上下文相關的userCF算法

使用者興趣相似度

相似興趣使用者最近行為

地點上下文

4,搜尋系統:項目内容,通過網站爬蟲爬取網站資料,然後基于KlastlcSeard和Klbana搭建一個完整的搜尋系統。

5,系統運作情況儀表盤: 通過對網站通路日志的采集和清洗,結合資料庫中的結構化使用者資料,統計并展示網站的PV,UV情況,以對網站的運作情況進行監控。通過此項目,回顧并串聯前面講述的離線資料處理相關技術,如Flume,Sqoop,Hive,Spark等,掌握PB級資料離線處理的一般過程和架構。

6, 實時交易監控系統 : 過對資料庫交易資料修改的實時同步,監控網站實時交易情況,以提高網站交易情況監控的時效性,降低網站運作的風險。通過此項目,回顧并串聯前面講述的實時資料處理相關技術,如Kafka,Spark Streaming和HBase等,掌握實時資料處理的一般過程和架構。

7,推薦系統理論與實戰: 講解推薦系統的相關背景,常用算法及通用架構;基于公開資料集從零建構一個電影推薦系統。通過對公司實際推薦項目的剖析和根據真實資料搭建推薦系統的實操演練,了解推薦系統的一般架構和常用算法

8,資料倉庫搭建理論與實戰: 講解資料倉庫搭建的方法論,常用模組化理論;以互金公司資料倉庫搭建場景作為切入,執行個體示範資料倉庫搭建過程及技術架構。

9,分布式業務監控系統: 講解業務監控系統需求背景,基于大資料的技術方案;通過執行個體代碼搭建完整的業務監控系統

10,基于ES的日志系統 : 基于Flume,ElasticSearch等技術搭建系統日志收集與查詢系統。

11,信貸需求預測系統: 以京東信貸需求預測競賽為背景,執行個體講解資料挖掘項目中如何設計特征,模型基礎,模組化以及調參等。

12,使用者畫像系統 : 講解使用者畫像系統的需求背景,基于大資料技術的解決方案;通過執行個體代碼示範使用者畫像系統的搭建

繼續閱讀