作業要求來自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
我主要的爬取内容是關于熱門微網誌文章“996”與日劇《我要準時下班》的聯系,其中包括兩個csv檔案— —996與《我要準時下班》.csv與996與《我要準時下班》uid.csv。其中996與《我要準時下班》.csv的内容是使用者的id、發表微網誌的内容、微網誌的點贊數,996與《我要準時下班》.csv的内容是基于996與《我要準時下班》.csv的使用者id擷取使用者的性别、所在地與昵稱。
Hadoop綜合大作業 要求:
1.将爬蟲大作業産生的csv檔案上傳到HDFS

上傳檔案到hdfs
2.對CSV檔案進行預處理生成無标題文本檔案
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
db_count_text與db_sex_addr表的屬性
建立資料庫
檢視資料庫
檢視資料庫中的表
4.在Hive中檢視并分析資料
檢視db_count_text的全部資料
檢視db_sex_addr的全部資料
5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)
①統計db_count_text表中的條目數
②查詢db_count_text表中微網誌中有關于“996”的使用者ID
③查詢db_count_text表中微網誌中有關于“我要準時下班”的使用者ID
④檢視db_sex_addr表中的所在地與該所在地的使用者
⑤檢視db_sex_addr表中的男生的使用者數
⑥檢視db_sex_addr表中的女生的使用者數
分析:從查詢的統計的性别可以看出女性的比例高于男性,不僅說明微網誌活躍度中女性占比較高,同時在關于996與日劇《我要準時下班》的話題中參與度最高。
⑦檢視db_sex_addr表中的所在地為北京的使用者數
⑧檢視db_sex_addr表中的所在地為廣東的使用者名
⑨檢視db_sex_addr表中的所在地為浙江,性别為男性的使用者名
⑩檢視db_sex_addr表中的所有性别為男性的使用者名