天天看點

《Hadoop綜合大作業》

作業要求來自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

  我主要的爬取内容是關于熱門微網誌文章“996”與日劇《我要準時下班》的聯系,其中包括兩個csv檔案— —996與《我要準時下班》.csv與996與《我要準時下班》uid.csv。其中996與《我要準時下班》.csv的内容是使用者的id、發表微網誌的内容、微網誌的點贊數,996與《我要準時下班》.csv的内容是基于996與《我要準時下班》.csv的使用者id擷取使用者的性别、所在地與昵稱。

Hadoop綜合大作業 要求:

1.将爬蟲大作業産生的csv檔案上傳到HDFS

  

《Hadoop綜合大作業》
《Hadoop綜合大作業》
《Hadoop綜合大作業》
《Hadoop綜合大作業》
《Hadoop綜合大作業》

                    上傳檔案到hdfs

2.對CSV檔案進行預處理生成無标題文本檔案

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

《Hadoop綜合大作業》

       db_count_text與db_sex_addr表的屬性

《Hadoop綜合大作業》

                 建立資料庫

《Hadoop綜合大作業》

                檢視資料庫

《Hadoop綜合大作業》

              檢視資料庫中的表

4.在Hive中檢視并分析資料

《Hadoop綜合大作業》

                檢視db_count_text的全部資料

《Hadoop綜合大作業》

              檢視db_sex_addr的全部資料

5.用Hive對爬蟲大作業産生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)

①統計db_count_text表中的條目數

   

《Hadoop綜合大作業》

②查詢db_count_text表中微網誌中有關于“996”的使用者ID

《Hadoop綜合大作業》

③查詢db_count_text表中微網誌中有關于“我要準時下班”的使用者ID

《Hadoop綜合大作業》

④檢視db_sex_addr表中的所在地與該所在地的使用者

《Hadoop綜合大作業》

⑤檢視db_sex_addr表中的男生的使用者數

《Hadoop綜合大作業》

⑥檢視db_sex_addr表中的女生的使用者數

《Hadoop綜合大作業》

分析:從查詢的統計的性别可以看出女性的比例高于男性,不僅說明微網誌活躍度中女性占比較高,同時在關于996與日劇《我要準時下班》的話題中參與度最高。

⑦檢視db_sex_addr表中的所在地為北京的使用者數

《Hadoop綜合大作業》

⑧檢視db_sex_addr表中的所在地為廣東的使用者名

《Hadoop綜合大作業》

⑨檢視db_sex_addr表中的所在地為浙江,性别為男性的使用者名

《Hadoop綜合大作業》

⑩檢視db_sex_addr表中的所有性别為男性的使用者名

《Hadoop綜合大作業》

繼續閱讀