天天看點

Hadoop綜合大作業

作業要求來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

1.将爬蟲大作業産生的csv檔案上傳到LINUX

  首先把收集到的資料所生成的csv檔案gzcc.csv上傳到裝有MySQL、Hive以及Hadooplinux系

Hadoop綜合大作業

2.對CSV檔案進行預處理生成無标題文本檔案

  利用sed指令删除标題

Hadoop綜合大作業
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
Hadoop綜合大作業
4.在Hive中檢視并分析資料

  •   查詢釋出時間,并排序,sql指令如下:
Hadoop綜合大作業

  根據這張圖可以知道平均每天釋出的租房量大概為70左右,而且一個月前釋出的房量非常的多可能存在非常多的劣質的房源。

Hadoop綜合大作業
  •   查詢釋出價格,并排序,sql指令如下

  

Hadoop綜合大作業

  看的出價格處在2500的是最高的,其中2000的價格排名第二,而且1500、3000以及35000跟随其後,證明廣州市的房租一般都在1500-3500左右

Hadoop綜合大作業
  • 查詢2000-3000房租的個數,sql指令如下
Hadoop綜合大作業

有513個

Hadoop綜合大作業
  • 建立新表進行特殊的存儲,例如各個段位的房租費
Hadoop綜合大作業
Hadoop綜合大作業
Hadoop綜合大作業
  • 查詢個樓層的個數
Hadoop綜合大作業
Hadoop綜合大作業
  • 查詢每個樓層的租費其中1層最便宜
Hadoop綜合大作業
Hadoop綜合大作業
  •  查詢朝向與平均房租的關系
Hadoop綜合大作業
Hadoop綜合大作業
  • 查詢在哪個區的租房最多,可以知道天河的租房量最大
Hadoop綜合大作業
Hadoop綜合大作業
  • 查詢每個區的平均的房租為多少其中天河最多,而且房價也是最貴的
Hadoop綜合大作業
Hadoop綜合大作業
  • 查詢格局對房租的影響,其中兩房一廳一衛是最多的
Hadoop綜合大作業
Hadoop綜合大作業

  由此我們可以看得出在廣州其實有很多的房源,而其中的房租也非常的貴,幾乎集中在1500-3500這個範圍,其中以天河區的租房數量為首其房租的金額也比較大。