作業要求來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
1.将爬蟲大作業産生的csv檔案上傳到LINUX
首先把收集到的資料所生成的csv檔案gzcc.csv上傳到裝有MySQL、Hive以及Hadooplinux系

2.對CSV檔案進行預處理生成無标題文本檔案
利用sed指令删除标題
- 查詢釋出時間,并排序,sql指令如下:
根據這張圖可以知道平均每天釋出的租房量大概為70左右,而且一個月前釋出的房量非常的多可能存在非常多的劣質的房源。
- 查詢釋出價格,并排序,sql指令如下
看的出價格處在2500的是最高的,其中2000的價格排名第二,而且1500、3000以及35000跟随其後,證明廣州市的房租一般都在1500-3500左右
- 查詢2000-3000房租的個數,sql指令如下
有513個
- 建立新表進行特殊的存儲,例如各個段位的房租費
- 查詢個樓層的個數
- 查詢每個樓層的租費其中1層最便宜
- 查詢朝向與平均房租的關系
- 查詢在哪個區的租房最多,可以知道天河的租房量最大
- 查詢每個區的平均的房租為多少其中天河最多,而且房價也是最貴的
- 查詢格局對房租的影響,其中兩房一廳一衛是最多的
由此我們可以看得出在廣州其實有很多的房源,而其中的房租也非常的貴,幾乎集中在1500-3500這個範圍,其中以天河區的租房數量為首其房租的金額也比較大。