天天看點

大資料應用期末總評

作業要求來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析

1. 準備資料(下圖為SCV截圖):

大資料應用期末總評
把CSV添加到/bigdatacase/dataset中
大資料應用期末總評
檢視前十條資料看是否添加成功
大資料應用期末總評
編輯pre_deal.sh以進行檔案預處理:
大資料應用期末總評
檢視是否與處理成功:
大資料應用期末總評
把檔案上傳到Hadoop上:
大資料應用期末總評
把hdfs中“/bigdatabase/dataset”目錄下的資料加載到了資料倉庫的hive中:
大資料應用期末總評
大資料應用期末總評

3.用Hive對爬蟲大作業産生的進行資料分析(10條以上的查詢分析)

1、查詢票價前十的站點及公共汽車号

select busname,time,piaojia from bus2 ORDER BY(piaojia) DESC;
      

 這些車如果坐的站少會很虧喔!

大資料應用期末總評

2、查詢普遍票價為多少錢

select piaojia,count(piaojia) from bus2 group by(piaojia);
      

 圖中開出很明顯兩元的票價最為普遍。

大資料應用期末總評

3、公共汽車經過站數情況

select busname,zhanshu from bus2 ORDER BY(zhanshu) DESC;
      
大資料應用期末總評

廣州最多的一條線有55個站,身為經曆過345A煎熬的廣商學生也才31個站。

 4、站數和票價的關系

大資料應用期末總評
大資料應用期末總評

由圖中看出站數和票價沒有實際聯系。

5、廣州汽車公司種類

大資料應用期末總評

廣州有8個巴士公司。

6、各種汽車公司規模

select gongshi,count(gongshi) from bus2 group by(gonshi);
      
大資料應用期末總評

由圖可知第一巴士公司是廣州的汽車龍頭公司擁有的線路最多,第二和第三差不多,最少線路是馬會巴士。

7、各公司汽車的票價情況

第一巴士票價情況:

大資料應用期末總評

第二巴士票價情況:

大資料應用期末總評

第三巴士票價情況

大資料應用期末總評

馬會巴士票價情況:

大資料應用期末總評

花都恒通票價情況:

大資料應用期末總評

番廣公司票價情況:

大資料應用期末總評

沙溢巴士票價情況:

大資料應用期末總評

新福利巴士票價情況:

大資料應用期末總評

 規模最大的第一巴士票價在1-3元并不是越大的公司就有越貴票價的路線,而規模小的公司反而有票價貴的路線。說明票價和公司規模無關。

綜合上面的分析汽車票價隻與路段有關。

8、各路公共汽車發車時間情況

大資料應用期末總評
大資料應用期末總評
大資料應用期末總評

公交開的時間都很早,一般到晚上10點多就結束。

9、汽車改變道路的原因

大資料應用期末總評
大資料應用期末總評
大資料應用期末總評

配合地鐵,公共汽車服務指引和公共中小巴服務指引在該表車道的原因中占比較大。

10、廣州公交種類數

大資料應用期末總評

廣州有701種公交線路。

以上就是我分析的全部内容。