作業要求來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析
1. 準備資料(下圖為SCV截圖):

3.用Hive對爬蟲大作業産生的進行資料分析(10條以上的查詢分析)
1、查詢票價前十的站點及公共汽車号
select busname,time,piaojia from bus2 ORDER BY(piaojia) DESC;
這些車如果坐的站少會很虧喔!
2、查詢普遍票價為多少錢
select piaojia,count(piaojia) from bus2 group by(piaojia);
圖中開出很明顯兩元的票價最為普遍。
3、公共汽車經過站數情況
select busname,zhanshu from bus2 ORDER BY(zhanshu) DESC;
廣州最多的一條線有55個站,身為經曆過345A煎熬的廣商學生也才31個站。
4、站數和票價的關系
由圖中看出站數和票價沒有實際聯系。
5、廣州汽車公司種類
廣州有8個巴士公司。
6、各種汽車公司規模
select gongshi,count(gongshi) from bus2 group by(gonshi);
由圖可知第一巴士公司是廣州的汽車龍頭公司擁有的線路最多,第二和第三差不多,最少線路是馬會巴士。
7、各公司汽車的票價情況
第一巴士票價情況:
第二巴士票價情況:
第三巴士票價情況
馬會巴士票價情況:
花都恒通票價情況:
番廣公司票價情況:
沙溢巴士票價情況:
新福利巴士票價情況:
規模最大的第一巴士票價在1-3元并不是越大的公司就有越貴票價的路線,而規模小的公司反而有票價貴的路線。說明票價和公司規模無關。
綜合上面的分析汽車票價隻與路段有關。
8、各路公共汽車發車時間情況
公交開的時間都很早,一般到晚上10點多就結束。
9、汽車改變道路的原因
配合地鐵,公共汽車服務指引和公共中小巴服務指引在該表車道的原因中占比較大。
10、廣州公交種類數
廣州有701種公交線路。
以上就是我分析的全部内容。