天天看點

大資料應用期末總評

作業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬蟲大作業産生的csv檔案上傳到HDFS

  • 啟動hadoop服務
  • 大資料應用期末總評
  • 在HDFS中建立/bigdatacase/dataset 檔案夾 ,将檔案上傳到HDFS,用于存放成績表 chengji.txt
  • 大資料應用期末總評

2.對CSV檔案進行預處理生成無标題文本檔案

  • 檢視score.csv資料檔案
  • 大資料應用期末總評
  • 生成pre_deal.sh1檔案,為每行記錄增加一個id字段(讓記錄具有唯一性)
  • 大資料應用期末總評
  • 對檔案進行預處理,并檢視處理結果
  • 大資料應用期末總評

3.把hdfs中的文本檔案最終導入到資料倉庫Hive中

  • 啟動mysql服務
  • 大資料應用期末總評
  • 啟動hive ,建立資料庫bd_s
  • 大資料應用期末總評
  • 建立資料庫表(id,時間,學期,編号,課程名,課程屬性,績點,成績分數,所屬學院)
  • 大資料應用期末總評
  •  查詢表中前十條資料,驗證資料庫是否有資料
  • 大資料應用期末總評

4.在Hive中檢視并分析資料

  1)依學年時間,統計有多少(成績)資料,大三下學期資料不在内

  • 大資料應用期末總評
  • 依照課程屬性進行區分,并統計
  • 大資料應用期末總評
  • 依照課程屬性,查詢某一年的課程總數
  • 大資料應用期末總評

    結果分析:學院較注重學生專業素質的教育訓練,與基礎知識課程,公共課程全方面發展的學習規劃,從大一(2016-2017學年)可看出,高等數學英語等文化課程較多,而專業實踐課較少,随着時間推移,學院的重心在于學生的實踐培養,幾乎沒有基礎選修的課程,目的在于學生面向社會的發展和技能的提升。

     2)依學年時間,統計有多少(成績)資料,大三下學期資料不在内

  • 依成績進行降序顯示其課程名與分數
  • 大資料應用期末總評
  • 查詢成績挂科現象,即成績小于60,顯示結果為0
  • 大資料應用期末總評
  • 統計2018-2019年的平均績點
  • 大資料應用期末總評
  • 分組統計全學年度的平均績點
  • 大資料應用期末總評

     結果分析:從資料可見,每學年度的績點有小幅度增長的,從大一,到大三第一學期,從2.60到3.12,每次增長幅度為0.25-0.3,穩定發展。總的來說,專業成績明顯優勢,體育活動亦有較好的發展,基本課程則明顯弱勢,由于學生的普遍認為,隻要注重專業成績,平時的基本文化課程沒什麼用處,受到這個觀念的影響下,才會有了這樣的發展。