作業要求來自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339
Hadoop綜合大作業 要求:
1.将爬蟲大作業産生的csv檔案上傳到HDFS
此處選取的是爬蟲大作業——對貓眼電影上《小偷家族》電影的影評。
此處選取的是comment.csv檔案,共計20865條資料。

2.對CSV檔案進行預處理生成無标題文本檔案
編輯pre_deal.sh檔案對csv檔案進行資料預處理。
3.把hdfs中的文本檔案最終導入到資料倉庫Hive中
建立資料庫dblab;
- 查詢前20位貓眼電影使用者對《小偷家族》電影的評分
由上圖可以看出大部分使用者評分都在4分以上(5分評分為滿分),這也就說明大部分使用者對此部電影的評價都非常高。
- 查詢給此電影1分評分的使用者的評論
由上圖可以看出給低分評價的使用者多半為沒看懂與難以了解所給出的低評分,由此可以得出使用者對于電影的了解都不完全相同,一千個讀者就有一千個哈姆雷特,大部分使用者都是靠着主觀意識來給與電影評分。
- 查詢給此電影5分評分的使用者的評論
由5分評價也可以得出此部電影的主旨與想向觀衆表達的東西,可看出此部電影主要是圍繞着親情,感動為主題來叙述的。
- 查詢對比5評分使用者與1分評分使用者的人數
由上圖可知給5分高分評價的使用者人數為7528人,給1分低分評價使用者人數為437人。由此可以知道這是一部優秀的電影。
- 查詢評分為3的使用者人數
- 查詢評分為1的使用者id
- 查詢評分為4的使用者的評論
與評分為5的評論相差不多,基本都是對整個電影的好評與受到的感動。
- 查詢城市葫蘆島的評論使用者人數
由此可看出此部電影還是比較小衆,在較為不發達的城市基本無人問津。
- 查詢評分為5的處于表格的序号
- 查詢表格的資料中名字不重合的資料的數量
由上圖可以看出由8238名使用者沒有重複評論資料的産生。說明爬取的資料仍然具備較大的重複性,需要注意。
- 查詢表格資料中評論未重合的資料數量
由上圖可看出11355名使用者評論沒有重複資料的産生,基本可以視為有效資料。
總結:對于此次作業的完成,最大的問題就在于對于整個Hadoop環境的配置,就算是按部就班的按照步驟走,在這個過程中也遇到了非常多的問題,隻要有一步的配置出現錯誤,會導緻整個環境的配置失敗。
但是總體來說還是基本按照要求完成了本次作業,在這個過程中我也是受益匪淺。