本次作業來源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
一、課程評分标準:
分數組成:
考勤 10
平時作業 30
爬蟲大作業 25
Hadoop生态安裝與配置 10
分布式檔案系統HDFS
分布式并行計算MapReduce
Hadoop綜合大作業 25
評分标準:
難易程度
資料量
文章品質:描述、分析與總結
1.将爬蟲大作業産生的csv檔案上傳到HDFS
二、對CSV檔案進行預處理生成無标題文本檔案
三、
在HDFS上傳檔案夾/bigdatacase/dataset

四、在HDFS上傳we_table.txt并查詢
在HDFS上傳we_table.txt并查詢
進入hive模式,建立表格bdlab
使用表格
查詢前十條資料