本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
一、课程评分标准:
分数组成:
考勤 10
平时作业 30
爬虫大作业 25
Hadoop生态安装与配置 10
分布式文件系统HDFS
分布式并行计算MapReduce
Hadoop综合大作业 25
评分标准:
难易程度
数据量
文章质量:描述、分析与总结
1.将爬虫大作业产生的csv文件上传到HDFS
二、对CSV文件进行预处理生成无标题文本文件
三、
在HDFS上传文件夹/bigdatacase/dataset

四、在HDFS上传we_table.txt并查询
在HDFS上传we_table.txt并查询
进入hive模式,创建表格bdlab
使用表格
查询前十条数据