天天看点

Hadoop综合大作业

作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

Hadoop综合大作业
Hadoop综合大作业
Hadoop综合大作业

2.对CSV文件进行预处理生成无标题文本文件

Hadoop综合大作业
Hadoop综合大作业
Hadoop综合大作业

3.把hdfs中的文本文件最终导入到数据仓库Hive中

Hadoop综合大作业
Hadoop综合大作业

4.在Hive中查看并分析数据

Hadoop综合大作业

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。

 (1)查询前10条微博内容

Hadoop综合大作业

(2)查询带有“我”字的微博内容

Hadoop综合大作业
Hadoop综合大作业

(3)查询带有“我”字的微博动态前10条的id

Hadoop综合大作业

(4)查询第10和第25条微博内容

Hadoop综合大作业

(5)查询数据库微博内容总数

Hadoop综合大作业

(6)查询包含“我“字的微博内容总数

Hadoop综合大作业

(7)查询后十条内容

Hadoop综合大作业

(8)查询含“加油”的前十条内容

Hadoop综合大作业
Hadoop综合大作业