大数据应用期末总评

本次作业来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

一、课程评分标准：

分数组成：

考勤 10

平时作业 30

爬虫大作业 25

Hadoop生态安装与配置 10

分布式文件系统HDFS

分布式并行计算MapReduce

Hadoop综合大作业 25

评分标准：

难易程度

数据量

文章质量：描述、分析与总结

二、17周演示检查：《爬虫大作业》和《Hadoop综合大作业

三、Hadoop综合大作业要求：

由于爬虫大作业我没有生成CSV文件，所以在Hadoop大作业中做2012年-2017年期间的四六级考试试卷中出现单词的统计。

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

配置.sh文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

4.在Hive中查看并分析数据

创建hive数据库：

5.用Hive对爬虫大作业产生的进行数据分析，写一篇博客描述你的分析过程和分析结果。（10条以上的查询分析）

1）查看全部单词个数：

2）查询出现最多的单词及其中文意思

3）查询单词次数出现频率超过400次的单词以及中文意思：

4）查询单词出现次数最少的10个单词及中文意思

5）单词出现次数为3的个数：

6）查询单词次数出现前10个：

7）查询所有单词中含名词n.的个数：

8）查询所有单词中动词vi的个数：

9）查询所有单词中形容词adj的个数：

10）查询所有单词中副词adv.的个数：

分析：根据对数据库的操作可以看出近几年四六级试卷中单词出现的频率统计，以及出现单词的个数；从分析得到出现最多的单词是more，最少出现的单词至少为3次。

名词的出现次数为：2180个。

四、材料提交方式及日期