大数据技术应用（高级）职业技术考试 - 泰迪云课堂 - 大数据培训_大数据就业培训班

HDFS的优点：

（1）高容错

（2）流式数据访问

（3）支持超大文件

（4）高数据吞吐量

（5）可构建在廉价的机器上

HDFS的组成：

（1）NameNode(NN)

（2）DataNode(DN)：存储数据

(3)SecondaryNameNode(SNN)

Mapper任务执行过程

（1）是把输入目录下文件按照一定的标准逐个进行逻辑切片，切成切片规划。

（2）是对切片中的数据按照一定的规则解析成<key, value>。

（3）是调用Mapper类中的map方法。

（4）是按照一定的规模对第三阶段输出的键值对进行分区，默认是只有一个区。分区的数量是Reducer任务的数量，默认只是一个Reducer任务。

（5）是对每个分区中的键值对进行排序。首先，按照键值进行排序，对于键相同的键值对，按照值进行排序，比如按个键值对<2, 2>, <1, 3>, <2, 1>，键和值分别是整数。那么排序后的结果是<1, 3>, <2, 1>, <2, 2>。如果有第六阶段，那么进行第六阶段，如果没有，直接输出到文件中。

（6）是对数据进行局部聚合，也就是combiner处理。键相等的键值对会调用一次reduce方法。经过这一阶段，数据量会减少， 本阶段默认是没有的。

Haddoop词频统计程序核心模块为Driver模块、Mapper模块、Reducer模块。

显示出HDFS文件系统中/user/root/目录情况的命令是 hdfs dfs -ls /user/root

将HDFS文件系统/user/root/目录下的live.txt文件下载到本地/opt目录的是 hdfs dfs -get /user/root/live.txt /opt

获取单词长度的中位数的模块是：wordmedian

YARN框架包含进程：Resource