Hp.T
11人加入学习
大数据技术应用(高级)职业技术考试
价格 免费

HDFS的优点:

(1)高容错

(2)流式数据访问

(3)支持超大文件

(4)高数据吞吐量

(5)可构建在廉价的机器上

HDFS的组成:

(1)NameNode(NN)

(2)DataNode(DN):存储数据

(3)SecondaryNameNode(SNN)

Mapper任务执行过程

(1)是把输入目录下文件按照一定的标准逐个进行逻辑切片, 切成切片规划。 

(2)是对切片中的数据按照一定的规则解析成<key, value>。

(3)是调用Mapper类中的map方法。

(4)是按照一定的规模对第三阶段输出的键值对进行分区, 默认是只有一个区。分区的数量是Reducer任务的数量, 默认只是一个Reducer任务。

(5)是对每个分区中的键值对进行排序。 首先, 按照键值进行排序, 对于键相同的键值对, 按照值进行排序, 比如按个键值对<2, 2>, <1, 3>, <2, 1>,键和值分别是整数。 那么排序后的结果是<1, 3>, <2, 1>, <2, 2>。如果有第六阶段, 那么进行第六阶段, 如果没有,直接输出到文件中。

(6)是对数据进行局部聚合, 也就是combiner处理。 键相等的键值对会调用一次reduce方法。经过这一阶段, 数据量会减少, 本阶段默认是没有的。

Haddoop词频统计程序核心模块为Driver模块、Mapper模块、Reducer模块。

显示出HDFS文件系统中/user/root/目录情况的命令是 hdfs dfs -ls /user/root

将HDFS文件系统/user/root/目录下的live.txt文件下载到本地/opt目录的是 hdfs dfs -get /user/root/live.txt /opt

获取单词长度的中位数的模块是:wordmedian

YARN框架包含进程:Resource

 

 

 

[展开全文]

授课教师

管理员

课程特色

考试(6)
视频(1)

学员动态

陈亮_1 的试卷"大数据技术应用(Hadoop方..."已被批阅
陈亮_1 开始学习 学员须知