不少同学在面试大数据岗位时会被问到常见的面试的知识点,有时候同学们可以快速应对,有的同学则会紧张不知如何下手。泰迪智能科技整理相关大数据培训面试题分享给到大家。
一、如何杀死一个job
hadoop job –list./hadoop job -kill job_201212111628_11166
二、删除hdfs 上的/tmp/xxx目录
hadoop dfs -rm /user/cl/temp/a.txt hadoop dfs -rmr /user/cl/temp
三、加入一个新的存储节点和删除一个计算节点,需要刷新集群状态命令,怎么操作HDFS增加节点
方式1:静态添加datanode,停止namenode方式
1.停止namenode
2.修改slaves文件,并更新到各个节点
3.启动namenode
4.执行Hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)
方式2:动态添加datanode,不停namenode方式
1.修改slaves文件,添加需要增加的节点host或者ip,并将其更新到各个节点
2.在datanode中启动执行启动datanode命令。命令:sh hadoop-daemon.sh start datanode
3.可以通过web界面查看节点添加情况。或使用命令:sh hadoop dfsadmin -report
4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)
针对第4点,start-balancer.sh可以执行-threshold参数。
四、简述一下hdfs的数据压缩算法,工作中用的是那种算法,为什么?
1.在HDFS之上将数据压缩好后,再存储到HDFS
2.在HDFS内部支持数据压缩,这里又可以分为几种方法:
2.1 压缩工作在DataNode上完成,这里又分两种方法:
2.1.1 数据接收完后,再压缩
这个方法对HDFS的改动最小,但效果最低,只需要在block文件close后,调用压缩工具,将block文件压缩一下,然后再打开block文件时解压一下即可,几行代码就可以搞定
2.1.2 边接收数据边压缩,使用第三方提供的压缩库
效率和复杂度折中方法,Hook住系统的write和read操作,在数据写入磁盘之前,先压缩一下,但write和read对外的接口行为不变,比如:原始大小为100KB的数据,压缩后大小为10KB,当写入100KB后,仍对调用者返回100KB,而不是10KB
2.2 压缩工作交给DFSClient做,DataNode只接收和存储
文章来源: 泰迪云课堂
原文链接: https://edu.tipdm.org/
- 还没有人评论,欢迎说说您的想法!