不少同学在面试大数据岗位时会被问到常见的面试的知识点,有时候同学们可以快速应对,有的同学则会紧张不知如何下手。泰迪智能科技整理相关大数据培训面试题分享给到大家。

     一、如何杀死一个job

    hadoop job –list./hadoop job -kill job_201212111628_11166
     二、删除hdfs 上的/tmp/xxx目录

    hadoop dfs -rm /user/cl/temp/a.txt hadoop dfs -rmr /user/cl/temp
     三、加入一个新的存储节点和删除一个计算节点,需要刷新集群状态命令,怎么操作HDFS增加节点
    方式1:静态添加datanode,停止namenode方式
    1.停止namenode 
    2.修改slaves文件,并更新到各个节点
    3.启动namenode 
    4.执行Hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)

    方式2:动态添加datanode,不停namenode方式
    1.修改slaves文件,添加需要增加的节点host或者ip,并将其更新到各个节点 
    2.在datanode中启动执行启动datanode命令。命令:sh hadoop-daemon.sh start datanode
    3.可以通过web界面查看节点添加情况。或使用命令:sh hadoop dfsadmin -report
    4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要)
    针对第4点,start-balancer.sh可以执行-threshold参数。 

    四、简述一下hdfs的数据压缩算法,工作中用的是那种算法,为什么?
     1.在HDFS之上将数据压缩好后,再存储到HDFS
     2.在HDFS内部支持数据压缩,这里又可以分为几种方法:
     2.1 压缩工作在DataNode上完成,这里又分两种方法:
     2.1.1 数据接收完后,再压缩
    这个方法对HDFS的改动最小,但效果最低,只需要在block文件close后,调用压缩工具,将block文件压缩一下,然后再打开block文件时解压一下即可,几行代码就可以搞定
     2.1.2 边接收数据边压缩,使用第三方提供的压缩库
     效率和复杂度折中方法,Hook住系统的write和read操作,在数据写入磁盘之前,先压缩一下,但write和read对外的接口行为不变,比如:原始大小为100KB的数据,压缩后大小为10KB,当写入100KB后,仍对调用者返回100KB,而不是10KB
     2.2 压缩工作交给DFSClient做,DataNode只接收和存储