1.Hadoop安装与配置
【准备工作】
(1)新建4台虚拟机,分别命名master / slave1 / slave2 / slave3。已完成master
master:1.5G~2G内存、20G硬盘、NAT、1~2核
slave:1G内存、20G硬盘、NAT、1核
(2)每台虚拟机设置固定IP地址。已完成master
(3)每台虚拟机安装必要软件。已完成master
【具体做法】
(1)新建master虚拟机,配置固定IP地址,关闭防火墙,安装必要软件;
(2)克隆master到salve系列从机;
(3)修改salve系列从机的IP地址,改为固定IP;
2.修改Hadoop相关配置文件
【在master虚拟机上安装Hadoop】
启动XShell,连接master虚拟机;
将Hadoop的安装包传输到CentOS的opt目录(工具栏启动文件传输命令,Windows部分找到Hadoop安装文件.gz,右击,传输即可);
进入master虚拟机,查看opt目录下文件(输入命令“cd /opt”、“ls”);
加压缩.gz文件(输入命令“tar -zxf hadoop-2.6.4.tar.gz -C /usr/local/”,-C后面为文件解压缩到的路径);
进入/usr/local,查看所有文件,找到解压的文件,进入hadoop-2.6.4文件夹,进入配置文件所在目录etc,进行文件配置(cd /usr/local/hadoop-2.6.4/etc/hadoop/);
【修改配置文件】
/usr/local/hadoop-2.6.4/etc/hadoop/
该目录下,通过输入命令“vi 文件名”打开文件,按“i”进入编辑模式;修改里面的配置内容;按“ESC”退出编辑模式,通过输入命令“:wq”保存并退出文件;
(1)core-site.xml
HDFS核心文件,主要用于配置HDFS的命令,位置为主机的8020端口
找到<configuration>标签,进入编辑模式,输入以下内容:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/log/hadoop/tmp</value>
</property>
</configuration>
注意:其中的master为主机名称,可以根据需要更改存在的主机名称;第二个property为设置Hadoop临时文件存放路径
(2)hadoop-env.sh
Hadoop运行环境配置文件,需要修改JAVA_HOME位置,修改成我们刚刚安装的JDK的位置
找到“export JAVA_HOME=”,修改值为“/usr/java/jdk1.7.0_80(双击XShell中的连接,复制一个相同的连接,在窗口中定位JDK安装位置,通过输入命令“pwd”复制该路径,黏贴到第一个XShell窗口中的配置文件中的位置)”
保存退出
(3)hdfs-site.xml
HDFS相关配置信息,在<configuration>标签内添加<property>标签中的<name>和<value>键值对儿内容
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///data/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///data/hadoop/hdfs/data</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
保存退出
注意:
第一个property,为NameNode存放路径
第二个property,为DataNode存放路径
第三个property,为secondarynamenode的地址为主机节点的50090窗口,要根据自己的master主机,进行更改
第四个property,为存放文件的备份数量
(4)mapred-env.sh
MapReduce运行环境配置文件,同样修改JAVA_HOME路径,方法同(2),保存退出
(5)mapred-site.xml
目录中只有“mapred-site.xml.template”,所以需要复制该文件并命名为“mapred-site.xml”(XShell命令窗口输入命令“cp mapred-site.xml.template mapred-site.xml”)
同样是在<configuration>标签内添加属性
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- jobhistory properties-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
保存退出
注意:
第一个property,为MapReduce运行框架
第二个property,为MapReduce任务日志地址,主节点10020端口
第三个property,为MapReduce任务日志服务地址,主节点19888端口,
第四个property,为存放文件的备份数量
所有节点端口要根据自己的master主机,进行更改
(6)slaves
设置子节点文件
删除“localhost”,进入编辑模式,填写
slave1
slave2
slave3
退出编辑模式,保存退出
(7)yarn-env.sh
YARN运行环境配置文件,同样是修改JAVA_HOME的路径,同(2),保存退出
(8)yarn-site.xml
与YARN框架相关的配置文件,
同样是在<configuration>标签内添加属性
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>${yarn.resourcemanager.hostname}:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:8030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:8088</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address</name>
<value>${yarn.resourcemanager.hostname}:8090</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.https.address</name>
<value>${yarn.resourcemanager.hostname}:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>${yarn.resourcemanager.hostname}:8033</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/data/hadoop/yarn/local</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/data/tmp/logs</value>
</property>
</configuration>
我没有抄完,呜~~~~~
保存退出
注意:
第一个property,为yarn运行主机节点名称
第二个property,为yarn运行主机节点地址,主节点8032端口,注意采用了引用的写法,值得提倡
第三个property,为yarn运行主机调度地址,主节点8030端口,
第四个property,为存放文件的备份数量
所有节点端口要根据自己的master主机,进行更改
【编辑系统文件】
XShell命令窗口,输入命令“vi /etc/profile”
在最下面输入“export JAVA_HOME=/usr/local/java/jdk1.7.0_80”把JAVA_HOME路径和“export HADOOP_HOME=/usr/local/hadoop-2.6.4/”Hadoop路径加入进去。
把两个路径加入系统环境变量PATH中,输入命令“export PATH=$PATH:$HADOOP/bin:$JAVA_HOME/bin”(使用冒号:分隔,使用$进行引用)保存退出,两个_HOME的值,是根据实际安装情况而定。
使修改生效,输入命令“source /etc/”