HA机制下的hadoop如何配置

这篇文章主要介绍HA机制下的hadoop如何配置，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

站在用户的角度思考问题，与客户深入沟通，找到雁山网站设计与雁山网站推广的解决方案，凭借多年的经验，让设计与互联网技术结合，创造个性化、用户体验好的作品，建站类型包括：网站设计制作、成都网站建设、企业官网、英文网站、手机端网站、网站推广、域名与空间、网页空间、企业邮箱。业务覆盖雁山地区。

一、hdfs的HA机制

NameNode服务器一台是ACTIVE和一台是STANDBY。通过Qjournal(日志管理系统) 使用zkfc（基于zookeeper失败切换控制)

HA机制下的hadoop如何配置

如何防止脑裂现象：当ACTIVE假死的时候，STANDBY的zkfc会发出指令 ssh kill-9 namenode 返回0（成功杀死，返回1则杀死失败）的时候再去通知第二台namenode去切换状态。若无返回码的时候（超时未响应),则启动proweroff.sh（用户自定义的脚本）给第一台namenode断电，返回0则执行正常，然后去切换。

当第一台机器断电的时候（指活跃状态的namenode和zkfc都断电了)，则第2台的zkfc会执行proweroff.sh。

关键词： 1、有两个namenode,分别是active和standby.

2、有两个zkfc来监控和管理两个namenode的状态

3、元数据日志edits由一个专门的日志系统负责管理--qjoournal

4、zkfc及qjournal的功能都要依赖于zookeeper的服务来实现

5、zkfc做状态切换时有两个防止脑裂的机制--ssh和shell脚本。

二、Hadoop集群的配置

打开hadoop的安装目录，如果还不会下载或者基础都不会使用的请看文章开头我提供的链接，请先学习基础配置。我这里主要使用了5台虚拟机来模拟搭建这整个集群环境。

主机名 IP地址主要功能

ubuntu1 192.168.44.128 namenode zkfc ResourceManager
ubuntu2 192.168.44.131 namenode zkfc ResourceManager
ubuntu3 192.168.44.132 DataNode、NodeManager、JournalNode、QuorumPeerMain
ubuntu4 192.168.44.133 DataNode、NodeManager、JournalNode、QuorumPeerMain
ubuntu5 192.168.44.134 DataNode、NodeManager、JournalNode、QuorumPeerMain

我们可以先来配置ubuntu1，然后剩下的就scp到其他机器上就可以了 core-site.xml



    
        fs.defaultFS
        hdfs://ns1/
    
    
        hadoop.tmp.dir
        /home/admin1/hadoop/HAhadoop/tmp/hadoop
    

    
    
        ha.zookeeper.quorum
        ubuntu3:2181,ubuntu4:2181,ubuntu5:2181

hdfs-site.xml

 1  2                  3                  4                     dfs.nameservices 5                     ns1 6                  7                  8                  9                     dfs.ha.namenodes.ns110                     nn1,nn211                 12                 13                 14                     dfs.namenode.rpc-address.ns1.nn115                     ubuntu1:900016                 17                 18                 19                     dfs.namenode.http-address.ns1.nn120                     ubuntu1:5007021                 22                 23                 24                     dfs.namenode.rpc-address.ns1.nn225                     ubuntu2:900026                 27                 28                 29                     dfs.namenode.http-address.ns1.nn230                     ubuntu2:5007031                 32                 33                 34                     dfs.namenode.shared.edits.dir35                     qjournal://ubuntu3:8485;ubuntu4:8485;ubuntu5:8485/ns136                 37                 38                 39                     dfs.journalnode.edits.dir40                     /home/admin1/hadoop/HAhadoop/journaldata41                 42                 43                 44                     dfs.ha.automatic-failover.enabled45                     true46                 47                 48                 49                     dfs.client.failover.proxy.provider.ns150                     org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider51                 52                 53                 54                     dfs.ha.fencing.methods55                     56  sshfence 57                         shell(/bin/true) 58                     59                 60                 61                 62                     dfs.ha.fencing.ssh.private-key-files63                     /home/admin1/.ssh/id_rsa64                 65                 66                 67                     dfs.ha.fencing.ssh.connect-timeout68                     3000069                 70

mapred-site.xml

1   2                 3                 4                     mapreduce.framework.name5                     yarn6                 7

yarn-site.xml

 1  2  3  4                      5                        yarn.resourcemanager.ha.enabled 6                        true 7                      8                      9                     10                        yarn.resourcemanager.cluster-id11                        yrc12                     13                     14                     15                        yarn.resourcemanager.ha.rm-ids16                        rm1,rm217                     18                     19                     20                        yarn.resourcemanager.hostname.rm121                        ubuntu122                     23                     24                        yarn.resourcemanager.hostname.rm225                        ubuntu226                     27                     28                     29                        yarn.resourcemanager.zk-address30                        ubuntu3:2181,ubuntu4:2181,ubuntu5:218131                     32                     33                        yarn.nodemanager.aux-services34                        mapreduce_shuffle35                     36

slaves

1 ubuntu3 2 ubuntu4 3 ubuntu5

还有就是修改一下主机名。 sudo vi /etc/hostname ubuntu1 以及hosts的内容：

192.168.44.128 ubuntu1 192.168.44.131 ubuntu2 192.168.44.132 ubuntu3 192.168.44.133 ubuntu4 192.168.44.134  ubuntu5

注意：一定要把原来的那两天127.0.1.1 这一条给删除掉，一个hosts文件中，不能出现主机名相同和ip地址不同的情况，我开始就是因为这个因为，折腾了很久，datanode就是搭建不起来。

启动过程：

1、启动zookeeper集群分别在ubuntu3,4,5中输入开启服务： bin/zkServer.sh start 查看状态： bin/zkServer.sh status

2、启动journalnode 分别在ubuntu3,4,5中输入 sbin/hadoop-daemon.sh start journalnode 运行jps命令检验，多了JournalNode进程

3、格式化HDFS

　　在ubuntu1上执行命令:

bin/hdfs namenode -format
#格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件，这里我配置的是/HAhadoop/tmp，然后将/HAhadoop/tmp拷贝到ubuntu2的/HAhadoop/下。

scp -r tmp/ ubuntu2:/home/admin1/hadoop/HAhadoop/

4、格式化ZKFC(在ubuntu1上执行即可) bin/hdfs zkfc -formatZK

5、启动HDFS(在ubuntu1上执行) sbin/start-dfs.sh

6、启动YARN（在ubuntu1上执行） sbin/start-yarn.sh

如果是在ubuntu1中启动的话，那么默认的浏览窗口会是这样： ubuntu2是Active的，ubuntu1是一个Standby状态，

HA机制下的hadoop如何配置

这个时候如果你去ubuntu2里面把这个namenode进程杀死的话，ubuntu1会自动切换为Active，ubuntu2会变成无法连接。

HA机制下的hadoop如何配置

在剩下的3个datanode上面会这样：

HA机制下的hadoop如何配置

以上是“HA机制下的hadoop如何配置”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注创新互联行业资讯频道！

当前名称：HA机制下的hadoop如何配置
URL链接：http://6mz.cn/article/gpsjcp.html

网站建设知识

HA机制下的hadoop如何配置

一、hdfs的HA机制

二、Hadoop集群的配置

在ubuntu1上执行命令:

其他资讯