转载

Hadoop运维经验杂谈

Hadoop运维经验杂谈

系统架构:

Hadoop运维经验杂谈

Cloudera和它的产品们

Apache Hadoop与CDH版本关系

Hadoop运维经验杂谈

CDH为什么更好?

yum ,tar, rpm, cloudera manager 四种安装方法

CDH3u3重大改善

Hadoop运维经验杂谈

CDH3u4重大改善

Hadoop运维经验杂谈

Cloudera Manager

Hadoop运维经验杂谈

Hadoop运维经验杂谈

Hadoop运维经验杂谈

Cloudera Training

分为Administrator和Development两门课程

运维事故

1、伤不起的内存

现象1

系统上线第二天,Jobtracker不工作,web页面打不开

原因

一次提交Job数量太多,导致Jobtracker 内存溢出

解决

调大JT内存;限制Running Job数量

现象2

NN内存溢出,重启后发现50030页面显示fsimage损坏,调查发现SNN fsimage同样损坏了

原因

小文件太多导致NN/SNN内存溢出,导致fsimage文件损坏,但是重启后的NN可以正常服务。

原因

Cloudera google group去救,获得后门脚本

2、低效的MapReduce Job

现象

MapReduce Job执行时间过长

原因

MR中用到了Spring,小文件导致Map方法效率低下,GZ文件读写效率低

解决

MR去Spring化;开启JVM重用;使用LZO作为输入和map输出结果;加大reduce并行copy线程数

压缩与MapReduce性能

Hadoop运维经验杂谈

3、OMG,整个集群完蛋了

现象

早上来发现所有DataNode都dead了,重启后10分钟,DN陆续又都dead了;调查发现节点有8%左右丢包率

原因

交换机模块故障;DN不能Hold住大量小文件

解决

升级3u2到3u4;设置DN内存到2GB

遇到无法跨越的问题解决办法

监控与高级

Hadoop运维经验杂谈

Nagios告警:

Hadoop运维经验杂谈

业务监控:

Hadoop运维经验杂谈

Hadoop运维经验杂谈

Hadoop运维经验杂谈

Hadoop运维经验杂谈
原文  http://www.thebigdata.cn/Hadoop/29673.html
正文到此结束
Loading...