转载

发表于 2015年02月03日
浏览 (801)
评论 (0)

Hadoop急诊室的半小时

Hadoop急诊室的半小时

十万火急

上周二，朋友公司的Hadoop集群服务不可用，从早上9点开始一直持续到12点。业务方催得比较急，希望尽快恢复，至少给个可以恢复的时间点。这种心情做过线上服务运维的同学应该都能理解。特别是在没有任何思路的情况下,就只能干着急!

症状了解

朋友联系我，咨询了下具体症状为namenode启动过程中，一直打印如下log：

Hadoop急诊室的半小时

这个情况以前也没遇到过，询问了下当前使用的版本是2.4.0，看log 是info 级别，判断数据应该没什么问题。

查阅资料

这种问题一般直接google hadoop jira

Hadoop急诊室的半小时

打开第一个链接，搜索关键字： does not belong to any file

Hadoop急诊室的半小时

大致浏览发现与https://issues.apache.org/jira/browse/HDFS-7503 描述现象类似

Hadoop急诊室的半小时

大体上讲如果在删除大量文件之后立即重启集群，会因大量打印游离块信息，namenode很长一段时间都会在安全模式之下，导致namenode长时间不可用。这个问题将在2.6.1和1.3.0的版本中被修复。

信息确认

跟朋友确认了一下，确实在前一天有大批量删除文件的操作，删除的文件数高达700多W之多。大概能确定情况和这个jira 提到的一致。粗略估计了若每秒打印100条info log，那么700多W大概需要1天的时间才能打印完成。最直接的解决方法就是降低日志级别。

操作：动态设置调整日志级别

不重启降低namenode的log级别，打开http://{your_namenode_ip}:50070/logLevel

Hadoop急诊室的半小时

查看源码，找到打印这个log的类的全路径，输入

org.apache.hadoop.hdfs.server.blockmanagement.BlockManager查看log级别为INFO，将其设置成“WARN”，查看namenode的最新log，没有变化，等待一会，依然持续打印，问题没有解决。

判断应该是log类别没有调对，继续查看打印这段log的源码：

Hadoop急诊室的半小时

具体打印log的是blockLog

Hadoop急诊室的半小时

实际上对应的log类别应该是：BlockStateChange ! 其实从打印出来日志就可以看出来的。

在Log中输入"BlockStateChange"，Level输入”WARN“，然后点击"Set log level"按钮。

查看namenode log ，log马上停止，不过还打印其他信息，确认生效，等待2-3分钟，log恢复正常。

测试能正常上传下载数据，确认各项指标都正常，集群恢复可用。整个修复过程耗时半个小时。

线上遇到这样的问题，千万要冷静，越是着急越容易出乱子!

正文到此结束

所属分类：编程技术

本文标签： https Google ip 数据 node UI Hadoop 安全源码 Namenode 启动过程 HDFS 测试集群解决方法 apache 时间
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,964) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,243) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(12,045) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,946) 评论(0)
Decorators in ES7

浏览(16,561) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,536) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,980) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,895) 评论(0)
【开班了】JAVA培训班正式招生

浏览(8,042) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,195) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG