转载

Exadata存储服务器的紧急修复(rescue)经验分享

这篇文章主要从何时需要紧急修复、准备过程、实施阶段等几个方面来与大家分享Exadata 存储服务器Rescue方面的维护经验,有的地方提供了My Oracle Support网站的文章号。

了解storage server 和rescue方法

什么是Rescue呢?Rescue这个英文对应的中文含义是紧急修复,只在非常必要的情况下才需要进行,否则会造成无谓停机和软件版本的不一致。

首先,我们需要了解Exadata存储服务器(storage server)方面的知识,它主要提供智能的磁盘I/O给计算节点。关于磁盘的管理,可以通过阅读My Oracle Support文章Auto disk management feature in Exadata (Doc ID 1484274.1)来熟悉storage server上的自动磁盘管理特性。

以下关于何时需要紧急修复,准备阶段和实施阶段等方面进行分享。

何时需要Storage server(存储服务器)的rescue过程

当系统盘失效,操作系统有一个文件系统损坏了或者boot区域被破坏了的时候。一台节点机上的两个系统磁盘都同时失效了的话,就必须通过CELLBOOT USB flash盘上的Oracle Exadata Storage Server软件进行rescue了。

请仔细阅读产品文档中的 Maintaining Exadata Storage Servers of Oracle Exadata Racks章节:

Using the Oracle Exadata Storage Server Software Rescue Procedure

准备阶段

平时要查看CELLBOOT USB盘是否可用,如果丢失或者损坏了,通过如下过程来创建:

重新生成一个损毁的CELLBOOT USB闪存盘

如果CELLBOOT USB闪存盘丢失或者损毁,您可以使用如下过程来创建一个新的。

注意: 针对运行Oracle Exadata Storage Server Software release 12.1.2.1.0或更高版本的机器创建一个USB闪存盘,要求机器操作系统版本是Oracle Linux 6

To create a USB flash drive for a machine running Oracle Exadata Storage Server Software release 12.1.2.1.0 or later requires a machine running Oracle Linux 6.

以root用户身份登录到cell

接插上新的USB盘,它上面的容量得至少1GB,最大可以到8GB。

从系统上移除任何其它的USB闪存盘执行如下命令:

cd /opt/oracle.SupportTools

./make_cellboot_usb -verbose -force

一般来说,Cell上有大量的业务数据,需要注意保证相应磁盘组里有足够多的空闲空间,这样,ASM根据情况重新分布(该需要rescue的cell上面的)数据到磁盘组的剩余磁盘时,就不至于因为空余空间不足从而无法完成。

如果storage server上打过one-off patch,请记住打过的patch号,以便rescue之后可能需要重新打。

实施阶段

真正进行紧急修复时要注意什么呢?

用CELLBOOT USB进行rescue时,从GRUB里选择CELL_USB_BOOT_CELLBOOT_usb_in_rescue_mode引导条目。但如果CELL_USB_BOOT_CELLBOOT_usb_in_rescue_mode 这个选项条目显示不出来,请参照文章Unable to rescue the Exadata storage using CELLBOOT USB (Doc ID 1413637.1) 的步骤向下继续进行。

如果rescue过程完不成,这多半表明可能有硬件问题。这时如果您连接到iLOM 上执行:

show faulty

它会说明出了什么情况。如果机器确实有硬件问题,则必须先修正这个硬件故障,之后再进行后续工作。

如果启动Storage Cell后,根文件系统 "/" 被mount成 read only了,则恢复的过程需要用到USB相关的rescue模式,需要详细步骤请创建一个技术支持服务请求(SR),由Oracle技术支持工程师协助解决。

Rescue完成后的注意事项

如果机器是X3-2 Eighth Rack,则需要参考文章Exadata Database Machine Eighth Rack reconfiguration required after restore/rescue (Doc ID 1538561.1)里所说的补充步骤来恢复为正确的配置。

如果Flash cache的mode (Writethrough及Write-Back)被从默认值修改过,在rescue之后,要手动单独重启一次cell server (restart cellsrv)。

检查IORMPLAN, THRESHOLDs, Cell notification settings这些配置是否与原来的一致,不一致的话进行调整。

如果系统改变过host_access_control,需要检查是否一致。但一般来说这一项大多数用户都不涉及。

其它参考

有可能的话请尝试熟悉文章:    Exadata Platinum Customer Outage Classifications and Restoration Action Plans (Doc ID 1483344.1) 所提及的与系统停止运行有关的维护要点。

参考链接

OTN:Oracle Exadata

Oracle Exadata Machine 官方主页

Exadata 官方文档

后续的问题欢迎点击链接参与我们在中文社区的讨论

正文到此结束
Loading...