转载

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

IIDR Dashboard 概述

随着信息化社会的发展,企业在为客户提供服务的同时会产生大量的电子数据,这些数据如何存储,如何传输就成为了一个重要的问题。InfoSphere Data Replication 是 IBM 提供的一个用于数据复制的产品簇,从软件层面为企业提供数据备份方案。该产品包含 Q 复制、SQL 复制 CDC 复制三大复制技术框架。Q 复制是一种基于日志捕获和事务回放的复制方式,使用 WebSphere MQ 消息中间件保证数据传输的可靠性。企业想要保证数据的安全性和准确性,就必须保证复制过程的正常有序,所以 Q 复制的实时状态的监控显得尤为重要。IBM InfoSphere Data Replication Dashboard(IIDR Dashboard)产品由此而生,作为一款 web 监控工具,它能够实时展示 Q 复制程序的状态、复制的进度、性能等。经过实践证明,这一数据复制实时监控产品对 Q 复制用户或管理员来说,无疑是一个直观且方便地观察 Q 复制状态的应用。但是存在一个现实问题是,人力无法 7*24 小时打开浏览器,在计算机旁查看监控状态,所以需要一种方式,在即使没有人观察但是出现异常情况时,仍然能及时、主动地提醒管理人员,以达到快速响应异常并解决异常,避免或减少由于异常或异常处理不及时所带来的损失。为了满足客户随时随地监控 Q 复制的需要,IIDR Dashboard 增加了一个 Alert Manager 的功能模块,并支持后台运行。

IIDR Dashboard 简单介绍

Q 复制是一种高容量、低延时、低网络拥塞和异步的复制解决方案,使用 IBM WebSphere MQ 在数据库的源端和目标端进行事务传输。在 Q 复制中,源端存在叫做 Q Capture 的程序读取指定的源表的变化日志,然后把事务作为消息从队列中传输出去,目标端存在叫做 Q Apply 的程序负责读取这些事务并传输给目标表。如果需要监控 Q 复制的实时状态,则需要从复制过程的各个方面进行监控。IIDR Dashboard 为整个复制过程量身定制,提供了良好的监控视图和健康状况报告。通过 IIDR Dashboard, 用户可以获得以下信息并进行操作:

  1. Q 复制健康状况报告
    1. 显示 Q Capture 和 Q Apply 的状态
    2. 显示发送和接收队列状态
    3. 显示 Q 订阅状态
    4. 显示 Q 复制延迟统计数据
    5. 显示 Q 复制异常和消息
  2. Q 复制实时监测图
    1. Q Capture 日志延迟的实时曲线
    2. End-to-end 延迟的实时曲线
    3. Q Capture 的吞吐量的实时曲线
    4. Q Apply 吞吐量的实时曲线
  3. 管理 Q 复制程序,包含各种运行参数的显示和修改
  4. Q 复制队列管理,包含各种配置参数的显示和修改
  5. Q 订阅管理,包含各种配置信息的显示和 Q 预订的操作
  6. Q 复制历史信息查询
  7. Q 复制的问题分析
  8. 用户角色控制,不同的用户角色登录到 Dashboard 之后具有不同的功能视图。

IIDR Dashbaord 所支持的 Q 复制重要监控指标

目前 IIDR Dashboard 所支持的 Q 复制的监控指标,具体包括以下几个。

  1. Apply Latency。Apply latency 是指 Q Apply 从接收队列中读取事务到事务在目标端被提交的平均运行时间。如果时间超出了这个设置的平均时间,IIDR Dashboard 则会发出预警。
  2. Apply Memory。当 Q Apply 使用的内存超出设定的阈值,IIDR Dashboard 就会发出预警。
  3. Log Latency。Log latency 是指 Q Capture 读取日志的时间,计算方式是控制表 IBMQREP_CAPMON 中 MONITOR_TIME - max(CURRENT_LOG_TIME, LAST_EOL_TIME) 的值。一旦这个值超出了预设值,IIDR Dashboard 就发出预警。
  4. Capture Memory。指当 Q Capture 使用的内存超出指定值,IIDR Dashboard 就产生预警。
  5. End-to-end Latency。End-to-end latency 是指事务在源端被提交到目标端被提交之间的运行时间。一旦时间超出预设值,IIDR Dashboard 就发出预警。
  6. Exceptions。当 Q Apply 由于冲突不能插入、删除或修改行记录时,Q Apply 会往控制表 IBMQREP_EXCEPTIONS 插入一条记录,一旦存在这样的记录,IIDR Dashboard 就会发出预警。
  7. Messages。指一个 Q 复制程序在遇到某些情况时,会往表 IBMQREP_APPLYTRACE (Q Apply) 或 IBMQREP_CAPTRACE (Q Capture) 中写入一条警告或错误信息,一旦存在这样的记录,则 IIDR Dashboard 发出预警。
  8. Program Status。指 Q Capture 或 Q Apply 程序处于 inactive 状态时,IIDR Dashboard 就发出预警。
  9. Receive Queue Depth。指定队列在超出设定信息量或百分比时,IIDR Dashboard 就发出预警。
  10. Receive Queue Status。指当 receive queue 变成 inactive 状态时,IIDR Dashboard 就发出预警。
  11. Capture Subscription Status。当 Q Subscription 变成 inactive 状态或 Q Capture 程序收到一条停止 Q Subscription 的信号时,IIDR Dashboard 就会发出预警。
  12. Transaction Size。指根据 Q Capture 的参数 warntxsz 设定的值,一旦 Q Capture 遇到一个大小超出这个值的事务时,IIDR Dashboard 就发出预警。

IIDR Dashboard 中是通过新增的 Alert Manager 模块来实现该预警功能的,接下来的章节将具体实现它的功能和用法。

Alert Manager 功能模块的介绍

登录 IIDR Dashboard,创建并打开一个 Monitor Group 后,可以很容易地看到 Alert Manager tab,点击 Alert Manager 打开该模块,其中包含 Alert List、Configure Alerts、Notification Limits、Alerts Emailed 四个小功能模块。通过邮件配置,一旦复制过程中预警被触发,管理人员就会收到邮件,另外通过配置后台运行,即使管理员将浏览器关闭,该邮件下就分别介绍这四个模块的功能。

Alert List 查看历史预警

在 Alert List 模块中,管理员或监控人员可以查看已经发出的预警列表,同时可以根据不同需求,选择不同的 server、不同的预警条件和不同的时间范围查看已有预警列表。模块界面如图 1 所示。

图 1. Alert List 模块截图

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

以下对图 1 中列举的各种选项进行简单介绍。

  1. Select a configuration:在此处监控人员选择需要查看的 Q 复制的程序配置组,如果只有一个源端和一个目标端时,此处会默认选择。如果有多个源端或对应多个目标端,则此处默认为“All”,然后选择所需要查看的其中一个配置组。
  2. Select an alert condition:在此处,监控人员可以选择查看的预警条件,默认为 All,可选的项包含 Apply exceeded memory threshold(Apply 内存预警)、Capture exceeded memory threshold(Capture 内存预警)、 Apply latency exceeded threshold(Apply 延迟预警)、Log latency exceeded threshold(日志延迟预警)、Exceptions(异常预警)、End-to-end latency exceeded threshold(端到端延迟预警)、Trace messages(日志消息预警)、Queue depth exceeded threshold(队列深度预警)、Large transaction(大事务预警)。
  3. Select a time range:此处可以选择需要查看的时间段,有两种选择,一种是可以查看固定时间段,包括 Last minute of available data、 Last 10 minute of available data、 Last hour of available data、 Last 24 hours of available data。另一种是可以根据需要精确选择不同日期的不同时间的起始点和开始点。
  4. 列举出来的每条预警都包含了 6 个信息点,主要有 Alert Condition(预警条件)、 Alert Value(触发预警的真实值)、 Threshold Value/ Event(设置的预警阈值)、 Object(对象)、 Timestamp(时间戳)、Historical Data Report(历史报告)。

Configure Alerts 配置预警

在 Configure Alert 模块中可以配置各预警条件阀值、编辑接收预警的邮件地址等。界面如图 2 所示。

图 2. Configure Alert 模块截图

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

以下对图 2 中列举的各种选项进行简单介绍。

  1. SMTP 设置. 如果需要编辑或者修改 SMTP,则可以点击“Notification SMTP server” 所在行右侧的“Change”按钮,会弹出如图 3 所示界面。在“SMTP server”后填写正确的信息,以便可以正确发送邮件。

    图 3. Setting -Email

    使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全
  2. 后台运行设置. 此模块中有设置“Background Alert Monitoring” 功能,如果需要进行修改,则可以点击同行的“change”,可以看到如图 4 所示界面。在选定的配置组左边的方框中勾选,则 Disabled 可以变成 Enabled,点击 OK 生效,这样不用打开浏览器,预警也可以发送到管理员等人的邮箱中。

    图 4. Setting-Alert

    使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全
  3. 预警设置. 在发出预警邮件前,首先需要对预警条件或预警阀值进行设置。在图 2 中首先选定预警参数,然后相应的参数信息会列出在编辑区域,包含 Queues、Threshold value、Server、Email Alerts 和 Contacts。
    1. Queues。如果程序中有多个 Queue 的话,则默认会显示为 All Queues,设置的时候可以点击+展开所有的队列。
    2. Threshold value。设置 Threshold 时可以使用上下箭头增加或减少值,也可以直接输入,在值的后面可以设置单位,包含 milliseconds、seconds、minutes 三种。
    3. Email Alerts。是指是否需要发送预警邮件,如果需要,则需要勾选;如果没有勾选,则只会发送在 Dashboard 中生产 Alerts 信息而不会发送邮件。如果需要发送邮件,可以点击“Edit”编辑接收邮件地址。点击后会弹出 Setting 对话框,如图 5 所示。填写邮件地址后,点击 Add 按钮加入到接收邮件地址列表中,可以设置多个接收的邮件地址。

    图 5. Edit Contacts

    使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Notification Limits 功能

此模块的功能属于预警邮件个性化定制功能,一是能够个性化设置预警邮件发送的频率,二是个性化定制邮件发送的 blackout periods。界面如图 6 所示。

图 6. Notification Limits

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全
  1. 单位时间内的次数。默认情况下,系统设置邮件发送频率为每小时最多发送 6 次,包含所有的预警参数。管理员或监控人员可以设置发送次数及发送的时间间隔,同时可以选择频率对应所有预警参数还是每个参数。
  2. 限制邮件发送的时段。默认情况下是没有发送时段设置的。用户可以设置不发送邮件的时间段,以及是否重复该时间段。是否重复的时间段选项包括 Day、 Sunday、Monday、Tuesday、Wednesday、Thursday、Friday、Saturday、First Sunday of the month、Last Sunday of the Month。

Alerts Emailed 查看已发出的邮件预警

通过在前面几个模块的设置后,如果有预警邮件发出,则同时也会显示在 Alerts Emailed 模块的邮件列表下。这个列表可以查看自上次 Reset 之后或三天内的预警邮件。其中 Refresh 按钮可以更新列表,Reset 按钮可以删除列表。邮件列表中会显示的信息包含 Timestamp、Email Subject、Contacts、 Email Content。界面如图 7 所示。

图 7. Alerts Emailed 截图

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

不同预警的配置及邮件实例

用户通过上一章介绍的 Alert Manager 设置方法配置好预警的阈值和邮件地址后,一旦预警条件被触发,IIDR Dashboard 就会发出预警邮件。根据预警类别的不同,邮件的内容也是不同的。本章将展示不同预警的配置和邮件的实例。

Apply Latency 的配置及邮件实例

在 Alert Conditons 列表中选择 Apply Latency,能够在编辑区域看到 Queues 的相关信息,选择 Queues,然后勾选 Email Alerts,并且点击 Eidt 按钮输入接收预警邮件的邮箱地址,然后点击编辑区域左上角的 Save 按钮。如果需要个性化定制邮件发送的频率及 blackout periods,则可以先在 Notification Limits 模块进行编辑。设置和预警邮件实例如图 8 和图 9 所示。

图 8. Apply Latency 设置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 9 所示,邮件以“Replication alert: Q Apply latency exceeded threshold for receive queue <queue name>”作为标题,正文中将列出预设的 Latency 的阈值,以及触发预警的实际时间和实际值,同时,邮件末尾会列出邮件预警的设置。

图 9.Apply Latency 的预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Apply Memory 的配置及邮件实例

Apply Memory 的预警配置与 Apply Latency 配置的步骤类似,其配置及邮件实例如图 10 和图 11 所示。

图 10.Apply Memory 设置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 11 所示,邮件以“Replication alert: Memory latency exceeded threshold for the receive queue <queue name>”作为标题,正文中将列出预设的 Apply Memory 的阈值,以及触发预警的实际时间和实际值。

图 11.Apply Memory 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Log Latency 的配置及邮件实例

Log latency 的预警配置与 Apply Latency 配置的步骤类似,其配置及邮件实例如图 12 和图 13 所示。

图 12.Log Latency 设置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 13 所示,邮件以“Replication alert: Log latency exceeded threshold for the program <program name>”作为标题,正文中将列出预设的 Log Latency 的阈值,以及触发预警的实际时间和实际值。

图 13.Log Latency 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Capture Memory 的配置及邮件

Capture Memory 预警配置与 Apply Latency 配置的步骤类似,其配置和预警邮件实例如图 14 和图 15 所示。

图 14.Capture Memory 预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 15 所示,邮件以“Replication alert: Memory threshold exceeded for the Q Capture <program name>”作为标题,正文中将列出预设的 Q Capture Memory 的阈值,以及触发预警的实际时间和实际值,以及 Q Capture 所在的 Monitor Group。

图 15.Capture Memory 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

End-to-end Latency 的配置及邮件

End-to-end Latency 的预警配置与 Apply Latency 配置的步骤类似,其配置及预警邮件实例如图 16 和图 17 所示。

图 16.End-to-end Latency 预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 17 所示,邮件以“Replication alert: End-to-end latency exceeded threshold for receive queue <queuename>”作为标题,正文中将列出预设的 End-to-end latency 的阈值,以及触发预警的实际时间和实际值,以及 Monitor Group。

图 17.End-to-end 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Exceptions 的配置及邮件

Exceptions 的预警配置与 Apply Latency 配置的步骤类似,其配置及预警邮件实例如图 18 和图 19 所示。

图 18.Exceptions 的预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 19 所示,邮件以“Replication alert: Q Apply exceptions on receive queue <queuename>”作为标题,正文中将 Exception 所在的 Monitor Group。

图 19.Exceptions 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Messages 的配置及邮件

Messages 预警配置与 Apply Latency 配置的步骤类似,其配置和预警邮件实例如图 20 和图 21 所示。

图 20.Messages 的预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 21 所示,邮件以“Replication alert: Trace message <message id> on <program type> <program name>”作为标题,正文中将列出该 Trace message 的详细信息。

图 21.Messages 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Program Status 的配置及邮件

Program Status 包含 Capture server 和 Apply server 的状态。配置和邮件预警实例如图 22 和图 23 所示。

图 22.Program Status 预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 23 所示,邮件以“Replication alert: <program type> is inactive”作为标题,正文中将列出该 Program 的详细信息。

图 23.Program Status 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Receive Queue Depth 的配置及邮件

Receive Queue Depth 预警配置与 Apply Latency 配置的步骤类似,其配置和预警邮件实例如图 24 和图 25 所示。

图 24.Receive Queue Depth 预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 25 所示,邮件以“Replication alert: Queue depth exceeded threshold for receive queue <queue name>”作为标题,正文中将列出预设的 Queue depth 的阈值,以及触发预警的实际时间和实际值,以及 Monitor Group。

图 25.Receive Queue Depth 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Receive Queue Status 的配置及邮件

Receive Queue Status 预警配置与 Apply Latency 配置的步骤类似,其配置及预警邮件实例如图 26 和图 27 所示。

图 26.Receive Queue Status 预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 27 所示,邮件以“Replication alert: Queue depth exceeded threshold for receive queue <queue name>”作为标题,正文中将列出预设的 Queue depth 的阈值,以及触发预警的实际时间和实际值,以及 Monitor Group。

图 27.Receive Queue Status 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Capture Subscription Status 的配置及邮件

Capture Subscription Status 预警配置与 Apply Latency 配置的步骤类似,其配置和预警邮件实例如图 28 和图 29 所示。

图 28.Capture Subscription Status 预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 29 所示,邮件以“Replication alert: Q Subscription <qsub name> is inactive”作为标题,正文中将列出触发预警的时间以及 Q 预定所在的 Monitor Group。

图 29.Capture Subscription Status 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

Transaction Size 的配置及邮件

Transaction size 预警配置与 Apply Latency 配置的步骤类似,其配置和预警邮件实例如图 30 和图 31 所示。

图 30.Transaction size 预警配置

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

如图 31 所示,邮件以“Replication alert: Transaction size exceeded threshold for the Q Capture program <program name>”作为标题,正文中将列出 warntxsz 设置的值,触发预警的时间,Q Capture 以及所在的 Monitor Group。”作为标题,正文中将列出 warntxsz 设置的值,触发预警的时间,Q Capture 以及所在的 Monitor Group。

图 31.Transaction size 预警邮件实例

使用 IIDR Dashboard 邮件预警功能监控 Q 复制的安全

结束语

本文介绍的 Alert Manager 模块是一个非常直观且便捷的预警功能模块,不仅能及时通过 Alert lists 模块简单查看预警信息,还能通过 Alert Emailed 查看较为详细的预警信息。同时还能设置后台功能发送预警邮件到管理人员的邮箱,让管理人员非在线状态也能及时响应预警信息。同时各种个性化定制发送能让管理人员按照需要进行邮件发送定制,满足其不同的需要。通过具体实例的介绍,相信读者可以很快地掌握该功能模块的用法并且尽快受益,摆脱人力需要使用计算机并监控浏览器的限制,做到 7*24 小时的自动预警。

原文  http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1607-iidr-dashboard-email-qrep/index.html?ca=drs-
正文到此结束
Loading...