创建监控告警规则
监控规则定义了哪些监控资源在达到什么阈值或者什么状态时会产生何种类型的告警,同时定义了告警恢复时的处理方式及告警处理人。对应视角的管理员通过设置监控规则,可将不同的告警发送给对应的管理员处理,提高了系统运维效率并保证业务正常。
平台支持的监控告警规则分为四类,阈值检查、离线检查、异常检查和指标预测。
前提条件
已完成账户邮箱设置。详情请参见邮件账户设置。
(可选,通过监控图表创建监控规则时需要)已创建实时监控图表。
流程指导
阈值检查
设置了阈值检查监控告警后,当指标在设置的时间段内超过设定的阈值时产生告警。创建阈值检查类监控规则的步骤如下:
以系统管理员角色登录平台。
在左侧导航树中选择监控告警。
单击右上角的创建新监控告警规则。
如果已创建了实时监控图表,可在实时监控图表中单击创建监控告警。
选择阈值检查并单击下一项。
设置监控告警名称。
设置了监控告警名称后,单击添加监控告警描述按钮可添加描述信息。
设置指标数据。
设置阈值检查和监控范围。
阈值检查和监控范围与实时监控图表一致,请参见实时监控的说明。
在右侧设置历史时长后,可查看所选监控指标的历史状态,可设置为过去10分钟、过去1小时、过去4小时、过去1天、过去2天、过去7天、过去15天。
设置告警类型。
告警类型可设置为简易告警和多重告警:
简易告警
当监控指标达到设置条件后告警触发。
多重告警
根据指定的分组标准,当该分组中的监控指标达到设置条件后告警触发。
设置触发条件。
触发条件包括阈值、指标值与阈值的关系和持续时间。
指标值与阈值的关系可设置为大于、大于等于、小于、小于等于、等于或者不等于。
持续时间是指不间断监控所选指标的时长,可设置任意值,单位可以为分、时或者天。
单击下一项,设置告警通知组及告警通知频率。
在通知组框中可选择通知的用户。通知组可在对应视角的设置菜单里。不同的视角设置如下所示:
可设置告警级别,默认为重要,可设置为严重和一般。
是否接受恢复通知,开关打开后,告警恢复后,也会通知通知组。
设置通知频率后,每隔通知间隔时间都会通知告警处理人,可设置为4小时、5分钟、10分钟、15分钟、30分钟、1小时、2小时、12小时或24小时。
单击立即创建。
离线检查
设置了离线检查告警后,如果主机的离线持续时间超过设定的阈值后产生告警。设置离线检查告警的步骤如下。
在左侧导航树中选择监控告警。
单击右上角的创建新监控告警规则。
选择离线检查并单击下一项。
设置监控告警名称。
设置了监控告警名称后,单击添加监控告警描述按钮可添加描述信息。
设置阈值检查和监控范围。
监控范围可设置为全部范围或者指定范围,设置为指定范围时可根据集群名称、节点名称、节点IP。监控范围可设置多个。
在右侧设置历史时长后,可查看所选监控指标的历史状态,可设置为过去10分钟、过去1小时、过去4小时、过去1天、过去2天、过去7天、过去15天。
设置触发条件。
触发条件是指资源离线状态的持续时长,可设置任意值,单位可以为分、时或者天。
单击下一项,设置告警通知组及告警通知频率。
在通知组框中可选择通知的用户。
可设置告警级别,默认为重要,可设置为严重和一般。
是否接受恢复通知,开关打开后,告警恢复后,也会通知通知组。
设置通知频率后,每隔通知间隔时间都会通知告警处理人,可设置为4小时、5分钟、10分钟、15分钟、30分钟、1小时、2小时、12小时或24小时。
单击立即创建。
异常检查
设置了异常检查告警后,当组内某个成员与其他成员的监控指标偏差超过设定范围时告警后产生告警。设置异常检查告警的步骤如下。
在左侧导航树中选择监控告警。
单击右上角的创建新监控告警规则。
选择异常检查并单击下一项。
设置监控告警名称。
设置了监控告警名称后,单击添加监控告警描述按钮可添加描述信息。
设置阈值检查和监控范围。
阈值检查包括指标和监控群体。
监控范围可设置为全部范围或者指定范围,设置为指定范围时可根据集群名称、节点名称、节点IP。监控范围可设置多个。
在右侧设置历史时长后,可查看所选监控指标的历史状态,可设置为过去10分钟、过去1小时、过去4小时、过去1天、过去2天、过去7天、过去15天。
设置触发条件。
触发条件是指监控范围内某个资源与平均值的方差范围。
单击下一项,设置告警通知组及告警通知频率。
在通知组框中可选择通知的用户。
可设置告警级别,默认为重要,可设置为严重和一般。
是否接受恢复通知,开关打开后,告警恢复后,也会通知通知组。
设置通知频率后,每隔通知间隔时间都会通知告警处理人,可设置为4小时、5分钟、10分钟、15分钟、30分钟、1小时、2小时、12小时或24小时。
单击立即创建。
指标预测
设置了指标预测告警后,当指标在未来某个时间段的趋势可能达到设定的阈值时产生告警。设置指标预测告警的步骤如下。
在左侧导航树中选择监控告警。
单击右上角的创建新监控告警规则。
选择指标预测并单击下一项。
设置监控告警名称。
设置了监控告警名称后,单击添加监控告警描述按钮可添加描述信息。
设置阈值检查和监控范围。
阈值检查包括指标、检测时长和预测时长。
监控范围可设置为全部范围或者指定范围,设置为指定范围时可根据集群名称、节点名称、节点IP。监控范围可设置多个。
在右侧设置历史时长后,可查看所选监控指标的历史状态,可设置为过去10分钟、过去1小时、过去4小时、过去1天、过去2天、过去7天、过去15天。
设置触发条件。
触发条件是指资源预测指标,可设置为大于或者小于某值。
单击下一项,设置告警通知组及告警通知频率。
在“通知组”框中可选择通知的用户。
可设置告警级别,默认为重要,可设置为严重和一般。
是否接受恢复通知,开关打开后,告警恢复后,也会通知通知组。
设置通知频率后,每隔通知间隔时间都会通知告警处理人,可设置为4小时、5分钟、10分钟、15分钟、30分钟、1小时、2小时、12小时或24小时。
单击立即创建。
监控规则创建成功后,返回监控告警页面,监控告警页面显示新创建的监控规则及基本信息,并且系统会根据创建的告警规则产生相应的告警。