全覆盖及全链路监视系统

概述

BroadLink的服务监视平台由四部分系统构成: 外围探针服务, 监视数据采集和存储系统, 监视分析系统, 通知系统.

BroadLink服务监视平台本身不支持可视化UI,但可以和prometheus+grafana开源组合无缝对接, 同时平台支持独立部署, 可以针对欧洲GDPR的法规要求, 在指定地区独立部署.

服务器基础设施报警

监视项目 监视内容 报警方式 监视系统
CPU 综合利用率超过固定阈值(默认: 85%) 邮件和微信 自研
CPU 趋势报警(指定窗口快速增加) 邮件和微信 自研
磁盘 使用率超过固定阈值(默认: 85%) 邮件和微信 自研
磁盘 趋势报警(指定窗口快速增加) 邮件和微信 自研
内存 使用率超过固定阈值(默认: 85%) 邮件和微信 自研
内存 趋势报警(指定窗口快速增加) 邮件和微信 自研
网络流量 使用率超过固定阈值(默认: 85%) 邮件和微信 自研
网络流量 趋势报警(指定窗口快速增加) 邮件和微信 自研
数据库 使用率超过固定阈值(默认: 85%) 邮件和微信 自研
数据库 趋势报警(指定窗口快速增加) 邮件和微信 自研

业务服务指标监视

监视项目 监视内容 报警方式 监视系统
所有接口QPS(每秒请求量) 均值, 最大值, 最小值, 最大值超过阈值报警 邮件和微信 自研
所有接口RT(响应时间) 均值, 最大值, 最小值, 最大值超过阈值报警 邮件和微信 自研
业务接口访问 窗口期内无访问, 访问量快速增加, 访问量超过阈值 邮件和微信 自研
业务内部指标 出现故障和错误 邮件和微信 自研

可用性监视

监视项目 监视内容 报警方式 监视系统
APP 所有接口可用性探测, 不可用报警 邮件和微信 自研, 多地区探针
音箱对接 所有接口可用性探测, 不可用报警 邮件和微信 自研,多地区探针
设备 所有设备接口可用性探测, 不可用报警 邮件和微信 自研,多地区探针
远程控制 不可用报警 邮件和微信 自研,多地区探针

服务质量监视

监视项目 监视内容 报警方式 监视系统
APP 所有接口延时超过阈值和不可用报警 邮件和微信 自研
音箱对接 所有接口延时超过阈值和不可用报警 邮件和微信 自研
设备 所有接口延时超过阈值和不可用报警 邮件和微信 自研
远程控制 所有接口延时超过阈值和不可用报警 邮件和微信 自研

全链路监视

监视项目 监视内容 报警方式 监视系统
APP APP所有服务链路监视 无报警, 数据采集和可视化,快速定位问题 自研
音箱对接 所有云云对接链路监视 无报警, 数据采集和可视化,快速定位问题 自研
设备 数据上报链路监视 无报警, 数据采集和可视化,快速定位问题 自研

系统运营和安全监视

监视项目 监视内容 报警方式 监视系统
服务器登录密码/证书 变更 邮件和微信 自研
服务器端口 非指定端口暴露 邮件和微信 自研
网关和业务配置 变更 邮件和微信 自研