【故障公告】多年的故障老朋友又来了:数据库服务器 CPU 100%

博客园官方博客 / 2023-08-19 / 原文

数据库服务器 CPU 100% 问题几乎每年都要来几次,从来都不事先打一声招呼,今年的第2次在我们正忙着会员救园的时候来了。

今天 13:35 首先收到我们自己的异常告警通知:

Execution Timeout Expired. The timeout period elapsed prior to completion of the operation or the server is not responding.

这时从博客后台看,操作的响应速度比较慢,但可以完成操作。

紧接着 13:36 收到阿里云的钉钉报警通知:

我们知道它又来了,这次我们毫不犹豫,立马登录阿里云 RDS 控制台重启实例,重启时间是 13:37:58

重启后 13:39 CPU 恢复正常。

这时才收到阿里云的短信报警通知:

上次发生时间是 2023-03-26 ,详见 【故障公告】数据库服务器 CPU 近 100% 造成全站故障,雪上加霜难上加难的三月

这次幸好发生在周末下午,而且将故障时间控制在10分钟以内,是那么多年那么多次数据库 CPU 100% 问题中影响最小的一次。

如果您今天访问园子时恰好被这次故障影响,请您谅解。