首页 » 博客 » 我们仍然注意到监控工具的超时率非常高

我们仍然注意到监控工具的超时率非常高

 

通过这一改变,我们显著减少了采用 JSON 文件进行数据库请求时的延迟。

现在我们遇到了另一个问题(不像数据库那么严重)——每个 JSON 文件的大小约为 500kb。每次请求都会读取它们,每秒生成大约 3k 个`read()`系统调用。500kb / 8kb ~= 62 read() 才能完全读取该语言的文件。对于那些感兴趣的人,我使用Sysdig命令获得了这些数字:

我们快速检查了 Grafana、Prometheus 和 Graylog,以仔细检查发生了什么,并与StatusCake和Pingdom统计数据进行交叉引用。

问题是我们的机架顶部开关出现故障,每天重启几次。您可以在下图中查看差距。

对比前后的CPU使用率图表

当这种情况发生时

ExaZK开始指向一个实时 MySQL 实例,并以 HA 方式运行。最终,我们用新的网络交换机替换了故障的网络交换机,并开始实现 100% 的正常运行时间。

目前我们的网站正在运行,如下面的屏幕截图所示。

正常运行时间检查屏幕截图显示正常运行时间接近 100%

路线图中的改进
我们计划直接在浏览器中强制缓存转换 JSON 文件,以将负载转移 泰国的电话号码 到客户端。我们还将实施 GeoDNS 来选择距离客户端源 IP 地址最近的位置。这已在我们的开发环境中进行了测试,但我们正在等待 PowerDNS 4.2 的稳定版本。

将来,我们希望将区域Anycast与GeoDNS一起实施,以便在发生故障时将故障转移到实时数据中心。一个全局 Anycast 加上区域分配前缀。两者都是重叠前缀,如果一个区域完全瘫痪,则可以实现平稳的故障转移。例如,如果您的 GeoDNS 服务器响应 CDN 解析器的 IP 为2A02:4780:C3::1 的CNAME 记录,而此时该区域瘫痪,则由于全局 Anycast 重叠网络,新连接将被重定向到最短的 AS-PATH PoP。品牌大会简介

世界雇主品牌大会简介

5 月 15 日至 17 日,我们参加了在里斯本举行的世界雇 中还包含需要测试的其他更改 品牌日研讨会和会议。这是最重要的以雇主品牌为重点的交流活动之一,超过 720 名专家齐聚一堂,分享他们的经验。

今年大会邀请了来自“Facebook”、“Netflix”、“亚马逊”、“Mars”、“LinkedIn”、“埃森哲”等公司的顶级演讲嘉宾,参会者来自45个国家。

我们希望趁着经验尚新鲜的时候,分享我我们仍 沙特阿拉伯电话号码 然注意到监 们从这次会议中获得的最深刻见解。

滚动至顶部