GitHub发布21日系统故障分析报告
2018-11-01 05:54:24来源:中国云计算网 阅读 ()
刚刚GitHub通过官方博客发布了21日“挂掉”的事件分析。GitHub指出此次事件发生的原因是在10月21日22:52 UTC进行日常维护——更换发生故障的100G光学设备时导致美国东海岸网络中心与美国东海岸数据中心之间的连接断开。
1
更具体地,GitHub分析,虽然两地的连接在43秒内恢复,但这次短暂的中断引发了一系列事件,这才导致了长达24小时11分钟的服务降级。
为了大规模提高性能,GitHub的应用程序将直接写入每个群集的相关主数据库,但在绝大多数情况下将读取请求委派给副本服务器的子集。GitHub使用Orchestrator来管理MySQL集群拓扑并处理自动故障转移,Orchestrator在此过程中考虑了许多变量,并在Raft共识机制之上达成共识。Orchestrator可以实现应用程序无法支持的拓扑,因此必须注意将Orchestrator的配置与应用程序级别的期望保持一致。
2
然而21日,在上述网络分区中,Orchestrator在主数据中心中一直保持活跃,根据Raft的共识机制,它开始了一个取消领导选举的过程。美国西海岸数据中心和美国东海岸公有云Orchestrator节点能够建立合规数量并开始对群集进行故障转移,以便将写入指向美国西海岸数据中心。Orchestrator继续组织美国西海岸数据库集群拓扑,当连接恢复时,应用层立即开始将写入流量引导到西海岸站点的新当选者。
美国东海岸数据中心的数据库服务器包含一段短暂的写入时间,但尚未复制到美国西海岸的设施。由于两个数据中心中的数据库集群都包含了其它数据中心中不存在的写入,因此无法安全地将主要数据库故障转移到美国东海岸数据中心。
3
GitHub工程师发现问题后进行了一系列抢救措施,“最终没有用户数据丢失,但是,几秒钟的数据库写入的手动协调仍在进行中。”
GitHub对所有受影响的用户表示歉意,并表示“我们已经吸取了教训,并且采取了一系列急救措施,我们希望更好地确保不再发生类似情况。”
同时GitHub也表示接下来将解决由此导致的数据不一致问题。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 浪潮云“1231”业务战略正式发布 “分布式云+”行动计划首次 2021-05-19
- 浪潮发布云ERP伙伴发展计划 共筑企业数字化转型大生态 2021-04-21
- 打造强大算力平台 浪潮发布新一代M6服务器 2021-04-09
- 2021MWC电信浪潮联合发布边缘一体化云柜 极致产品释放5G最大 2021-02-25
- AWS发布五大用于工业领域的机器学习服务 2020-12-10
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash