vlambda博客
学习文章列表

github宕机了,可能的原因曝光!

近日软件开发平台GitHub出现了严重宕机,众多开发人员为之抓狂。
GitHub 全球崩溃:数百万开发人员下班;国产Github呼声强烈

GitHub故障是从04:06 UTC(03:06 BST)开始的,在09:31 BST已得到了解决。

GitHub 全球崩溃:数百万开发人员下班;国产Github呼声强烈

这次事件让人们对单单在2020年4月发生三起单独故障后GitHub的可靠性提出了新的疑问。

GitHub将4月的那三次故障分别归咎于:

  • 软件负载均衡系统的错误配置破坏了在服务于GitHub.com的应用程序与其依赖的内部服务之间的流量内部路由;

  • 数据库连接配置错误,与当时进行中的数据分区工作有关,“导致意外地进入到生产环境”;

  • 网络配置“无意中应用于我们的生产网络”。

GitHub在4月曾承认,其模拟实验室环境存在问题。

该公司称:“该模拟环境构建数据库和数据库连接的方式与生产环境不一样。这可能导致生产环境所特有的连接变更的可测试性受限制。我们会在未来几个月内解决这个问题。”

GitHub的大部分平台都在其自己的裸机基础架构上运行,网络基础架构则“围绕Clos网络拓扑结构而建,每个网络设备都通过边界网关协议(BGP)共享路由。”

GitHub在2018年被微软以75亿美元的价格收购,被5000多万开发人员所使用。考虑到它支持的工作负载以及外界广泛依赖它以确保高可用性,像这样的大规模故障可能会带来严重影响。

与其他许多大型基础架构提供商一样,GitHub的所有者微软也面临这个挑战:新冠疫情后远程工作人员数量激增,从而导致工作负载激增,因此需要迅速扩大数据中心基础架构的规模。微软在4月份承认,疫情过后,它面临供应链方面的一些问题。

网友shijin1爆料,网传微软回应了某个客户的咨询,解释了Github崩溃的原因。在这封邮件中,微软客服表示经过他们的排查,发现由于疫情的影响,微软Github各地的服务器均有被盗走的现象。

目前微软正在全力追回被盗的服务器,希望能够找回被盗的服务器和数据。

邮件真实性还不能100%确认,微软也没有提到具体是哪里的服务器被盗了,不过感觉上偷走服务器这事不太可能,数据中心服务器通常都有多重备份,专业点就是异地容灾设计,即便被盗走了服务器,数据什么的应该是不会受影响的。