AWS 因 IDC 断电导致「不走运的客户」数据丢失

2019/9/5 13:27:40 来源:云头条 作者:夜一编辑 分类:行业动态

美国劳动节(9月第一个星期一)周末,亚马逊网络服务中心的一个数据中心发生断电,导致部分客户数据丢失。



消息源来自IT外媒The Register,据其获悉,电源停掉、备用发电机随后又出现故障时,一些虚拟服务器实例如同人间蒸发,一些云托管的卷被破坏,不得不尽可能靠备份来恢复。


据一位注册读者透露,周六上午,亚马逊的云业务开始在其us - east -1地区遭遇崩溃。


这位读者称,他们在AWS的云托管弹性块存储(EBS)中有超过1TB的数据,这些数据在故障期间销声匿迹:他们被告知“与您的EBS卷有关的底层硬件已出现故障,与该卷有关的数据恢复不了。”


该读者称,靠大约8小时之前创建的EBS快照手动恢复的数据。若没有这个备份,他们可能无法恢复任何丢失的信息:亚马逊的工程师能够使绝大多数宕机的系统起死回生,不过并非每个存储卷都在硬件崩溃后幸免于难。


AWS的工作人员告诉数据存储在宕机存储系统上的不走运的客户,尽管试图恢复丢失的数据,但是部分数据已被永久打乱:“少数卷托管在受停电不利影响的硬件上。然而,由于停电事件造成的损害,支撑这些卷的EBS服务器没有恢复过来。”


“在进一步尝试恢复这些卷之后,它们被查明无法恢复。”


与此同时,一名客户兼技术顾问Andy Hunt不仅在Twitter上吐槽他们的数据在停电时丢失殆尽,还声称AWS没有迅速向用户告知故障的根源:“AWS遇到了电源故障,它的备用发电机出了故障,结果EBS服务器因此崩溃,因此我们的所有数据一并遭殃。然后AWS花了四天的时间才查清楚这起事件,并告诉我们详情。”



“提醒:云只是位于Reston的一台计算机,电源供应很糟糕。”


“受损”


虽然AWS的状态页面上公布了一些停机时间的细节,但El Reg看到了一系列更详细的通知,这些通知向客户解释了这个错误。

就在 11:00 PDT之前,AWS指出,“在US-East-1地区的六个可用区域之一的十个数据中心中,有一个出现了公用电力故障。备用发电机立即启动,但由于我们仍在调查的原因,在 06:00 PDT左右开始迅速失灵。”


“这导致该可用性区域中7.5%的实例在 06:10 PDT之前失败,”报告继续说道。“在过去几个小时内,我们已经恢复了大多数实例,但在可用性区域内仍有1.5%的实例有待恢复。EBS也存在类似的影响,我们将继续恢复EBS中的卷。在该区域启动新实例将继续正常工作。”


大约几小时后,在太平洋标准时间13:30分,AWS澄清并扩展了它的说明如下:


在 04:33 PDT,位于US-East-1地区六个可用区域之一的十个数据中心之一出现了公用电力故障。我们的备用发电机立即启动,但在06:00 PDT左右开始失灵。这影响了可用性区域中7.5%的EC2实例和EBS卷。


在PDT为 07:45 时,受影响的数据中心已完全恢复供电。到 10:45 PDT时,除1%以外的所有实例都恢复了,到 12:30 PDT时,只有0.5%的实例仍然受损。自影响开始以来,我们一直在努力恢复剩余的实例和卷。少量剩余的实例和卷托管在硬件上,这些硬件受到断电的不利影响。我们将继续努力恢复所有受影响的实例和卷,并将通过个人健康仪表板与其余受影响的客户进行通信。为了立即恢复,我们建议尽可能替换任何剩余的受影响的实例和卷。


因此,根据Amazon的说法,实际上,在美国西海岸时间周六凌晨,AWS数据中心断电,一个半小时后,备份生成器发生故障,在可用性区域内,每10台EC2虚拟机和EBS卷中只有1台宕机。


几个小时后,99.5%的受影响系统已经恢复,而在那些仍然“受损”的系统中,有些是不可恢复的,这迫使订阅者取出备份——假设他们保留了备份。

相关资讯

共有访客发表了评论 网友评论

验证码: 看不清楚?