阿里巴巴IDC研发事业部副总经理闫昆:从四到零-IDC稳定运营之道

2017/8/22 18:17:06 来源:DTDATA 作者: 分类:会议活动

8月22日2017开放数据中心峰会的数据中心分论坛上,阿里巴巴IDC研发事业部副总经理闫昆为大家分享了《从四到零-IDC稳定运营之道》。闫昆表示,他的主要工作是保障数据中心安全稳定,提升效率,而到目前为止已经实现连续648天无影响可用性故障。


大家在使用支付宝和微信时应该遇到过中断问题,不由得戏称:再强健的系统,也比不上蓝翔技校的挖掘机!不得不说,造成数据中心业务中断的有很多方面的因素,如断电是我们经常遇到的问题(阿里云香港的节点遇到的故障便造成了相当大的影响)。其次,数据中心还会遇到高温问题(达到35度服务器就会宕机,将造成重大影响)。还有因为控制软件,雷击、漏水、火灾、设备质量等。


阿里巴巴IDC研发事业部副总经理闫昆


数据中心是由七大子系统组成,包括防雷接地系统、供配电系统、空调系统、消防系统、综合布线系统、安全防范系统、供电系统。可以说,数据中心有着很多的故障可能,这些其实是跟数据中心整体构架有关的。


如何稳定运营?


闫昆表示,稳定性依托于七大子系统,要实现每个子系统的稳定运行,一定要全链路监控,包括服务器侧的供电状态,设备功耗,设备入风温度,CPU温度等,设备侧包括UPS变压器等,监控内容包括功耗、告警情况等。


从长远来讲,我们是希望通过智能运营的方式,首先我们会对所有设备进行全面监控,同时可以通过和设施联动,进行设施调节;通过智能算法,减小能耗,降低运营成本,最后是和业务联动,实现系统识别风险后动态调节迁移业务;检查维修保养这也是我们必须要做的。


其次,要有比较全面的应急预案实现风险管理。被动的应急预案是否就够了呢?每次应急预案又是针对什么场景制定的?那么哪些应急预案需要不断演习优化呢?这三个方面是一定要思考,思考怎么更好地做好风险管理。另外数据证明,数据中心70%的故障都是人为造成的,良好的人为保养会提升单个设备乃至整个系统的可用性。


如果我们要保证百分之百的可用应具备哪些条件?


闫昆表示,根据运营风险库可以对风险进行排查,实现排查以后我们要从预防开始。一类风险是影响可用性,二类风险是影响系统冗余性,三类风险是存在影响单设备性能的风险。IDC的规模,在过去几年一直实现着翻倍的增长,而阿里在2015年便建立风险库,筛查300+项风险,解决率96%,未关闭重要风险,共累计进行60+次演练,已识别机房级故障11次,成功规避了11次业务故障,影响业务故障从4个下降为0,持续648天无影响可用性故障。


相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?