您当前的位置: 首页 >行业新闻 > 阿里云惊现故障,运维团队复盘:不该出现这样的失误!

阿里云惊现故障,运维团队复盘:不该出现这样的失误!

作者:香港idc机房      发布时间:2018/6/28 14:48:10

  28日凌晨,阿里云官方微博发布《6月27日阿里云公告声明》,对27日故障原因作出正式回应,称在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。

  

  关于复盘故障原因,阿里云作出如下解释:称系工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug.错误代码禁用了部分内部IP,导致部分产品访问链路不通。

  

  以下为公告原文截图:

  

阿里官方对云故障做出道歉


  事件经过如下:

  

  27日下午,有众多网友在微博反馈,称阿里云控制台访问出现故障,后台登录不上,包括图片服务也已经挂掉。阿里云官网的部分管控功能,及MQ、NAS、OSS等产品的部分功能也出现访问异常现象,部分用户反馈称手机端和PC端均无法访问。

  

阿里云异常通知


  故障从北京时间27日16:21左右开始,到16:50开始陆续恢复。

  

  “上云”常态化,事故痛点并不能为客户买单

  

  在企业上云的热潮之下,此类事件时有发生。

  

  近年来,云计算产业蓬勃发展,企业上云已成常态。而据美国市场研究机构Synergy Research Group的数据显示,2018年第一季度,阿里巴巴超越IBM成为全球第四大云基础设施及相关服务的提供商。

  

  客观讲,云计算平台并不能做到绝对安全,尤其是这些大企业,一旦发生故障,影响的更是大批客户。从国外亚马逊、谷歌、微软、Salesforce等厂商时不时曝出的一系列宕机、云服务中断事件来看,每次事故的后果都比较严重。除此之外,云运维也是一项复杂的系统工程,需要选择一套好的运维工具来助力云运维更加高效轻松。

  

  目前国内的公有云市场尚在启动阶段,随着更多云服务厂商的入局,云计算市场竞争将更加激烈,与此同时,企业上云步伐也在不断加快,对今天的云计算服务商提出了更高的要求。云服务厂商们需更多做好自身服务,从平台安全、稳定、服务和技术支持等方面为客户做好服务支持,赢得客户信赖。

  

  另外,国内外已诞生了“云保险”业务,早在2013年6月,美国保险公司Liberty Mutual就开始对外提供云计算保险服务。国内方面,2016年9月,云保险2.0版本已发布。今年年初,山东省经信委、财政厅、保监局联合印发了《关于支持首版次高端软件加快推进软件产业创新发展的指导意见》(以下简称《意见》),标志着国内首个云服务保险财政补贴试点工作已正式开启。

  

  在云安全风险方面,目前阿里云给出的政策是100倍故障赔偿。针对这一政策,不少网友在官微下面起哄。评论区里,AWS、亚马逊、中国电信、华为云、腾讯云等的广告也来了一波儿。

  

  值得一提的是,聚焦云计算领域的2018年可信云大会将于8月14日-15日在京召开,届时还将举办云安全及风险管理、保险业云计算等分论坛。

  

  虽说任何技术人员都不可能做到100%无故障发生,但事故痛点并不能成为造成客户损失的由头。尤其是作为大型的云计算厂商们,更是要严于律己,避免故障事件的发生。


Copyright by 葵芳有限公司 All Right Rescrvod 粤ICP备14096959号-2  经营许可证号 粤B1-20170056