您当前的位置: 首页 >云资讯 > 业内资深人士:新浪微博机房宕机人为原因可能性最大

业内资深人士:新浪微博机房宕机人为原因可能性最大

作者:香港IDC机房      发布时间:2017/6/19 9:35:32

  6月17日下午16点30分左右,新浪微博几乎全平台瘫痪,故障持续约一小时,微博CIO王巍在事后回应称,这次故障的原因是“外部机房整层掉电”。作为业内人士,很难想象,支撑着上亿用户的新浪微博数据中心会出现因电力保障问题而宕机的事故。

  

  对此,中国IDC圈第一时间联系到拥有20多年数据中心建设运维抢修经验的资深专家张洋,请他分析一下此次新浪微博机房断电宕机的可能原因。

  

  人为原因方面——

  

  互锁机制流程是否顺畅?值班状态有待确认

  

  “武装到牙齿的现代化部队,也可能存在管理漏洞,在某种情形下,被‘敌人’轻易攻陷。自动化程度很高的数据中心,在运营维护上的一点小瑕疵,就可能导致整个数据中心宕机。新浪微博机房掉电宕机,有可能是设计上存在问题,但更大的可能,则是运行维护时人为因素造成。”在电话里,张洋开门见山,认为人为原因可能性最大。

  

  张洋向中国IDC圈记者分析说,即使数据中心有双路市电的保障,但如果一路市电失电,配电系统互锁机制方面出现问题,那么所谓双路市电只是形同虚设。正常情况下,一路市电断电,UPS将自动启用,随后另一路市电及时切入。所谓互锁机制,就是为了防止人为误操作造成两路市电之间发生短路的保障机制。

  

  新浪微博机房这种等级的机房,一般只有两路市电都中断,才会启用发电机。如果一路市电断电时,值班人员或电力运维工程师技术能力有限,或由于其他原因应对不足,则可能直至UPS电力耗尽,仍未能切入另一路市电,最终造成数据中心电力中断。

  

  张洋说,通常情况下,市电中断后,UPS自动启用,一般可以维持数据中心继续运行10分钟以上,在这期间,系统会发出报警警示,如果技术人员没有及时注意到系统报警,就可能造成另一路市电未能及时切入,或发电机未能及时启动,造成掉电宕机。是否存在这样的情况,还有该数据中心下一步披露的调查结论。

  

  机房设计方面——

  

  办公区是否为普通市电?双路市电真伪待查

  

  张洋认为,还有一种可能,就是设计上的瑕疵。如果机房运行维护办公区也使用普通市电供电。市电断电时,电脑、办公系统全部失灵,工作人员之间无法交流、操控,数据中心就会全面瘫痪,报警信息无法及时处理,值班抢修人员无法及时到岗开展应急工作,最终导致数据中心掉电宕机。

  

  在设计上,大型数据中心对每年断电时间、频率有着非常严格的要求,比一般的工业用电要求供电等级更高,而且还需要双路以上(最高等级要求四路)来源于不同区域、不同变电站的市电接入,更高一级要求上两级电力接入不允许是同一路变电站或者供电回路。

  

  “如果不是数据中心场地高压开关房及周边事故,一般不会出现两路市电同时停电的情况。但如果两路市电同属一个上级电站,那么,当该变电站出现问题时,所谓的‘双路市电’会同时中断,这也就是业内所说的‘伪双路市电’。”张洋向中国IDC圈强调。

  

  回应网友猜测——

  

  发电机故障可能性很低高温天气无需背锅

  

  针对一些网友提出的“发电机故障或机房方面为降低成本而延迟发动机启用”的猜测,张洋认为可能性不大。

  

  张洋告诉中国IDC圈,对于新浪微博机房这种高等级机房来说,往往都是多台发电机并机运行,发电机采用N+1配置,即使一台发电机故障,也可以完全满足系统正常运行。一般情况下,发动机启动运行1分钟内,就能正常供电,保障数据中心的运行。启动发动机的成本并不高,只需要燃油方面的花费。即使电力供应正常,数据中心每个月都要启动发电机至少一次,每次加载运行不低于十五分钟,使发电机内部润滑等部件保持状态良好,可以随时投入应急使用。

  

  还有网友猜测,近期北京气温上升过高,达到历史同期最高水平,炎热天气会增加数据中心负荷,导致宕机概率上升。张洋认为,该种猜测也不正确。

  

  张洋说,天气炎热,室外温度上升,在IT负载方面不会有任何变化,变化的就是空调部分的制冷效率。温度上升,导致室外冷凝器的热交换温差降低,进而降低冷凝器热转化效率,使数据中心PUE值上涨。

  

  一般的数据中心PUE会在1.5至2.0之间,这主要就是冬季夏季因气温引起的制冷供电功率的变化,数据中心用电设计都会保留最大用电负荷的冗余设计,所以温度高了,只会影响到用电成本的增加,不会因此宕机。

  

  发电机启动一分钟后,就能发电供数据中心机房使用,为什么这次此次新浪微博宕机时间却长达一个多小时?

  

  张洋解释说,掉电后,发电机一分钟发电供电是没问题的,但如果数据中心路由器、核心交换机部分没有配备机柜内备用UPS的话,掉电恢复时间可能从三五分钟达到乃至十几分钟,抑或需要从根本上人工重新恢复数据再运行。一般的服务器都会设置掉电重启,这个重启时间也会从三五分钟至十几分钟不等。如果部分服务器因掉电引起数据丢失、损坏,而需要通过其他手段进行恢复才能运行,就需要更长的时间了。

  

  (源自中国IDC圈)

  

  


Copyright by 葵芳有限公司 All Right Rescrvod   经营许可证号 粤B1-20170056   粤ICP备14096959号-2