软与世纪互联技术团队在北京时间4月16日上午11:45分监测到Azure服务异常。部分华东和华北用户在打开管理门户时出现问题,有些还无法连接到这些区域的虚拟机和网站。对给您和您的客户带来的不便,我们万分抱歉!
在发现问题的第一时间,微软和世纪互联立即成立了应急指挥行动小组,并启动了应急预案。截至到下午15:10分,全部服务都已恢复正常。感谢您的耐心,以及给予Azure云服务一贯的支持与理解。
事件总结:北京时间2016/4/16 11:45到15:10,使用中国东部和中国北部服务的用户在打开管理门户网站(https://manage.windowsazure.cn)时可能会遇到问题。用户也可能无法连接这些区域内的虚拟机,Redis缓存以及媒体服务。使用流分析服务的用户可能会看到正在创建的工作流和已存在的工作流停止执行。使用SQL数据库的用户可能无法创建,删除或者导入导出数据库。使用Azure活动目录的用户可能无法执行服务管理操作。使用服务总线的用户可能看不到日志,并且不能读取服务总线资源。
初步调查原因:由于负载均衡的程序问题,计算集群的负载均衡节点被移除,导致中国北部数据中心的计算集群的所有服务失去连接。
恢复:工程师将软件负载均衡的节点进行了故障转移,恢复了所有的服务。
下一步:后台工程师团队会继续跟进并确认最终原因。