IT入门必备 篇二十二:不容易啊,阿里云史诗级故障居然还有赔偿金~你领到了没
伊始:
本年度互联网史诗级灾难不经意间悄悄溜走,如果不是一封邮件,我还想不起这个事情。得力于阿里云的快速处理能力,我自己的云业务喜提50大洋赔偿~(蚊子小也是肉啊~)
简单来说云计算服务提供商通常会为其服务中断或故障提供相应的赔偿,但具体的赔偿方案和金额取决于多种因素,如故障持续时间、影响范围、客户所使用的服务类型等。
一、突然收到邮件,赔偿如下
如果不是收到赔偿邮件,我还不知道事情闹那么大,之前几次崩盘都有业务影响,只不过都是部分业务机房受限,业务收到局限性影响不太大,报道也立马消失,本次参考字越少事越大原则,估计阿里内部会有不小的动荡。
二、事情始末:
12日18时许,阿里云发布公告称,阿里云云产品控制台服务异常,阿里云立即发布公告,公告显示,北京时间2023年11月12日17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。工程师通过分批重启组件服务,绝大部分地域控制台服务已恢复访问。
崩盘的这消息立马上了热搜,在19:20左右,阿里旗下淘宝、钉钉、阿里云盘等APP已全面恢复。各大新闻立马成为头条。
以之前阿里云的经验,是没啥赔偿的,这次罕见的造成全线崩盘,整起事故耗时3个小时,地域范围波及甚广,国内如华南1(深圳)、西南1(成都)、华南3(广州)、华东1(杭州)、华北5(呼和浩特)等,海外如印度(孟买)、英国(伦敦)、美国(硅谷)、韩国(首尔)等全部业务受限。从业务范围来说,已经涉及业务线底层了,影响是相当恶劣了,堪称史诗级灾难。
根据对外的问题分析报告,罕见的是底层AK访问问题,阿里云工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。发生此次事故后,估计往后多半年基层干活的人背锅了。
三、思考总结(提升灾备体系)
尽管阿里云在此次事故后进行了赔偿,但仍然引起了一些质疑。有些人认为这是阿里云裁员的结果,说了这么多,好像我们自己搭建机房不出问题似的,如同360老总说的一样死海效应,做实事的往往会最先离职,都蒸发了,最后留下的都是混日子的老油条,包括管理层也一样。
对于企业而言,多平台灾备是非常必要的。尽管阿里云在此次事故中表现出了较强的处理能力和平台安全能力,但仍然需要考虑到其他云服务提供商的可用性。企业需要制定灾备计划并保持与多个云服务提供商的合作,以确保在出现类似问题时能够快速响应并减少损失。
总之,这件事情给我们提醒,任何服务都有可能出现问题。关键在于企业如何管理和应对这些问题。通过制定灾备计划并与多个云服务提供商合作,企业可以更好地应对类似的问题并确保业务的连续性。
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~