“切断上海广州的网络!”
“趁他们不注意吃饭的时候注射攻击!”
“然后在凌晨3点大家都在睡觉的时候再攻一波!”
……
这是华为云最近破获的一个“阴谋”,就在春节前。
这波攻击之所以不可小觑,是因为如果阴谋得逞,华为云内部系统的运行将面临严重后果。
在一个月内发动了20多次联合攻击
袭击者的计划始于三个月前。
经过密谋和谈判,他们决定在春节前后“大干一场”,在近一个月内发动了20多次联合袭击。
动机很简单:春节期间,各种短视频,社交媒体,包括自拍软件等的流量。激增。理论上,那是大多数云服务厂商流量最高,最容易失败的时候。
一旦攻击成功,大量互联网服务将会不稳定,甚至造成较大影响。
尤其是除夕抢红包等活动,早上8点到凌晨1点是流量高峰期,用户多一秒钟故障都受不了。
幸运的是,这次攻击没有达到目的。
华为反应非常快,把排查问题的时间限制在3分钟,用5分钟就搞定了。最后,它在8分钟内处理了系统故障,整个过程没有影响业务在云上的运行。
让人不禁好奇为什么华为云会允许这些攻击反复发动。
毕竟对于华为云来说,这些攻击者已经不是“初犯”了。
从人为攻击到利用系统的“自动”攻击,从断网、故障注入到各种最新的攻击“武器”,他们都尝试过。
但即使面对未知的攻击,华为云依然可以快速应对。
不仅是这种春节前夕的攻击,面对各种类型的攻击,他们都能及时发现系统异常,快速定位并解决问题,将整个过程压缩到10分钟。
这是为什么呢?
待命的“特种部队”
原来,这个秘密策划了三个月,攻击华为云上千次的攻击者团队,其实是华为云内部的一个“秘密团队”,名叫“蓝军”。
他们不断设计最新的攻击弹药,随时突袭华为的云系统。
至于作为防守方的红军队伍,时刻待命,一旦探测到蓝军攻击,会第一时间修复。
两队没有沟通,何时触发攻击也是未知。
除了人为攻击,蓝军甚至使用了混沌工程。系统会随机自动攻击红军维护的系统。在过去的一年里,攻击总数达到了2000+。
而这种攻击的背后,所有的行动都只有一个目的——
提高华为云系统的稳定性和应急响应能力。
即使在春节期间,系统的维护和防御也不会停止:华为云成立了“特别小组”。
“特战队”的规模是几百人,都是处理过无数次攻击、身经百战的全栈工程师。
从即日起至元宵节,“专项指挥部”成员以三班倒的形式,7×24小时专职从事春运运维保障工作。
华为云,春节保障纪录片!今年春节,#华为云投入2000多名工程师,21年11月开始筹备,在数字世界发起“春节保卫战”;“在线”是我们的责任!#打造智慧世界云基地#华为#春节#运维视频号
这样,即使攻击者想“潜入”,过程也不会太容易。
但这只是回答了第一个问题。
为什么华为云面对攻击,能够快速稳定的处理整个过程?
故障率保持在0.01% 以内
可以说,蓝军的这次进攻,恰好打中了早已有所准备的红军的“枪口”。
早在三个月前,也就是11月5日,红军就开始通过流量预测,排查系统风险,进一步降低故障率。
其实这已经不是传统意义上的运维团队了。
无论是日常排除风险故障、维护系统稳定的红军,还是春节值班的“特种部队”,都来自华为云内部一支“训练有素”的队伍——SRE。
SRE的概念最初被定义为“通过软件工程的方式从事操作和维护活动”。而在华为云这里,就更加精细了,为了实现“高可用”的目标,诞生了一套“确定性”的方法论。
总之,在设计产品的时候,要考虑高可用架构,动态明确风控,加入智能运维平台,控制不确定的风险,达到确定性的风控质量。
SRE团队自主研发了智能运维平台,以数据驱动的方式实现了运维流程的标准化和自动化。具体来说,这个平台不仅可以实时记录运维数据,还可以全程衡量各个环节的质量,真正缩短问题发现、故障定位、修复的时间。
如今,平台监测指标数达到160亿/小时,运维系统用户数达到10000+,变化频率为每分钟两次,兼顾智能运维、日志等功能。
除了智能运维平台,SRE团队还将通过流量预估的方式,进一步提高系统的可用性,降低风险发生的概率。
具体来说,资源使用量是通过特定的算法模型结合指标来估算的。
华为云的背后,是一支博士大军,其中有一个专门的算法创新实验室。研究人员将在算法优化方面协助流量估算员。例如,最近一篇关于用强化学习解决虚拟机调度问题的实验室论文已经被顶级期刊《模式识别》接收。
同时,它还将借助云操作系统和全局调度技术,对有限的流量资源进行“挤压”和分配,包括采用“Eta Ursae Majoris”智能云大脑,负责全云的资源分配、调配、动员和供应,并结合全局调度技术,进一步细化资源的利用效率。
目前华为云系统的故障率也压制在0.01%以下,即一年的故障时间保持在53分钟以内。
捍卫数字世界的春节
事实上,华为云今年已经投入近千人保卫春节。
其中,整个SRE团队有几百人,一直处于“全员上线”的状态进行准备。
在某种程度上,他们和传统行业的员工一样,是春节期间的值班人员,保证我们生活的便利。
只是维度从线下的物理世界变成了线上的数字世界。
在运维行业工作了20多年的张志认为,春节的味道其实并没有变,只是换了一个新的地方过年。
以前春节主要在物理世界,现在数字世界的春节可能比物理世界更热闹。现在我在数字世界,可以和朋友一起过年,抢红包,刷视频。
目睹了他的同龄人的许多灾难,他认为这一责任是不可或缺的:
你不知道风险什么时候会发生。但SRE确实可以降低遭遇风险的可能性。
从其他岗位转战SRE的施胜兵,在春节期间调侃这个身份的特殊性:
SRE是华为云背后的角色。实际上,我们很少在春节这样的节日里“露面”,因为当它出现时,往往“不是什么好事”。
但这份工作让他感受到了“新的春天”:
我在华为工作了二十年,在这个团队一年半了。我以为我的上一份工作是我职业生涯的最后一份,但现在我感觉一个新的春天要来了。
一方面,SRE本身就是华为云最年轻的团队。
另一方面,随着行业的快速增长,年轻的SRE正在成为云服务质量保证的中坚力量。
事实上,这种对数字生活的保护并非孤例。
平常的电子公交卡、一键打车、吃饭时的数字支付、生病时的网上预约、网购和网游聚会,回想起来,我们已经离不开数字生活了。
如果再往前看,从最早提出的“智慧地球”,到后来AI发展带来的“全真互联网”,再到现在的“元宇宙”,行业热词从来都与数字世界息息相关。
具体来说,从技术上来说,包括近几年“数字人”的爆发,以及随着AI的发展再次被提起的XR设备,也说明我们的生活确实在不自觉地与数字世界融合。
在数字世界中,云服务已经成为不可或缺的基础设施,而不是新兴技术。
换句话说,我们所有的互联网服务和数字产品最终都是由云带来并运行在云上的,甚至当我们成为数字虚拟世界的一部分时,我们也会被加载到云上。
传统物理世界的水电、桥梁、房屋还原到数字世界后,不过是存储在云端的一些数据而已。
在这种趋势下,云服务的稳定性变得和数字世界中基础设施的稳定性一样重要,尤其是在春节期间。
如今的特殊时期,反而比以往更依赖数字春运的保障。
这一次华为云的攻防演练和红蓝对抗的披露,既是先进经验和机制的分享,也是对日益依赖的“数字世界基础设施”的提醒。
-结尾-
原文链接:责任编辑:Wannan