亚马逊云业务AWS经历了一场严重故障,导致全球众多大型网站瘫痪。
当地时间10月20日下午3点左右,亚马逊AWS发布公告称,已解决了当天持续了约15小时的服务故障问题,“所有AWS服务均恢复正常运行”。不过,部分服务(例如AWS Config、Redshift和Connect)仍有积压的消息,将在接下来的数小时内处理完毕。
目前,AWS尚未给出详细的故障原因报告。根据Synergy Research Group的数据,作为全球规模最大的云服务巨头之一,AWS占有全球云服务市场份额的30%以上,在世界各地设有数据中心。
此次故障由数据库网络故障引发,影响了全球成百上千个网站和应用程序。20日当天,美西时间凌晨12点左右,AWS的核心节点之一美国东部1区(US-EAST-1)首先报告出现“显著的错误率和延迟”现象。该节点位于美国弗吉尼亚州北部,是最早启用、规模最大的主要节点,许多全球服务默认部署于此。
最早一批受到严重影响的网站和应用程序包括亚马逊、聊天软件Snapchat和Facebook,以及热门游戏Fortnite和学习平台Canvas等等。根据公告,AWS在20日当天凌晨12时26分确认,故障的触发原因是“区域性DynamoDB(AWS旗下云原生数据库)服务端点的DNS解析问题”。
DNS(域名系统)是一种将网址转换为IP地址的系统,这也就意味着,客户端无法把DynamoDB的域名以正常的速度解析成正确的IP地址,从而导致了后续一连串服务故障。在凌晨2时24分,AWS解决了美国东部1区DynamoDB的DNS问题,各项服务开始恢复。
然而,就在大家以为问题得到解决时,第二波故障开始出现。AWS发现,其依赖于DynamoDB的虚拟机服务EC2的内部子系统也出现了问题,导致无法正常启动EC2实例,而AWS的多个服务也受其影响出现了网络连接问题。
在恢复过程中,AWS对启动EC2实例等操作进行了限流,直到当天下午3时01分,所有AWS服务才恢复正常运行。
根据网络故障追踪网站Downdetector的统计,金融服务公司Venmo和Robinhood、加密货币交易所Coinbase、苹果公司的音乐和电视产品、AI公司Perplexity、视频网站Zoom、索尼游戏平台PlayStation、美国联合航空等网站或应用都在当天经历了服务中断,而英国政府网站Gov.uk和英国税务海关总署也遇到了问题。在故障发生后的短短两小时内,仅美国地区的相关投诉量便突破2万条。
根据互联网性能监控公司Catchpoint的估算,AWS此次服务中断造成的经济损失将至少达到数十亿美元。Catchpoint的CEO Mehdi Daoudi指出,如果将本次宕机的后续影响、公司停业损失和“数百万名无法进行工作的员工的生产力损失”都考虑在其中,累计损失金额将会是数百亿美元乃至千亿美元。
咨询公司Duckbill的首席云计算经济学家Corey Quinn表示,此次事故可能是AWS自2021年12月发生重大中断以来最严重的一次:“问题在于,这次到底算不算那种‘大规模灾难’,还是由于我们的系统之间更加紧密相连、对亚马逊的依赖更深,所以造成的影响看起来更大?”
这让人联想起去年7月时,网络安全公司CrowdStrike造成的微软大规模蓝屏事件。那次大规模宕机事件因CrowdStrike公司升级安全软件而引发,影响了全球大约850万台安装微软Windows操作系统的设备。
网络安全公司NymVPN的首席数字官Rob Jardin表示,AWS的本次宕机事件似乎并非由网络攻击引起,更可能是由于“亚马逊某个主要数据中心出现技术故障”所致:“当系统过载或网络中的关键组件宕机时,就可能出现这种问题。由于大量网站和应用程序都依赖AWS,影响往往会迅速蔓延。”
美国圣母大学(University of Notre Dame)门多萨商学院的信息技术教授Mike Chapple也强调,问题并非出在数据库本身,而是域名解析系统:“这次事件提醒我们,整个世界对亚马逊、微软和谷歌这少数几家大型云服务商的依赖有多深。当一家主要的云厂商‘打喷嚏’时,整个互联网都会感冒。”
或许是事故让市场重新认识到了AWS的重要性,20日当天,亚马逊(Nasdaq:AMZN)股价涨1.61%收于每股216.48美元,总市值2.31万亿美元。