上千网站受影响！亚马逊云服务四年来最严重宕机：时长15小时，潜在损失或超百亿美元

亚马逊云业务AWS经历了一场严重故障，导致全球众多大型网站瘫痪。

当地时间10月20日下午3点左右，亚马逊AWS发布公告称，已解决了当天持续了约15小时的服务故障问题，“所有AWS服务均恢复正常运行”。不过，部分服务（例如AWS Config、Redshift和Connect）仍有积压的消息，将在接下来的数小时内处理完毕。

目前，AWS尚未给出详细的故障原因报告。根据Synergy Research Group的数据，作为全球规模最大的云服务巨头之一，AWS占有全球云服务市场份额的30%以上，在世界各地设有数据中心。

故障触发原因：核心节点出现DNS解析故障

此次故障由数据库网络故障引发，影响了全球成百上千个网站和应用程序。20日当天，美西时间凌晨12点左右，AWS的核心节点之一美国东部1区（US-EAST-1）首先报告出现“显著的错误率和延迟”现象。该节点位于美国弗吉尼亚州北部，是最早启用、规模最大的主要节点，许多全球服务默认部署于此。

最早一批受到严重影响的网站和应用程序包括亚马逊、聊天软件Snapchat和Facebook，以及热门游戏Fortnite和学习平台Canvas等等。根据公告，AWS在20日当天凌晨12时26分确认，故障的触发原因是“区域性DynamoDB（AWS旗下云原生数据库）服务端点的DNS解析问题”。

DNS（域名系统）是一种将网址转换为IP地址的系统，这也就意味着，客户端无法把DynamoDB的域名以正常的速度解析成正确的IP地址，从而导致了后续一连串服务故障。在凌晨2时24分，AWS解决了美国东部1区DynamoDB的DNS问题，各项服务开始恢复。

然而，就在大家以为问题得到解决时，第二波故障开始出现。AWS发现，其依赖于DynamoDB的虚拟机服务EC2的内部子系统也出现了问题，导致无法正常启动EC2实例，而AWS的多个服务也受其影响出现了网络连接问题。

在恢复过程中，AWS对启动EC2实例等操作进行了限流，直到当天下午3时01分，所有AWS服务才恢复正常运行。

根据网络故障追踪网站Downdetector的统计，金融服务公司Venmo和Robinhood、加密货币交易所Coinbase、苹果公司的音乐和电视产品、AI公司Perplexity、视频网站Zoom、索尼游戏平台PlayStation、美国联合航空等网站或应用都在当天经历了服务中断，而英国政府网站Gov.uk和英国税务海关总署也遇到了问题。在故障发生后的短短两小时内，仅美国地区的相关投诉量便突破2万条。

专家：全球网络对几大云巨头的依赖程度越来越深

分析指出，此次宕机事件凸显了全球互联网基础设施的脆弱性。

根据互联网性能监控公司Catchpoint的估算，AWS此次服务中断造成的经济损失将至少达到数十亿美元。Catchpoint的CEO Mehdi Daoudi指出，如果将本次宕机的后续影响、公司停业损失和“数百万名无法进行工作的员工的生产力损失”都考虑在其中，累计损失金额将会是数百亿美元乃至千亿美元。

咨询公司Duckbill的首席云计算经济学家Corey Quinn表示，此次事故可能是AWS自2021年12月发生重大中断以来最严重的一次：“问题在于，这次到底算不算那种‘大规模灾难’，还是由于我们的系统之间更加紧密相连、对亚马逊的依赖更深，所以造成的影响看起来更大？”

这让人联想起去年7月时，网络安全公司CrowdStrike造成的微软大规模蓝屏事件。那次大规模宕机事件因CrowdStrike公司升级安全软件而引发，影响了全球大约850万台安装微软Windows操作系统的设备。

网络安全公司NymVPN的首席数字官Rob Jardin表示，AWS的本次宕机事件似乎并非由网络攻击引起，更可能是由于“亚马逊某个主要数据中心出现技术故障”所致：“当系统过载或网络中的关键组件宕机时，就可能出现这种问题。由于大量网站和应用程序都依赖AWS，影响往往会迅速蔓延。”

美国圣母大学（University of Notre Dame）门多萨商学院的信息技术教授Mike Chapple也强调，问题并非出在数据库本身，而是域名解析系统：“这次事件提醒我们，整个世界对亚马逊、微软和谷歌这少数几家大型云服务商的依赖有多深。当一家主要的云厂商‘打喷嚏’时，整个互联网都会感冒。”

或许是事故让市场重新认识到了AWS的重要性，20日当天，亚马逊（Nasdaq：AMZN）股价涨1.61%收于每股216.48美元，总市值2.31万亿美元。

上千网站受影响！亚马逊云服务四年来最严重宕机：时长15小时，潜在损失或超百亿美元

Published by

风君子

最新文章

标签

书签