AWS 於 2025 年 10 月 20 日在美國東岸(US-East-1)區域出現大規模服務中斷,影響範圍涵蓋多項核心雲端服務,不少企業網站及應用經歷短暫效能下降甚至停擺。事件雖然引起用戶和業界關注,但不少專家指出,這類雲端服務中斷並非罕見現象,更不應成為企業放棄雲端的理由。相反,如何提升自身系統的「抗逆力」,確保遇到雲端故障時能快速應對,才是現時最值得重視的課題。
雲端事故並非罕見 建設性應對才是關鍵
根據 Gartner 首席分析師 Lydia Leong 分析,今次 AWS 故障主要由 DNS 問題引發,對 DynamoDB 等服務造成影響。這類區域性服務中斷,其實在過去十年各大雲端供應商如 Microsoft Azure、Google Cloud 亦曾發生。雲端平台雖然不能保證百分百無間斷,但整體穩定性及彈性仍遠高於傳統自建系統。
搬離雲端未必有效 應專注提升架構韌性
不少企業在遇到雲端事故時,往往第一時間考慮是否需要將業務遷回本地數據中心,或者改用其他雲服務供應商。事實上,Gartner 認為,這些「即時反應」未必有效解決問題,反而可能令架構變得更複雜,增加長遠維護及復原的難度。與其貿然轉移平台,不如專注於提升現有雲端部署的結構設計與應變能力。
分散設計與復原演練 提升系統抗逆力
提升雲端「抗逆力」的關鍵,在於系統架構的分散與彈性設計。例如,將應用部署於不同的可用區或區域,確保某一區域出現問題時可以快速切換。此外,定期備份資料、檢視及演練災難復原流程,也是確保業務連續運作的重要一環。尤其對於一些由傳統系統遷移上雲的企業,更加需要主動進行容錯與復原測試,不應假設雲端平台會「自動」提供所有高可用特性。
AWS 強調透明度 企業可利用公開資訊調整策略
AWS 近年不斷強調服務透明度,並公開分享相關事故分析與改善方向。以是次事件為例,影響完全局限於單一區域,反映其在故障隔離方面已有明顯進步。企業可善用這些資訊,根據自身需求和風險評估作出調整。
多雲未必最穩陣 單一平台做好備援更實際
另外,不少業界聲音認為多雲部署能進一步減低風險,但 Gartner 指出,除非因監管需要,否則過度追求多雲反而會令管理和開發變得複雜,甚至影響效率。對大部分企業而言,於單一雲端平台內最佳化架構,投放資源於自動化、備援及容錯設計,反而更能發揮雲端彈性的優勢。
雲端部署重在持續最佳化
總結而言,雲端服務偶爾出現中斷,並不代表雲端不可靠,更應促使企業檢視自身的架構與復原策略。選擇AWS 等主流平台,配合良好的設計和持續最佳化,依然是現今企業邁向數碼轉型及 AI 應用的最佳選擇。
參考資料: https://www.gartner.com/en/articles/aws-outage-2025
AWS HK: https://aws.amazon.com/tw/local/hongkong/
分享到 :
最新影片