AWSで発生した広範囲な障害は、クラウドサービスに依存するリスクをCIOに再認識させた。この障害から、CIOはどのような教訓を得るべきなのか。システムのレジリエンスを向上させるための策とは。専門家に聞いた。
この記事は会員限定です。会員登録すると全てご覧いただけます。
2025年10月19日から20日(現地時間、以下同)にかけて、Amazon Web Services(以下、AWS)のクラウドサービスで広範囲にわたる障害が発生した。任天堂のゲーム機「Nintendo Switch」「Nintendo Switch 2」のネットワークサービスが正常に動作しなくなるなど、このAWS障害は国内企業にも影響を及ぼした。
まずAWSは、米国東部(バージニア北部の「US-EAST-1」)リージョンで数百個に上るAWSサービスの復旧作業を進め、問題の一部を緩和した。ただしすぐには完全な解消に至らず、AWSは根本原因を特定し、修正する必要に迫られた。
AWSは米国東部リージョンの障害について、データベースサービス「Amazon DynamoDB」のDNS(ドメインネームサービス)管理システムにおける不具合が原因だったと説明している。この不具合によって、DNSの正常な処理ができなくなったという。その後も仮想マシンサービス「Amazon EC2」でのインスタンス起動が失敗する、ロードバランサーサービス「Network Load Balancer」の接続エラーが増えるなど、複数のAWSサービスに障害が連鎖し、結果的に広範な障害となった。
クラウドサービスに障害が発生すると、複数のシステムに影響が広がり、さまざまなアプリケーションが停止する。結果として障害によって、ユーザー企業の事業継続計画が妨げられる可能性がある。特に市場シェアで他社をリードするハイパースケーラーのAWSが影響を受けた場合、被害が広がりやすい。
調査会社Gartnerが2025年8月に発表した推計によると、2024年のIaaS(インフラストラクチャ・アズ・ア・サービス)に関する市場シェア(売上高ベース)は、AWSが37.7%でトップだった。これに対し、Microsoftの市場シェアは23.9%で、Googleはわずか9.0%を占めるにとどまった。
「クラウドサービスの障害は、ユーザー企業のCIO(最高情報責任者)の目を覚まさせる出来事であり、自社のITインフラのレジリエンス(障害などの危機からの回復力)を測るきっかけになる」。調査会社Info-Tech Research Groupでデジタルインフラを担当するジョン・アナンド氏は、こう述べる。
リスクをゼロに近づけようとするほど、コストは「指数関数的に増える」とアナンドは指摘する。「リスクを低くしたいのであれば、その分だけ多くの資金が必要になる」(同氏)
ベンダー選定は、CIOにとってシステムのレジリエンスを高める手段の一例にすぎない。レジリエンス向上の手段として、複数ベンダーのクラウドサービスを組み合わせるマルチクラウドを選ぶ動きもある。ただしマルチクラウドで構築したシステムは、アーキテクチャの観点から見ると複雑になり過ぎる可能性があるというのが、アナンド氏の見方だ。
レジリエンス向上策としてのマルチクラウドは「理論上は魅力的に見え、カンファレンスでも話題になる」とアナンド氏は指摘する。ただし実際にマルチクラウドをレジリエンス向上に生かしているユーザー企業は「ほとんどない」と同氏は語る。「クラウドサービスには障害が起こるという前提で、どう対処するかを計画する必要がある」(同)
TechTarget(Informa TechTargetとして事業展開)の調査ブランドOmdiaのITオペレーション部門に所属するチーフアナリスト、ロイ・イルズリー氏は、マルチクラウドがレジリエンスの向上に一定の効果があることを認める。ただし異なるベンダーのクラウドサービス間でワークロード(アプリケーションやプロセス)を移行するのは、実際には「難しい」というのが、イルズリー氏の考えだ。
AWSほどの大手ベンダーのクラウドサービスであっても障害が発生することから「代替策がなければ、企業は身動きが取れなくなる」とイルズリー氏は語る。CIOにとっては、マルチクラウドにオンプレミスインフラを組み合わせることが理想的ではあるものの、それは「高コストで、かつ複雑な取り組みになる」(同氏)。
レジリエンスの向上には「万能薬はない」とイルズリー氏は語る。同氏はCIOに対して「必要な調査と検証を実施し、主要なクラウドベンダーから独立した、堅牢(けんろう)な復旧計画の策定を検討すべきだ」とアドバイスする。
システムの障害によって業務を中断せざるを得なかった企業には、膨大なコストが発生する恐れがある。アプリケーション監視ベンダーのNew Relicが2025年9月に発表したデータによると、技術的な問題によるシステムの稼働停止が1時間発生すると、企業は中央値で200万ドルもの損失を被る。クラウドサービスの障害は、システムの稼働停止を招く主な原因の一つだと同社は指摘する。
2024年にセキュリティベンダーのCrowdStrikeが、「Windows」デバイスで稼働する自社製品に対して不具合のあるアップデートを配信してしまった結果、世界中のシステムが混乱に陥った。このインシデントでは、米経済誌Fortuneによる米国企業の売上高ランキング「Fortune 500」に名を連ねる企業に、50億ドルもの直接的な損失が発生した。特に医療業界が、最も大きな財務的混乱に見舞われたという。
アナリストや専門家によると、予期しないシステム障害は、企業にとって自社の事業継続計画を見直すチャンスになる。「クラウドサービスが停止するかどうかではなく、いつ停止するかが問題だ」とアナンド氏は指摘し、CIOは他の経営幹部と共にリスクを管理し、対策を立てることが必要だと説く。
本記事は、編集ディレクターであるニコール・ラスコウスキ氏が寄稿したものだ。
開示事項:Informaは、Informa TechTarget(CIO DiveおよびOmdiaの運営元)の株式の過半数を有するが、CIO Diveの報道内容に一切影響を与えていない。
© Industry Dive. All rights reserved.