システム障害による大損失は「顧客企業のせい」 CrowdStrikeがデルタ航空に反訴の根拠CIO Dive

システム障害による甚大な損害を理由にCrowdStrikeを訴えたデルタ航空に対し、CrowdStrikeは「同社が被った損害の原因は同社にある」と反訴した。どういうことか。企業が2024年最大のシステム障害から学ぶべきこととは。

» 2024年12月18日 12時30分 公開
[Matt AshareCIO Dive]

この記事は会員限定です。会員登録すると全てご覧いただけます。

CIO Dive

 CrowdStrikeが引き起こしたシステム障害による甚大な損害を理由に同社を訴えたDelta Airlines。CrowdStrikeは「Delta Airlinesの主張は誤った情報に基づいている」と述べ、同社が被った甚大な損害の原因はDelta Airlines自身にあるとして反訴した。

 CrowdStrikeによる主張の根拠はどこにあるのか。

CrowdStrikeが「顧客企業のせい」と主張する根拠は?

 CrowdStrikeのブルースクリーン事件はBPO対策の重要性を突き付けたが、ある調査によると、予算の制約を理由に十分な対策を講じない企業も多い。

 大規模なシステム障害は今後も起こると予想されており、システム障害による損失は多方面、また膨大な額に上る可能性も大きい。企業は2024年最大のシステム障害事件から何を学ぶべきか。 

 2024年7月に発生したサイバーセキュリティ企業CrowdStrikeのセキュリティアップデートの不具合によるシステム障害が世界的に多発したことを受けて、テック企業の幹部はIT運用のレジリエンスを見直した。

 しかし、データベース管理システムを提供するCockroach Labsと市場調査会社Wakefield Researchが上級クラウドアーキテクトとエンジニアリングの幹部1000人を対象として2024年8〜9月に実施した調査によると、回答者の多くが「結果に満足していない」と答えたという(注1)。

 同調査では、回答者の10人中9人以上が、「自社のITシステムが多大な損害を引き起こすシステム障害に対して運用上に脆弱(ぜいじゃく)な点があると気付いている」と答えた。約半数は「レジリエンス向上のために十分な対策を実施していない」ことを認めた。また、調査対象となった全ての企業が、「過去1年間以内にシステム障害による収益損失があった」ことを報告している。

 Cockroach Labsのスペンサー・キンボールCEOは「CIO Dive」に対して、「IT障害は広範囲に及んでいる。CrowdStrikeの問題はあまりに明白で防げるものだったため、重大な脆弱性における盲点に気付かされた」と語った。

 CrowdStrikeが引き起こしたブルースクリーン事件は企業の経営陣を驚かせた。障害の要因となったアップデートが実行されたのはわずか2時間足らずの間だったが、何百万台もの「Windows OS」のシステムをダウンさせ、大手航空会社の業務を停止状態に追い込んだ。また、世界中の銀行業務も中断され、技術チームが対応に追われることとなった(注2)。

 CrowdStrikeは世界中のさまざまな業界で幅広く利用されているため、システム障害の影響は甚大だった。空港に設置されたモニターに映し出されたエラーメッセージを見つめて立ち尽くす乗客の姿は、その損失の巨大さを物語っている。

 「規模が大きくなればなるほど、問題が起こる可能性が少しでもあれば、実際にそれは100%の確率で発生する。時には、ショベルカーが誤って光ファイバーケーブルを切断したのが原因でシステムがダウンすることもある」(キンボール氏)

「後回し」にされがちなシステム障害対策

 ITシステムに発生する不具合は流行病と同様に根絶が困難だ。今回の調査によると、平均で年間86件のシステム障害が発生しており、過半数の企業で週に1回以上サービスが停止しているという。復旧にかかる時間は平均で196分、つまり3時間以上に及ぶ。

 「システム障害は業務停滞につながる。エンジニアは呼び出されて事後処理をしなければならず、大きなストレス要因になっている」(キンボール氏)

 地理的に分散した業務では、課題は多岐にわたる。

 United Airlinesは、2024年7月19日早朝(現地時間)から発生したCrowdStrikeのシステム障害が続いた数日間、2万6000台以上のWindowsデバイスを再起動するため、数百カ所の空港にチームを派遣した(注3)。同社CIO(最高情報責任者)のジェイソン・バーンバウム氏が「CIO Dive」に語ったところによると、現地サポートが不足している拠点にスタッフが週末に車で向かうこともあった。

 システム障害によって1500便近い欠航を余儀なくされたが、障害発生から4日以内に業務を復旧させたUnited Airlinesの対応は、決して珍しいものではない。

 Cockroach Labsの調査によると、10社中9社以上の企業が「計画外の障害に対応するために必要不可欠な業務を中断せざるを得ない」と回答している。また、回答者の3分の2は「障害が発生した結果、日常的なITメンテナンスや管理業務の優先順位を下げた」と答えている。将来システム障害が発生した際は、これらの対処によってさらに大きな問題や損害金の増大を引き起こす可能性があるという。

 障害防止のための戦略的計画の立案に資金を割けないことは、企業にとってギャンブルのようなものであり、ITチームは不安定な立場に追い込まれてしまう。「システムを稼働させ続けることができなければ、職を失う可能性もある」とキンボール氏は述べる。

 回答者の3分の1以上が「予算の制約によって対策が遅れている」と回答しており、大規模な障害やダウンタイムが発生した場合、5人中4人が「自分たちの職が危うくなるのではないか」と懸念している。

「1時間当たり約3億円」の損失、どう防ぐ?

 障害対応にかかるコストは、インシデントの範囲や深刻度、企業のインシデント対応への準備の状況によって異なる。Cockroach Labsが調査したある企業は、小規模なインシデントでは約1万ドル、大規模なインシデントでは100万ドルを超える損失を報告した。

 アプリケーションやインフラの可視化プラットフォームを提供するNew RelicがCrowdStrikeのシステム障害の数カ月前に1700人の技術専門家を対象に実施した同様の調査では、機能停止による損失は1時間当たり190万ドルに上ることが判明している(注4)。

 インシデントは同じ業界であっても異なる影響を及ぼすことがある。

 航空会社のDelta Air Linesは、2024年7月の障害後の数日間で最も大きな被害を受けた米国航空会社の1社だ。United Airlinesが比較的早期にシステム障害から復旧したのに対し、Delta Air Linesは5日間で5000便以上が欠航した。同社はCrowdStrikeのシステム障害による被害額を約5億ドルと見積もっており、賠償を求めてCrowdStrikeを提訴した。

 これに対し、CrowdStrikeは2024年10月に反訴した。「Delta Air Linesが主張する損害の責任は同社にある。システム障害からの復旧が遅れたのは、Delta Air LinesのITシステムが抱える問題に原因があるからだ」というのがCrowdStrikeの主張だ(注5)。

 United Airlinesは2024年7月に発生した障害による具体的な損失額を報告していない。United Airlinesのマイク・レスキネン氏(CFO《最高財務責任者》)は2024年10月に開催した同社の決算説明会で、「天候やその他の予期せぬ出来事は航空業界ではよくあることだ。われわれは四半期ごとの業績予想に運用上の障害を織り込んでいる」と述べた(注6)。

 United Airlinesのスコット・カービーCEOは、同社の「言い訳はしない(no excuses)」の哲学について決算説明会で詳しく語った。

 「月曜日の午前9時に、エアコンの効いたオフィスの執務スペースにいるMBA(経営学修士)取得者を呼び出し、彼のコントロールが及ばない出来事でどれだけのコストが発生したかを計算させるのは簡単だ。当社のモットー『言い訳はしない』によって、こうしたコストの計算を断念させれば、革新的な方法を見付けざるを得なくなるだろう」(カービー氏)

 ただし、Cockroach Labsの調査によると、ほとんどの企業では大規模なシステム停止の影響を吸収する準備が整っていない。「大規模なシステム障害に完全に備えている」と答えたのは全体のわずか5分の1、「完璧な計画を準備している」と答えたのは全体の3分の1にすぎなかった。

「最高の企業は、自社のIT実践とレジリエンスの継続的かつ確固とした進化について長期的な視点を持っているものだ」(キンボール氏)

© Industry Dive. All rights reserved.