CrowdStrikeのソフトウェアアップデートの不具合が引き起こしたIT障害により、米国航空業界は大きな影響を受けた。何がUnited AirlinesとDelta Air Linesの明暗を分けたのか。
この記事は会員限定です。会員登録すると全てご覧いただけます。
United Airlinesは、2024年7月19日(現地時間、以下同)に発生した「CrowdStrike」のアップデートの不具合によるIT障害から迅速に復旧するためのリソースを整えていたと、同社幹部は2024年7月25日午前に行われた2024年第2四半期決算説明会で述べた(注1)。
「他の航空会社や世界中のビジネスと同じように、当社の運用システムの多くがオフラインになった。しかし、障害発生から1時間以内に適切な運営チームとIT専門家を集め、システムを復旧させて航空機を再び運行させるための計画を策定し、実行した」とデビッド・セイモア氏(COO《最高執行責任者》)は話した。
United Airlinesは、2024年7月19日午前0時過ぎに「CrowdStrike Falcon」センサーの欠陥あるアップデートが行われた後、IT障害の影響を受けた主要な米国航空会社の中で最も早く通常運航に復旧した1社だ(注2)。フライト追跡ツールを提供するFlightAwareによると、同社は最初の24時間で400便以上のフライトをキャンセルせざるを得なかったが、翌日の欠航は50便にとどまった(注3)。
ソフトウェアによって引き起こされた世界的な混乱への対応時間は、航空会社によって異なっていた。United Airlinesが夏の旅行シーズンの忙しい週末に世界365カ所で2万6000台以上のコンピュータを手動で再起動させたのに対し、Delta Air Linesは運航を取り戻すのに苦戦し、2024年7月23日までに500便以上のフライトを欠航した(注4)。
CrowdStrikeのバグは特定の「Windows」ベースのシステムに影響を与えたものであり、「Linux」や「macOS」を使用している企業はほとんど影響を受けなかった。バグによってシステムダウンした航空会社にとっての課題は、何百もの空港のシステムを修復するためにITチームを迅速に配備することだった。
Gartnerのジョン・アマート氏(シニアディレクターアナリスト)は、「CIO Dive」への電子メールで次のように述べた。
「復旧を最も妨げていたのは、大部分が手動で、人の手による復旧プロセスが必要という点だ。そのため一般的にはITサポート担当者か、少なくとも彼らの指導の下で働くスタッフが、復旧プロセスを実行するために影響を受けた全てのコンピュータに物理的にアクセスしなければならない」(アマート氏)
航空会社は乗客を飛行機に乗せ、目的地まで送り届けるために複数の顧客向けエンドポイントに依存しているが、United Airlinesにとっては乗務員追跡システムが復旧の鍵となった。
「われわれが今回のインシデントで学んだことは、どんな障害においても航空機と乗務員の位置を確実に把握しておくことが重要であり、見失わないよう回復に向けて可能な限り早急に対応することが必要だということだ」と、United Airlinesのロバート・アイゾム氏(CEO)は決算説明会で語った。
「われわれは早期の予防措置を講じ、早期のステップを踏むための技術を構築しており、それが最終的に良い結果をもたらした。また、現場のチームメンバーと連絡を取るための機器や手段を確保していたことも功を奏した」(アイゾム氏)
Delta Air Linesが復旧に難航したことによって、乗務員再配置ソフトウェアの障害がもたらす危険性が浮き彫りになった。同社のエド・バスティアン氏(CEO)は、乗務員追跡ツールが2024年7月21日の顧客向けアップデートのシステム停止によって引き起こされた大量の変更に圧倒されたことを認めたという。
United Airlinesは以前、天候による障害を克服した経験があり、今回のIT障害への備えはできていたとアイゾム氏は決算説明会で語った。2022年12月にSouthwest Airlinesで暴風雨を原因とする乗務員再配置システムの不具合が起こり、毎年恒例のホリデーシーズン中に1週間以上欠航したことで10億ドル規模の惨事に発展している。これを受け、アイゾム氏は2023年に運用技術への投資を優先した(注5)。
Delta Air Linesの最終的な損失額はまだ算出されていない。しかし、ピート・ブッティギーグ氏(運輸長官)の2024年7月23日の声明によれば、米国運輸省は同社の危機対応について調査を開始した(注6)。
技術的な観点から、CIO(最高情報責任者)は今後数週間から数カ月の間に、ベンダーの欠陥あるアップデートからシステムを保護する方法についてさらに学ぶことになるだろう。
Info-Tech Research Groupのジョン・アナンド氏(プラクティスリード)は電子メールで次のように述べている。
「事後検証の結果が公表されるにつれて、ますます多くの要因が明らかになるだろう。おそらくWindowsの特定のビルドと影響を受けたマシンとの間には関連があるが、自動化がここで大きな役割を果たしたことは間違いない。問題の原因を明確に説明できることが重要だ。そうすることで過去の教訓を生かし、パッチを適用する前に何らかの方法でテストを実施するという従来の手法に戻せるだろう」(アナンド氏)
(注1)American Airlines Group Inc. (AAL) Q2 2024 Earnings Call Transcript(Seeking Alpha)
(注2)CrowdStrike says flawed update was live for 78 minutes(CIO Dive)
(注3)United completes manual reboot as aviation industry reels from CrowdStrike outages(CIO Dive)
(注4)Delta’s CrowdStrike recovery stymied by crew-tracking systems failure(CIO Dive)
(注5)Southwest Airlines targets more than IT in December meltdown analysis(CIO Dive)
(注6)Secretary Pete Buttigieg(X)
© Industry Dive. All rights reserved.