覚えてる？　約2週間続いたKDDIのクラウド障害、その後の対応は：あれどうなったの？　大規模障害・インシデントのその後2023

2023年に起きた大規模障害やインシデントのその後を追いかける。今回は、1月末から2月にかけてKDDIが起こした大規模クラウド障害に注目。

LINE

Hatena

　2023年も残り数週間。今年もIT業界ではさまざまな出来事があった。大規模障害やインシデントなど、今年に置いていきたい出来事も少なくない。ところで、今年あった障害やインシデントが、その後どんな結末になったかはご存じだろうか。

　本連載では、そんな「あれどうなったの？」を、事後対応の参考や、来年に向けた教訓として追いかけていく。第1回となる今回は、1月末から2月にかけてKDDIが起こした大規模クラウド障害に注目。約2週間にわたったクラウド障害は、その後どうなったのか。

約2週間のクラウド障害、原因は……

　障害が発生したのは1月28日のこと。同社のクラウドサービス「KDDIクラウドプラットフォーム」の「jp2-east05」ゾーン（リージョンを構成するサーバ群の単位）で、ストレージに起因するトラブルが起きた。完全復旧には2週間以上かかる可能性もあると発表したことから話題になり、東京都葛飾区図書館の公式サイトなど、実際にサービス提供に支障をきたす例も出た。

　結局、設備の問題が解消したのは2月8日。KDDIによると、障害は「ハードウェアメモリが故障したことで、ストレージ内に不整合なメタデータ（ストレージ上のデータ保存位置情報）が発生した」ことによるものだったという。

故障の原因（KDDIクラウドプラットフォームのナレッジサイトから引用）

　不整合なメタデータによってデータの処理が正常に完了せず、CPUが高負荷状態になり、ストレージの制御機器がアクセス不能な状態に。ストレージの筐体は2つ、制御機器は各筐体に2つずつ備えることで冗長化していたが、うち3つにアクセスできなくなったことで障害につながったとしている。KDDIは当時、ストレージ機器を新規に構築し、データを移行するなどして復旧していた。

「メモリが非公表の不良ロットに該当していた」　その後分かったこと

　KDDIは復旧後、再発防止策を講じている。まず、2月18日に障害の原因となったメモリを調査・交換した。故障したメモリは、非公表の不良ロットに該当していたという。新たに構築したストレージでは、不良ロットのメモリを使っていないことも確認した。

　3月には、メモリのエラー監視を自動化する仕組みも実現。その後も定期的な復旧訓練などを行っているという。ユーザーに対しては返金も実施。仮想サーバの月間稼働率がSLA（99.99％）に満たなかった場合は、その月の利用料の1割を返金。さらに、仮想サーバが全く利用できない状態が24時間以上続いた場合、その日数分の利用料金を返金したという。

　KDDIは公式サイトで「ご迷惑をお掛けしたことを、改めて深くお詫びする。再発防止を徹底するとともに、安心して利用してもらえるサービスを提供する」としている。

覚えてる？　約2週間続いたKDDIのクラウド障害、その後の対応は：あれどうなったの？　大規模障害・インシデントのその後2023

約2週間のクラウド障害、原因は……

「メモリが非公表の不良ロットに該当していた」　その後分かったこと

関連記事

関連リンク

覚えてる？ 約2週間続いたKDDIのクラウド障害、その後の対応は：あれどうなったの？ 大規模障害・インシデントのその後2023

約2週間のクラウド障害、原因は……

「メモリが非公表の不良ロットに該当していた」 その後分かったこと

関連記事

関連リンク

覚えてる？　約2週間続いたKDDIのクラウド障害、その後の対応は：あれどうなったの？　大規模障害・インシデントのその後2023

「メモリが非公表の不良ロットに該当していた」　その後分かったこと