ITmedia NEWS >

覚えてる? 約2週間続いたKDDIのクラウド障害、その後の対応はあれどうなったの? 大規模障害・インシデントのその後2023

» 2023年11月22日 10時00分 公開
[吉川大貴ITmedia]

 2023年も残り数週間。今年もIT業界ではさまざまな出来事があった。大規模障害やインシデントなど、今年に置いていきたい出来事も少なくない。ところで、今年あった障害やインシデントが、その後どんな結末になったかはご存じだろうか。

 本連載では、そんな「あれどうなったの?」を、事後対応の参考や、来年に向けた教訓として追いかけていく。第1回となる今回は、1月末から2月にかけてKDDIが起こした大規模クラウド障害に注目。約2週間にわたったクラウド障害は、その後どうなったのか。

約2週間のクラウド障害、原因は……

 障害が発生したのは1月28日のこと。同社のクラウドサービス「KDDIクラウドプラットフォーム」の「jp2-east05」ゾーン(リージョンを構成するサーバ群の単位)で、ストレージに起因するトラブルが起きた。完全復旧には2週間以上かかる可能性もあると発表したことから話題になり、東京都葛飾区図書館の公式サイトなど、実際にサービス提供に支障をきたす例も出た。

 結局、設備の問題が解消したのは2月8日。KDDIによると、障害は「ハードウェアメモリが故障したことで、ストレージ内に不整合なメタデータ(ストレージ上のデータ保存位置情報)が発生した」ことによるものだったという。

photo 故障の原因(KDDIクラウドプラットフォームのナレッジサイトから引用)

 不整合なメタデータによってデータの処理が正常に完了せず、CPUが高負荷状態になり、ストレージの制御機器がアクセス不能な状態に。ストレージの筐体は2つ、制御機器は各筐体に2つずつ備えることで冗長化していたが、うち3つにアクセスできなくなったことで障害につながったとしている。KDDIは当時、ストレージ機器を新規に構築し、データを移行するなどして復旧していた。

「メモリが非公表の不良ロットに該当していた」 その後分かったこと

 KDDIは復旧後、再発防止策を講じている。まず、2月18日に障害の原因となったメモリを調査・交換した。故障したメモリは、非公表の不良ロットに該当していたという。新たに構築したストレージでは、不良ロットのメモリを使っていないことも確認した。

 3月には、メモリのエラー監視を自動化する仕組みも実現。その後も定期的な復旧訓練などを行っているという。ユーザーに対しては返金も実施。仮想サーバの月間稼働率がSLA(99.99%)に満たなかった場合は、その月の利用料の1割を返金。さらに、仮想サーバが全く利用できない状態が24時間以上続いた場合、その日数分の利用料金を返金したという。

 KDDIは公式サイトで「ご迷惑をお掛けしたことを、改めて深くお詫びする。再発防止を徹底するとともに、安心して利用してもらえるサービスを提供する」としている。

Copyright © ITmedia, Inc. All Rights Reserved.