覚えてる? 約2週間続いたKDDIのクラウド障害、その後の対応は:あれどうなったの? 大規模障害・インシデントのその後2023
2023年に起きた大規模障害やインシデントのその後を追いかける。今回は、1月末から2月にかけてKDDIが起こした大規模クラウド障害に注目。
2023年も残り数週間。今年もIT業界ではさまざまな出来事があった。大規模障害やインシデントなど、今年に置いていきたい出来事も少なくない。ところで、今年あった障害やインシデントが、その後どんな結末になったかはご存じだろうか。
本連載では、そんな「あれどうなったの?」を、事後対応の参考や、来年に向けた教訓として追いかけていく。第1回となる今回は、1月末から2月にかけてKDDIが起こした大規模クラウド障害に注目。約2週間にわたったクラウド障害は、その後どうなったのか。
約2週間のクラウド障害、原因は……
障害が発生したのは1月28日のこと。同社のクラウドサービス「KDDIクラウドプラットフォーム」の「jp2-east05」ゾーン(リージョンを構成するサーバ群の単位)で、ストレージに起因するトラブルが起きた。完全復旧には2週間以上かかる可能性もあると発表したことから話題になり、東京都葛飾区図書館の公式サイトなど、実際にサービス提供に支障をきたす例も出た。
結局、設備の問題が解消したのは2月8日。KDDIによると、障害は「ハードウェアメモリが故障したことで、ストレージ内に不整合なメタデータ(ストレージ上のデータ保存位置情報)が発生した」ことによるものだったという。
不整合なメタデータによってデータの処理が正常に完了せず、CPUが高負荷状態になり、ストレージの制御機器がアクセス不能な状態に。ストレージの筐体は2つ、制御機器は各筐体に2つずつ備えることで冗長化していたが、うち3つにアクセスできなくなったことで障害につながったとしている。KDDIは当時、ストレージ機器を新規に構築し、データを移行するなどして復旧していた。
「メモリが非公表の不良ロットに該当していた」 その後分かったこと
KDDIは復旧後、再発防止策を講じている。まず、2月18日に障害の原因となったメモリを調査・交換した。故障したメモリは、非公表の不良ロットに該当していたという。新たに構築したストレージでは、不良ロットのメモリを使っていないことも確認した。
3月には、メモリのエラー監視を自動化する仕組みも実現。その後も定期的な復旧訓練などを行っているという。ユーザーに対しては返金も実施。仮想サーバの月間稼働率がSLA(99.99%)に満たなかった場合は、その月の利用料の1割を返金。さらに、仮想サーバが全く利用できない状態が24時間以上続いた場合、その日数分の利用料金を返金したという。
KDDIは公式サイトで「ご迷惑をお掛けしたことを、改めて深くお詫びする。再発防止を徹底するとともに、安心して利用してもらえるサービスを提供する」としている。
関連記事
- KDDIのクラウド障害、設備の問題が解消 発生から約2週間 「申し訳ございませんでした」
KDDIが、クラウドサービス「KDDIクラウドプラットフォームサービス」の障害について、設備の問題が解消したと発表した。1月28日の発生から約2週間かかった。 - KDDIのクラウド障害、完全復旧には2週間以上かかる可能性【訂正あり】
約80時間にわたって障害が発生しているKDDIのクラウドサービス。完全復旧には2週間以上かかる可能性があるという。 - KDDIのクラウド障害、今度は約1週間で復旧 一部で仮想サーバ作成できず、原因は?
KDDIが、3月15日から障害が発生していたクラウドサービスの復旧を発表した。同サービスでは、東日本リージョンの一部で仮想サーバを立ち上げる場合、特定の方法だとエラーが出てインスタンスが作成できない問題が起きていた。 - KDDIのIaaSで60時間にわたる障害 一部ゾーンで「復旧には相当な時間を要する見込み」【追記あり】
KDDIのIaaSで、1月28日午前4時ごろから障害が発生している。一部サーバでストレージが故障しており、ユーザーがサービスを使えない状態という。 - KDDIのクラウドでまたトラブル、すでに5日経過 一部で仮想サーバ作成できず
KDDIのクラウドサービス「KCPS」で3月15日から障害が発生している。東日本リージョンの一部で、特定の方法で仮想サーバを立ち上げる場合に、エラーが出てインスタンスが作成できない状態という。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.