ITmedia NEWS > 社会とIT >

KDDI通信障害は“作業マニュアルの取り違え”から ヒューマンエラーで補償額73億円

» 2022年07月29日 20時00分 公開
[谷井将人ITmedia]

 auなどで7月2日に発生した通信障害は、約81時間にわたり合計3043万回線に影響を与えた。KDDIは29日の会見で、障害発生の原因はルーターの設定ミスと説明したが、そのミスが発生したのは、作業マニュアルの取り違えからだった。

photo KDDIの高橋誠社長(7月29日の会見にて)

 「(今回の通信障害は)防がなければならなかったものと思っている。(ルーターの)設定ミス(が原因)と言っているが、作業における指示ミスだった。オペレーターは指示通り作業した」

 KDDIの高橋誠社長はそう話した。

 障害発生から回復までの流れはこうだ。まず、通信ネットワーク内の中継ルーターをメンテナンスする際に設定ミスが発生。ユーザーが通信する際に発信端末から送られる「位置登録」がルーターに足止めされ、音声通信に使うネットワーク機器「VoLTE交換機」まで正常に届かない状態になった。

 これによりルーターとVoLTE交換機の間で位置登録の再送が何度も繰り返され、VoLTE交換機にアクセスが集中して通信がつながりにくくなる「輻輳」状態になった。

photo ルーターとVoLTE交換機の間で輻輳が発生

 再送のたびに、ユーザーの情報を保管している「加入者データベース(DB)」に認証を行う仕様になっていたため、加入者DBにも大量の信号が流れ込み、第2の輻輳が発生。KDDIは信号の流入を抑えて対応したが、全国に18台あるVoLTE交換機のうち6台が異常状態になり、過剰な信号を送り続けた。

 最終的に異常なVoLTE交換機をネットワークから分離することで障害の解消に向かっていった。

オペレーターは正しく作業したが……マニュアルが違った

 ルーターのメンテナンスに当たっていたオペレーターはマニュアルに沿って作業していた。作業難易度も高くはなかった。それでも設定にミスが発生したのは、参照するマニュアルが古いバージョンだったからだ。

 KDDIではネットワークルーティングのポリシー変更に伴ってマニュアルの内容も更新していた。メンテナンス作業をする際には、使用するマニュアルの確認も兼ねた承認手続きもあり、バージョンの確認もしたが、内容が最新ではなかったという。

 通信障害が発生したのは設定ミスが要因だが、影響が拡大し、長引いたのは対処に問題があったからだ。KDDIは大規模化の要因として、特殊な状況での輻輳の制御方法について考慮が足りていなかったとしている。障害が長期化したのは、複雑な輻輳状態を復旧させる手順が確立していなかったからという。

photo 誤設定、大規模化、長期化それぞれに問題あり

 これらの要因が重なり合って、61時間・合計3043万回線の大規模障害につながった。KDDIは障害発生時に契約していた全ユーザー3589万人全員に200円を返金する他、24時間以上にわたりサービスを利用できなかったユーザー向けに2日分の利用料を返還する。補償額は同社史上最大の合計73億円。法人向けの個別対応でさらに金額がかさむ可能性もある。再発防止のための設備投資も必要だ。

 高橋社長は会見で「(73億円という補償額は)業績に影響がないとは言えない」と漏らした。KDDIは今後の経営努力で損失を補う考えで、ユーザーの利用料に転嫁することはないとしている。

 高橋社長によると、今回の障害での解約件数はそれほど大きくない。一方で新規契約に影響が出ているという。

 KDDIは再発防止策としてこれまでに、マニュアルの管理ルールと承認方法、作業のリスク評価、復旧手順の見直し、輻輳を検知するツールの開発を実施。今後は輻輳を制御するための設計見直しや輻輳解消ツールの開発、ユーザーへの情報提供手段の拡充などを進めるとしている。

Copyright © ITmedia, Inc. All Rights Reserved.