KDDI通信障害は“作業マニュアルの取り違え”から ヒューマンエラーで補償額73億円
auなどで7月2日に発生した通信障害は、約61時間にわたり合計3043万回線に影響を与えた。KDDIによると、障害発生の原因はルーターの設定ミスだが、そのミスが発生したのは、作業マニュアルの取り違えからだったという。
auなどで7月2日に発生した通信障害は、約81時間にわたり合計3043万回線に影響を与えた。KDDIは29日の会見で、障害発生の原因はルーターの設定ミスと説明したが、そのミスが発生したのは、作業マニュアルの取り違えからだった。
「(今回の通信障害は)防がなければならなかったものと思っている。(ルーターの)設定ミス(が原因)と言っているが、作業における指示ミスだった。オペレーターは指示通り作業した」
KDDIの高橋誠社長はそう話した。
障害発生から回復までの流れはこうだ。まず、通信ネットワーク内の中継ルーターをメンテナンスする際に設定ミスが発生。ユーザーが通信する際に発信端末から送られる「位置登録」がルーターに足止めされ、音声通信に使うネットワーク機器「VoLTE交換機」まで正常に届かない状態になった。
これによりルーターとVoLTE交換機の間で位置登録の再送が何度も繰り返され、VoLTE交換機にアクセスが集中して通信がつながりにくくなる「輻輳」状態になった。
再送のたびに、ユーザーの情報を保管している「加入者データベース(DB)」に認証を行う仕様になっていたため、加入者DBにも大量の信号が流れ込み、第2の輻輳が発生。KDDIは信号の流入を抑えて対応したが、全国に18台あるVoLTE交換機のうち6台が異常状態になり、過剰な信号を送り続けた。
最終的に異常なVoLTE交換機をネットワークから分離することで障害の解消に向かっていった。
オペレーターは正しく作業したが……マニュアルが違った
ルーターのメンテナンスに当たっていたオペレーターはマニュアルに沿って作業していた。作業難易度も高くはなかった。それでも設定にミスが発生したのは、参照するマニュアルが古いバージョンだったからだ。
KDDIではネットワークルーティングのポリシー変更に伴ってマニュアルの内容も更新していた。メンテナンス作業をする際には、使用するマニュアルの確認も兼ねた承認手続きもあり、バージョンの確認もしたが、内容が最新ではなかったという。
通信障害が発生したのは設定ミスが要因だが、影響が拡大し、長引いたのは対処に問題があったからだ。KDDIは大規模化の要因として、特殊な状況での輻輳の制御方法について考慮が足りていなかったとしている。障害が長期化したのは、複雑な輻輳状態を復旧させる手順が確立していなかったからという。
これらの要因が重なり合って、61時間・合計3043万回線の大規模障害につながった。KDDIは障害発生時に契約していた全ユーザー3589万人全員に200円を返金する他、24時間以上にわたりサービスを利用できなかったユーザー向けに2日分の利用料を返還する。補償額は同社史上最大の合計73億円。法人向けの個別対応でさらに金額がかさむ可能性もある。再発防止のための設備投資も必要だ。
高橋社長は会見で「(73億円という補償額は)業績に影響がないとは言えない」と漏らした。KDDIは今後の経営努力で損失を補う考えで、ユーザーの利用料に転嫁することはないとしている。
高橋社長によると、今回の障害での解約件数はそれほど大きくない。一方で新規契約に影響が出ているという。
KDDIは再発防止策としてこれまでに、マニュアルの管理ルールと承認方法、作業のリスク評価、復旧手順の見直し、輻輳を検知するツールの開発を実施。今後は輻輳を制御するための設計見直しや輻輳解消ツールの開発、ユーザーへの情報提供手段の拡充などを進めるとしている。
関連記事
- KDDI、全ユーザーに200円返金 通信障害の補償で 271万人は基本料を2日分減算
KDDIが、7月2日に発生した通信障害の補償として、障害発生期間中にスマートフォン、携帯電話、ホームプラス電話を契約していたすべてのユーザーに対し、請求額から200円を差し引くと発表した。 - 「足を引っ張った」は誤解──KDDI派遣の幹部は「技術に精通」と金子総務相 SNSの言説に対し
金子恭之総務大臣は7月5日、定例会見にて、2日から発生したKDDIの大規模通信障害について「利用者への周知、広報については利用者目線で見て、両社が通信事業者としての責任を十分に果たしたとはいえない」との見解を示した。 - au通信障害、巻き込まれた企業なども徐々に復旧 ヤマト、気象庁、地方銀行など
KDDIの通信障害で業務やサービスに影響を受けたヤマト運輸や気象庁、大垣共立銀行などが、通信障害の復旧に伴いおおむね通常状態に戻っていると発表した。 - au通信障害、「デュアルSIM」を使えば大丈夫だった? スマホユーザーが考えたい有事への備え
auの大規模通信障害をきっかけに、トラブルへの備えとして注目を集める「デュアルSIM」。障害の回避に向けた使い方や利用に当たっての注意点を整理する。 - 「ローミング」は通信障害の救世主になり得るか? 実現に立ちはだかる“3つの壁”
KDDIの通信障害の影響から、非常時にローミングを活用することが注目されている。だがその実現には技術面より運用や法律面で多くの課題を抱えている。「ローミングで通信障害対策」の実現可能性と課題について考えてみたい。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.