KDDIの通信障害で考えるべき「3つの課題」 障害を起こさないため/起きたときにどうすべきか(1/2 ページ)

» 2022年08月02日 15時41分 公開
[田中聡ITmedia]

 KDDIが7月29日に記者会見を開き、7月2日から4日にかけて発生した通信障害の原因と再発防止策について説明した。

KDDI 通信障害を受けてKDDIが発したメッセージ
KDDI 会見で説明を行った高橋誠社長と吉村和幸取締役執行役員専務

 今回の通信障害は、7月2日1時35分から4日15時まで、61時間25分にわたって全国で発生するという大規模なものになった(復旧の最終確認をしたのは、障害発生から86時間1分後の5日15時36分)。携帯事業者が起こした通信障害としては過去最大といえ、ユーザーの日常生活や産業に多大な影響を及ぼした。本稿では、29日の説明をもとに、「障害の原因と再発防止策」「障害発生後の告知方法」「障害が起きた際の対応策」について解説する。

KDDI 通信障害の影響規模
KDDI 法人にもさまざまな分野で影響を及ぼした
KDDI 障害発生から復旧までの流れ

障害の原因は「人為ミス」と「復旧手順の確認不足」

 まずは障害の原因について。7月2日、多摩ネットワークセンターに設置した全国中継網ルーターのメンテナンス作業中に、ルーターの経路を誤設定してしまった。そもそもなぜ誤設定してしまったのか。取締役執行役員専務の吉村和幸氏によると、「ネットワークのルーティングのポリシーに変更があり、手順書の変更が発生したので、新しい手順書を使わないといけなかったが、古い手順書を使ってしまった」ことが原因だという。手順書の承認作業は経ていたが、目視で確認していたため、ミスに気付かなかったようだ。吉村氏は「目検だけでなくシステム的なところで確認できるよう取り組んでいく」と話す。

 ルーター経路の誤設定によって位置登録要求が破棄され、ネットワーク内の再送が急増して、多摩ネットワークセンターのVoLTE交換機にトラフィックが集中する輻輳(ふくそう)が起きた。全国中継網を介して分散処理を行っているため、他の拠点にあるVoLTE交換機も同様に輻輳となった。これにより、全国で音声通話がしづらい状況に陥った。

KDDI 通信障害の全体像
KDDI 障害の根本原因は、ルーター作業の経路誤設定。そこからVoLTE交換機で輻輳が起きた

 この誤設定を素早く修復できていれば、ここまで大規模化することはなかった。大規模化した要因について高橋誠社長は「特殊なネットワーク状態での輻輳制御が十分に考慮されていなかった」ことを挙げる。

 障害発生後、すぐに多摩ネットワークセンターを訪れて話を聞いたという高橋氏は「ルートの誤設定をした後に、1分くらいでVoLTE交換機が輻輳していたが、設定を戻すまでに15分ほどの時間が掛かってしまった。VoLTE交換機をリセットしながら直すのだが、バックアップファイルが壊れて生成されていた」と振り返る。バックアップファイルは定期的に生成されるが、その際に輻輳が起きて異常な状態となったことで壊れてしまい、この発見に時間が掛かってしまったことが長期化につながった。

 VoLTE交換機と、モバイル網の設備であるPGW(Packet data network GateWay)は、ネットワーク内で再送するごとに加入者データベースに認証を行うが、その際に過剰な信号が流れ込んで、加入者データベースも輻輳を起こした。加入者データベースの負荷を抑えるために流量制限を実施したものの、輻輳は解消しなかった。そんな中、VoLTE交換機18台のうち、6台が過剰な信号を送出していたことが分かった。そこで、これら6台を切り離すことで再送が収まって輻輳が回復した。

KDDI VoLTE交換機と連動して、加入者データベースでも輻輳が発生した
KDDI 不具合の起きた6台のVoLTE交換機を切り離すことで、輻輳が回復した

 こうした輻輳の流れはKDDIも想定外だった。先述のバックアップファイルの破損やVoLTE交換機6台の異常を把握するのに時間が掛かったことを含め、「複雑な輻輳状況における復旧手順が確立されていなかった」ことが長期化につながった。

KDDI メンテナンス作業、大規模化、長期化という3つの要因で大規模かつ長期的な障害が発生した

 今回の障害を受け、KDDIは品質とサービスの向上に向けた体制を作っていく。高橋氏を責任者とする対策会議を開き、「作業品質強化」「運用強化」「設備強化」「お客さま対応強化」のワーキンググループを作る。

KDDI 品質・サービス向上に向けた推進体制を構築していく

 障害の課題を「メンテナンス作業」「大規模化」「長期化」「ユーザー周知」の4点に分類して再発防止策を策定。メンテナンス作業では、作業手順管理ルールや作業承認手法、作業リスク評価や作業抑制基準などを見直す。大規模化については、VoLTE交換機のより詳細な輻輳検知ツールを開発し、輻輳制御の設定を見直す。

 ユーザー周知について、詳細は後述するが、ユーザー目線の情報開示と、適切なタイミングでの情報提供手法を2022年9月末までに拡充していくとしている。

KDDI 4つの観点から再発防止策を実施していく
       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年