障害に至った経緯については、筆者のコラムでも触れており、多くの分析記事が発表されている。おおまかな経緯説明に変化はないが、今回の会見ではより詳細な経緯が明かされた。
音声通信サービスを提供する「VoLTE交換機」のうち、主に関東地区の発話処理が集まるKDDI多摩ネットワークセンターにあるルーターが異常になったことを引き金に障害は始まった。異常の原因は、ルーター設定のミスによるものだったという。
ルーター設定に関しては、どのように設定するかの指示書を出し、設定が正しいかをチェックする社内プロセスを経て作業担当者に引き渡され設定作業を行い、設定内容を確認した上でルーターを切り替えるという手順を踏んでいた。
作業担当者にはミスがなかったものの、そもそもの指示書に誤りがあった。ネットワークセンター外からVoLTE交換機にはアクセスできるが、VoLTE交換機からネットワークセンター外には通信できない状態が15分間続いた。
高橋社長は「現場に行き状況の説明を受けたが、ルーター切り替えから1分後には大量のアラートが発生し、現場での作業そのものが膨大になっていた。これが、切り戻し(フォールバック)までに15分もかかった理由の一つ」と話す。「指示書作成の部分でミスが発生しないよう確認プロセスをもう1段階入れていれば防げる障害だった」と悔やんだ。
携帯端末が音声通信を始める際は、まず位置登録を加入者データベースに対して行うとともに、発話処理を行う際にVoLTE交換機が加入者データベースの認証処理を行う。
端末からVoLTE交換機に要求は正常に届くが、VoLTE交換機は加入者データベースに認証処理が行えない。加入者データベースはネットワークセンター外にあるためアクセスできないからだ。
このため同時並行して、2つの異なる輻輳(ふくそう、通信の過度な集中を指す)が発生していた。
1つは端末からのVoLTE交換機への要求で、VoLTE交換機にはアクセスできているはずのに応答がないため再接続を求める状況が続いた。もう1つは、発話要求を受け付けたVoLTE交換機から加入者データベースへの登録要求で繰り返し再送処理が行われ、こちらも輻輳が発生していた。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR注目記事ランキング